跳转到主要内容
这是对 paimon 表函数的扩展。 它支持在指定 集群 的多个节点上并行处理 Apache Paimon 中的文件。在 initiator 节点上,它会与 集群 中的所有节点建立 connection,并动态分发各个文件。在工作线程节点上,它会向 initiator 请求下一个要处理的 task 并进行处理。如此反复,直到所有 tasks 都处理完成。

语法

paimonS3Cluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])

paimonAzureCluster(cluster_name, connection_string|storage_account_url, container_name, blobpath, [,account_name], [,account_key] [,format] [,compression_method])

paimonHDFSCluster(cluster_name, path_to_table, [,format] [,compression_method])

参数

  • cluster_name — 集群名称,用于构建远程和本地服务器的地址集合及连接参数。
  • 其他所有参数的说明与等效的 paimon 表函数中的参数说明一致。
  • 可选参数 extra_credentials 可用于传递 role_arn,以便在 ClickHouse Cloud 中进行基于角色的访问控制。配置步骤请参见安全访问 S3
返回值 返回一个具有指定结构的表,用于从指定的 Paimon 表中读取指定集群内的数据。

虚拟列

  • _path — 文件路径。类型:LowCardinality(String)
  • _file — 文件名。类型:LowCardinality(String)
  • _size — 文件大小 (以字节为单位) 。类型:Nullable(UInt64)。如果文件大小未知,则值为 NULL
  • _time — 文件的最后修改时间。类型:Nullable(DateTime)。如果时间未知,则值为 NULL
  • _etag — 文件的 etag。类型:LowCardinality(String)。如果 etag 未知,则值为 NULL
另请参阅
最后修改于 2026年6月10日