paimonCluster 表函数 - ClickHouse Documentation

这是对 paimon 表函数的扩展。它支持在指定集群的多个节点上并行处理 Apache Paimon 中的文件。在 initiator 节点上，它会与集群中的所有节点建立 connection，并动态分发各个文件。在工作线程节点上，它会向 initiator 请求下一个要处理的 task 并进行处理。如此反复，直到所有 tasks 都处理完成。

语法

paimonS3Cluster(cluster_name, url [,aws_access_key_id, aws_secret_access_key] [,format] [,structure] [,compression] [,extra_credentials])

paimonAzureCluster(cluster_name, connection_string|storage_account_url, container_name, blobpath, [,account_name], [,account_key] [,format] [,compression_method])

paimonHDFSCluster(cluster_name, path_to_table, [,format] [,compression_method])

参数

cluster_name — 集群名称，用于构建远程和本地服务器的地址集合及连接参数。
其他所有参数的说明与等效的 paimon 表函数中的参数说明一致。
可选参数 extra_credentials 可用于传递 role_arn，以便在 ClickHouse Cloud 中进行基于角色的访问控制。配置步骤请参见安全访问 S3。

返回值 返回一个具有指定结构的表，用于从指定的 Paimon 表中读取指定集群内的数据。

虚拟列

_path — 文件路径。类型：LowCardinality(String)。
_file — 文件名。类型：LowCardinality(String)。
_size — 文件大小 (以字节为单位) 。类型：Nullable(UInt64)。如果文件大小未知，则值为 NULL。
_time — 文件的最后修改时间。类型：Nullable(DateTime)。如果时间未知，则值为 NULL。
_etag — 文件的 etag。类型：LowCardinality(String)。如果 etag 未知，则值为 NULL。

另请参阅

Paimon 表函数

​语法

​参数

​虚拟列

语法

参数

虚拟列