跳转到主要内容
提供类表接口,可在 Amazon S3Google Cloud Storage 中选择/插入文件。该表函数与 hdfs function 类似,但提供了 S3 特有的功能。 如果集群中有多个副本,可以改用 s3Cluster function 来并行执行插入。 使用 s3 table function 配合 INSERT INTO...SELECT 时,数据会以流式方式读取并插入。内存中只会保留少量数据块,同时这些块会持续从 S3 读取并写入目标表。

语法

s3(url [, NOSIGN | access_key_id, secret_access_key, [session_token]] [,format] [,structure] [,compression_method],[,headers], [,extra_credentials], [,partition_strategy], [,partition_columns_in_data_file])
s3(named_collection[, option=value [,..]])
GCSs3 表函数可通过 GCS XML API 和 HMAC 密钥与 Google Cloud Storage 集成。有关端点和 HMAC 的更多信息,请参阅 Google interoperability docs对于 GCS,请将文中出现的 access_key_idsecret_access_key 分别替换为你的 HMAC key 和 HMAC secret。
参数 s3 表函数支持以下普通参数:
ParameterDescription
url带文件路径的存储桶 URL。只读模式下支持以下通配符:***?{abc,def}{N..M},其中 NM 表示数字,'abc''def' 表示字符串。更多信息请参见此处
NOSIGN如果在凭证位置提供此关键字,则所有请求都不会签名。
access_key_id and secret_access_key用于指定给定端点所使用凭证的密钥。可选。
session_token与给定密钥一起使用的会话令牌。传入密钥时,此参数可选。
format文件的格式
structure表的结构。格式为 'column1_name column1_type, column2_name column2_type, ...'
compression_method此参数可选。支持的值包括:nonegzipgzbrotlibrxzLZMAzstdzst。默认会根据文件扩展名自动检测压缩方法。
headers此参数可选。允许在 S3 请求中传递请求头。格式为 headers(key=value),例如 headers('x-amz-request-payer' = 'requester')
partition_strategy此参数可选。支持的值为:WILDCARDHIVEWILDCARD 要求路径中包含 {_partition_id},其会被替换为分区键。HIVE 不允许使用通配符,假定该路径为表根路径,并生成 Hive 风格的分区目录,以 Snowflake IDs 作为文件名,以文件格式作为扩展名。默认值为 WILDCARD
partition_columns_in_data_file此参数可选。仅与 HIVE 分区策略配合使用。用于告知 ClickHouse 是否应预期分区列会写入数据文件。默认值为 false
extra_credentials此参数可选。用于在 ClickHouse Cloud 中传递基于角色访问所需的 role_arn。配置步骤请参见 Secure S3
storage_class_name此参数可选。支持的值为:STANDARDINTELLIGENT_TIERING。可用于指定 AWS S3 Intelligent Tiering。默认值为 STANDARD
GCSGCS URL 的格式如下,因为 Google XML API 的端点不同于 JSON API:
  https://storage.googleapis.com/<bucket>/<folder>/<filename(s)>
而不是 ~~https://storage.cloud.google.com~~。
参数也可以通过命名集合传递。在这种情况下,urlaccess_key_idsecret_access_keyformatstructurecompression_method 的用法相同,并且还支持一些额外参数:
参数描述
filename如果指定,则会附加到 URL。
use_environment_credentials默认启用,允许通过环境变量 AWS_CONTAINER_CREDENTIALS_RELATIVE_URIAWS_CONTAINER_CREDENTIALS_FULL_URIAWS_CONTAINER_AUTHORIZATION_TOKENAWS_EC2_METADATA_DISABLED 传递额外参数。
no_sign_request默认禁用。
expiration_window_seconds默认值为 120。

返回值

一个具有指定结构的表,用于从指定文件读取数据或向其中写入数据。

示例

从 S3 文件 https://datasets-documentation.s3.eu-west-3.amazonaws.com/aapl_stock.csv 对应的表中选择前 5 行:
SELECT *
FROM s3(
   'https://datasets-documentation.s3.eu-west-3.amazonaws.com/aapl_stock.csv',
   'CSVWithNames'
)
LIMIT 5;
┌───────Date─┬────Open─┬────High─┬─────Low─┬───Close─┬───Volume─┬─OpenInt─┐
│ 1984-09-07 │ 0.42388 │ 0.42902 │ 0.41874 │ 0.42388 │ 23220030 │       0 │
│ 1984-09-10 │ 0.42388 │ 0.42516 │ 0.41366 │ 0.42134 │ 18022532 │       0 │
│ 1984-09-11 │ 0.42516 │ 0.43668 │ 0.42516 │ 0.42902 │ 42498199 │       0 │
│ 1984-09-12 │ 0.42902 │ 0.43157 │ 0.41618 │ 0.41618 │ 37125801 │       0 │
│ 1984-09-13 │ 0.43927 │ 0.44052 │ 0.43927 │ 0.43927 │ 57822062 │       0 │
└────────────┴─────────┴─────────┴─────────┴─────────┴──────────┴─────────┘
ClickHouse 会根据文件扩展名判断数据格式。例如,上一条命令其实也可以不显式指定 CSVWithNames
SELECT *
FROM s3(
   'https://datasets-documentation.s3.eu-west-3.amazonaws.com/aapl_stock.csv'
)
LIMIT 5;
ClickHouse 也能判断文件的压缩方法。例如,如果文件以 .csv.gz 为扩展名,ClickHouse 会自动将其解压。
文件名类似 *.parquet.snappy*.parquet.zstd 的 Parquet 文件可能会让 ClickHouse 误判,并导致 TOO_LARGE_COMPRESSED_BLOCKZSTD_DECODER_FAILED 错误。 这是因为 ClickHouse 会尝试将整个文件当作 Snappy 或 ZSTD 编码的数据来读取,而实际上,Parquet 的压缩是在行组和列这两个层级上应用的。Parquet 元数据已经指定了每列使用的压缩方式,因此文件扩展名是多余的。 在这种情况下,可以直接使用 compression_method = 'none'
SELECT *
FROM s3(
  'https://<my-bucket>.s3.<my-region>.amazonaws.com/path/to/my-data.parquet.snappy',
  compression_format = 'none'
);

使用方法

假设我们在 S3 上有若干文件,URI 如下: 统计文件名以数字 1 到 3 结尾的文件中的行数:
SELECT count(*)
FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/my-test-bucket-768/{some,another}_prefix/some_file_{1..3}.csv', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')
┌─count()─┐
│      18 │
└─────────┘
统计这两个目录中所有文件的总行数:
SELECT count(*)
FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/my-test-bucket-768/{some,another}_prefix/*', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32')
┌─count()─┐
│      24 │
└─────────┘
如果文件列表中包含带前导零的数字范围,请对每一位分别使用大括号写法,或使用 ?
统计名为 file-000.csvfile-001.csv、…、file-999.csv 的文件中的总行数:
SELECT count(*)
FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/my-test-bucket-768/big_prefix/file-{000..999}.csv', 'CSV', 'column1 UInt32, column2 UInt32, column3 UInt32');
┌─count()─┐
│      12 │
└─────────┘
将数据插入文件 test-data.csv.gz
INSERT INTO FUNCTION s3('https://clickhouse-public-datasets.s3.amazonaws.com/my-test-bucket-768/test-data.csv.gz', 'CSV', 'name String, value UInt32', 'gzip')
VALUES ('test-data', 1), ('test-data-2', 2);
从现有表中将数据写入文件 test-data.csv.gz
INSERT INTO FUNCTION s3('https://clickhouse-public-datasets.s3.amazonaws.com/my-test-bucket-768/test-data.csv.gz', 'CSV', 'name String, value UInt32', 'gzip')
SELECT name, value FROM existing_table;
Glob ** 可用于递归遍历目录。以下示例将递归拉取 my-test-bucket-768 目录中的所有文件:
SELECT * FROM s3('https://clickhouse-public-datasets.s3.amazonaws.com/my-test-bucket-768/**', 'CSV', 'name String, value UInt32', 'gzip');
以下示例递归地从 my-test-bucket 目录内所有子文件夹中的 test-data.csv.gz 文件获取数据:
SELECT * FROM s3('https://clickhouse-public-datasets.s3.amazonaws.com/my-test-bucket-768/**/test-data.csv.gz', 'CSV', 'name String, value UInt32', 'gzip');
注意:可以在服务器配置文件中指定自定义 URL 映射器。示例:
SELECT * FROM s3('s3://clickhouse-public-datasets/my-test-bucket-768/**/test-data.csv.gz', 'CSV', 'name String, value UInt32', 'gzip');
URL 's3://clickhouse-public-datasets/my-test-bucket-768/**/test-data.csv.gz' 将被替换为 'http://clickhouse-public-datasets.s3.amazonaws.com/my-test-bucket-768/**/test-data.csv.gz' 可在 config.xml 中添加自定义映射器:
<url_scheme_mappers>
   <s3>
      <to>https://{bucket}.s3.amazonaws.com</to>
   </s3>
   <gs>
      <to>https://{bucket}.storage.googleapis.com</to>
   </gs>
   <oss>
      <to>https://{bucket}.oss.aliyuncs.com</to>
   </oss>
</url_scheme_mappers>
对于生产环境,建议使用 命名集合。示例如下:

CREATE NAMED COLLECTION creds AS
        access_key_id = '***',
        secret_access_key = '***';
SELECT count(*)
FROM s3(creds, url='https://s3-object-url.csv')

分区写入

分区策略

仅支持 INSERT 查询。 WILDCARD (默认) :将文件路径中的 {_partition_id} 通配符替换为实际分区键。 HIVE 对读写操作采用 Hive 风格分区。它会按以下格式生成文件:<prefix>/<key1=val1/key2=val2...>/<snowflakeid>.<toLower(file_format)> HIVE 分区策略示例
INSERT INTO FUNCTION s3(s3_conn, filename='t_03363_function', format=Parquet, partition_strategy='hive') PARTITION BY (year, country) SELECT 2020 as year, 'Russia' as country, 1 as id;
SELECT _path, * FROM s3(s3_conn, filename='t_03363_function/**.parquet');

   ┌─_path──────────────────────────────────────────────────────────────────────┬─id─┬─country─┬─year─┐
1. │ test/t_03363_function/year=2020/country=Russia/7351295896279887872.parquet │  1 │ Russia  │ 2020 │
   └────────────────────────────────────────────────────────────────────────────┴────┴─────────┴──────┘
WILDCARD 分区策略示例
  1. 在键名中使用分区 ID 会创建单独的文件:
INSERT INTO TABLE FUNCTION
    s3('http://bucket.amazonaws.com/my_bucket/file_{_partition_id}.csv', 'CSV', 'a String, b UInt32, c UInt32')
    PARTITION BY a VALUES ('x', 2, 3), ('x', 4, 5), ('y', 11, 12), ('y', 13, 14), ('z', 21, 22), ('z', 23, 24);
因此,数据会被写入三个文件:file_x.csvfile_y.csvfile_z.csv
  1. 如果在存储桶名称中使用分区 ID,就会在不同的存储桶中创建文件:
INSERT INTO TABLE FUNCTION
    s3('http://bucket.amazonaws.com/my_bucket_{_partition_id}/file.csv', 'CSV', 'a UInt32, b UInt32, c UInt32')
    PARTITION BY a VALUES (1, 2, 3), (1, 4, 5), (10, 11, 12), (10, 13, 14), (20, 21, 22), (20, 23, 24);
因此,数据会分别写入不同存储桶中的三个文件:my_bucket_1/file.csvmy_bucket_10/file.csvmy_bucket_20/file.csv

访问公共桶

ClickHouse 会尝试从多种不同类型的来源获取凭证。 有时,访问某些公共桶时会因此出现问题,导致客户端返回 403 错误码。 可以使用 NOSIGN 关键字来避免此问题,强制客户端忽略所有凭证,并且不对请求进行签名。
SELECT *
FROM s3(
   'https://datasets-documentation.s3.eu-west-3.amazonaws.com/aapl_stock.csv',
   NOSIGN,
   'CSVWithNames'
)
LIMIT 5;

使用 S3 凭证 (ClickHouse Cloud)

对于非公开 桶,用户可以向该函数传入 aws_access_key_idaws_secret_access_key。例如:
SELECT count() FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/mta/*.tsv', '<KEY>', '<SECRET>','TSVWithNames')
这适用于一次性访问,或凭证可以轻松轮换的情况。不过,对于需要重复访问或凭证较为敏感的场景,不建议将其作为长期解决方案。在这种情况下,我们建议用户采用基于角色的访问控制。 有关 ClickHouse Cloud 中 S3 基于角色的访问控制,请参阅此处 配置完成后,可通过 extra_credentials 参数将 roleARN 传递给 s3 函数。例如:
SELECT count() FROM s3('https://datasets-documentation.s3.eu-west-3.amazonaws.com/mta/*.tsv','CSVWithNames',extra_credentials(role_arn = 'arn:aws:iam::111111111111:role/ClickHouseAccessRole-001'))
更多示例可在此处查看

处理归档文件

假设我们在 S3 上有几个具有以下 URI 的归档文件: 可以使用 :: 从这些归档文件中提取数据。通配符既可用于 URL 部分,也可用于 :: 后面的部分 (用于指定归档文件内的文件名) 。
SELECT *
FROM s3(
   'https://s3-us-west-1.amazonaws.com/umbrella-static/top-1m-2018-01-1{0..2}.csv.zip :: *.csv'
);
ClickHouse 支持三种归档格式: ZIP TAR 7Z ZIP 和 TAR 归档可从任何受支持的存储位置访问,而 7Z 归档只能从安装 ClickHouse 的本地文件系统读取。

插入数据

请注意,只能向新文件中插入数据行。不会执行合并周期或文件拆分操作。文件一旦写入,后续插入就会失败。更多详情请参见此处

虚拟列

  • _path — 文件路径。Type: LowCardinality(String)。如果是归档文件,则按以下格式显示路径:"{path_to_archive}::{path_to_file_inside_archive}"
  • _file — 文件名。Type: LowCardinality(String)。如果是归档文件,则显示归档内文件的名称。
  • _size — 文件大小 (以字节为单位) 。Type: Nullable(UInt64)。如果文件大小未知,则值为 NULL。如果是归档文件,则显示归档内文件的未压缩大小。
  • _time — 文件的最后修改时间。Type: Nullable(DateTime)。如果时间未知,则值为 NULL

use_hive_partitioning 设置

这是向 ClickHouse 提供的一个提示,用于在读取时解析采用 Hive 风格分区的文件。它对写入没有影响。若要实现读写对称,请使用 partition_strategy 参数。 use_hive_partitioning 设置为 1 时,ClickHouse 会检测路径中的 Hive 风格分区 (/name=value/) ,并允许在查询中将分区列作为虚拟列使用。这些虚拟列将与分区路径中的名称相同。 示例
SELECT * FROM s3('s3://data/path/date=*/country=*/code=*/*.parquet') WHERE date > '2020-01-01' AND country = 'Netherlands' AND code = 42;

访问请求方付费桶

要访问请求方付费桶,必须在所有请求中传递请求头 x-amz-request-payer = requester。这可以通过向 s3 函数传入参数 headers('x-amz-request-payer' = 'requester') 来实现。例如:
SELECT
    count() AS num_rows,
    uniqExact(_file) AS num_files
FROM s3('https://coiled-datasets-rp.s3.us-east-1.amazonaws.com/1trc/measurements-100*.parquet', 'AWS_ACCESS_KEY_ID', 'AWS_SECRET_ACCESS_KEY', headers('x-amz-request-payer' = 'requester'))

┌───num_rows─┬─num_files─┐
1110000000111
└────────────┴───────────┘

1 row in set. Elapsed: 3.089 sec. Processed 1.09 billion rows, 0.00 B (353.55 million rows/s., 0.00 B/s.)
Peak memory usage: 192.27 KiB.

存储设置

嵌套 Avro schema

读取包含嵌套记录且各文件之间存在差异的 Avro 文件时 (例如,某些文件在嵌套对象内多了一个额外字段) ,ClickHouse 可能会返回类似以下错误:
record 中叶子节点的数量与 tuple 中元素数量不匹配…
这是因为 ClickHouse 要求所有嵌套记录结构都匹配同一个 schema。 要处理这种情况,可以:
  • 使用 schema_inference_mode='union' 合并不同的嵌套记录 schema,或
  • 手动对齐嵌套结构,并启用 use_structure_from_insertion_table_in_table_functions=1
性能说明schema_inference_mode='union' 在非常大的 S3 数据集上可能需要更长时间,因为它必须扫描每个文件来推断 schema。
示例
INSERT INTO data_stage
SELECT
    id,
    data
FROM s3('https://bucket-name/*.avro', 'Avro')
SETTINGS schema_inference_mode='union';

## 相关内容           

- [S3 引擎](/reference/engines/table-engines/integrations/s3)
- [将 S3 与 ClickHouse 集成](/integrations/connectors/data-ingestion/AWS/integrating-s3-with-clickhouse)
最后修改于 2026年6月10日