| Ввод | Вывод | Псевдоним |
|---|---|---|
| ✔ | ✗ |
Описание
Regex разбирает каждую строку импортируемых данных в соответствии с заданным регулярным выражением.
Использование
Регулярное выражение из настройки format_regexp применяется к каждой строке импортируемых данных. Количество подшаблонов в регулярном выражении должно совпадать с количеством столбцов в импортируемом наборе данных.
Строки импортируемых данных должны разделяться символом новой строки '\n' или последовательностью новой строки в стиле DOS "\r\n".
Содержимое каждого совпавшего подшаблона разбирается методом соответствующего типа данных в соответствии с настройкой format_regexp_escaping_rule.
Если регулярное выражение не совпадает со строкой и format_regexp_skip_unmatched установлено значение 1, строка пропускается без уведомления. В противном случае генерируется исключение.
Пример использования
data.tsv:
data.tsv
imp_regex_table:
Query
Query
SELECT из таблицы, чтобы увидеть, как формат Regex разобрал данные из файла:
Query
Response
Настройки формата
Regexp можно использовать следующие настройки:
-
format_regexp— String. Содержит регулярное выражение в синтаксисе re2. -
format_regexp_escaping_rule— String. Поддерживаются следующие правила экранирования:- CSV (как в CSV
- JSON (как в JSONEachRow
- Escaped (как в TSV
- Quoted (как в Values
- Raw (извлекает подшаблоны целиком, без правил экранирования, как в TSVRaw
-
format_regexp_skip_unmatched— UInt8. Определяет, следует ли сгенерировать исключение, если выражениеformat_regexpне соответствует импортируемым данным. Можно установить значение0или1.