Обычное представление
Параметризованное представление
Materialized View
OR REPLACE и IF NOT EXISTS являются взаимоисключающими: их совместное использование вызывает синтаксическую ошибку.
CREATE OR REPLACE MATERIALIZED VIEW
CREATE OR REPLACE MATERIALIZED VIEW атомарно заменяет существующее materialized view и его внутреннюю таблицу хранения (если она есть). Для выполнения этой операции требуется движок базы данных Atomic или Replicated.
- Без предложения
TO: старая внутренняя таблица удаляется и создается новая. Существующие данные во внутренней таблице теряются, если не указанPOPULATE. - С предложением
TO: заменяется только определение представления; целевая таблица и ее данные не затрагиваются. - Совместимо с
REFRESH,ON CLUSTERи любыми параметрами движка.POPULATEподдерживается только в базах данныхAtomic— в базах данныхReplicatedон не допускается (см. примечание оPOPULATEниже). - Требуются привилегии
CREATE VIEWиDROP VIEW.
CREATE OR REPLACE MATERIALIZED VIEW поддерживается только для движков баз данных Atomic и Replicated. Для движка базы данных Ordinary это не поддерживается.TO [db].[table] необходимо указать ENGINE — движок таблицы для хранения данных.
При создании materialized view с TO [db].[table] нельзя одновременно использовать POPULATE.
Materialized view работает следующим образом: при вставке данных в таблицу, указанную в SELECT, часть вставленных данных преобразуется этим запросом SELECT, а результат вставляется в представление.
Materialized views в ClickHouse при вставке в целевую таблицу используют имена столбцов, а не их порядок. Если каких-либо имен столбцов нет в результате запроса
SELECT, ClickHouse использует значение по умолчанию, даже если столбец не имеет тип Nullable. Поэтому рекомендуется задавать псевдонимы для каждого столбца при использовании materialized views.Materialized views в ClickHouse по своей сути больше похожи на триггеры вставки. Если в запросе представления есть агрегация, она применяется только к батчу только что вставленных данных. Любые изменения существующих данных в исходной таблице (например, update, delete, drop partition и т. д.) не изменяют materialized view.Поведение materialized views в ClickHouse при ошибках не является детерминированным. Это означает, что блоки, которые уже были записаны, сохранятся в целевой таблице, а все блоки после ошибки — нет.По умолчанию, если отправка в одно из представлений завершается ошибкой, запрос INSERT тоже завершается ошибкой, и некоторые блоки могут не записаться в целевую таблицу. Это поведение можно изменить с помощью настройки materialized_views_ignore_errors (ее следует задавать для запроса INSERT): если установить materialized_views_ignore_errors=true, любые ошибки при отправке в представления будут игнорироваться, и все блоки будут записаны в целевую таблицу.Также обратите внимание, что для таблиц system.*_log значение materialized_views_ignore_errors по умолчанию равно true.POPULATE, существующие данные таблицы будут вставлены в представление при его создании, как при выполнении CREATE TABLE ... AS SELECT .... В противном случае запрос будет содержать только данные, вставленные в таблицу после создания представления. Мы не рекомендуем использовать POPULATE, поскольку данные, вставленные в таблицу во время создания представления, не будут вставлены в него.
Поскольку
POPULATE работает как CREATE TABLE ... AS SELECT ..., у него есть ограничения:- Он не поддерживается для базы данных Replicated
- Он не поддерживается в ClickHouse Cloud
INSERT ... SELECT.SELECT может содержать DISTINCT, GROUP BY, ORDER BY, LIMIT. Обратите внимание, что соответствующие преобразования выполняются независимо для каждого блока вставленных данных. Например, если задан GROUP BY, данные агрегируются во время вставки, но только в пределах одного пакета вставленных данных. Далее данные не агрегируются. Исключение — использование ENGINE, который сам выполняет агрегацию данных, например SummingMergeTree.
Если materialized view использует конструкцию TO [db.]name, можно выполнить DETACH представления, запустить ALTER для целевой таблицы, а затем ATTACH ранее отсоединённого (DETACH) представления.
Обратите внимание, что на materialized view влияет настройка optimize_on_insert. Данные объединяются перед вставкой в представление.
Представления выглядят так же, как обычные таблицы. Например, они отображаются в результате запроса SHOW TABLES.
Чтобы удалить представление, используйте DROP VIEW. Хотя DROP TABLE тоже работает для VIEW.
Безопасность SQL
DEFINER и SQL SECURITY позволяют указать, от имени какого пользователя ClickHouse выполнять запрос, лежащий в основе представления.
SQL SECURITY имеет три допустимых значения: DEFINER, INVOKER или NONE. В секции DEFINER можно указать любого существующего пользователя или CURRENT_USER.
В следующей таблице показано, какие права требуются и какому пользователю, чтобы выполнять SELECT из представления.
Обратите внимание: независимо от выбранного режима безопасности SQL, в любом случае для чтения из представления по-прежнему требуется GRANT SELECT ON <view>.
| Параметр безопасности SQL | Представление | Materialized View |
|---|---|---|
DEFINER alice | У alice должен быть grant SELECT на исходную таблицу представления. | У alice должен быть grant SELECT на исходную таблицу представления и grant INSERT на целевую таблицу представления. |
INVOKER | У пользователя должен быть grant SELECT на исходную таблицу представления. | SQL SECURITY INVOKER нельзя указывать для materialized view. |
NONE | - | - |
SQL SECURITY NONE — устаревший параметр. Любой пользователь, имеющий права на создание представлений с SQL SECURITY NONE, сможет выполнять любые произвольные запросы.
Поэтому для создания представления с этим параметром требуется GRANT ALLOW SQL SECURITY NONE TO <user>.DEFINER/SQL SECURITY не указаны, используются значения по умолчанию:
SQL SECURITY:INVOKERдля обычных представлений иDEFINERдля materialized view (настраивается через settings)DEFINER:CURRENT_USER(настраивается через settings)
DEFINER/SQL SECURITY, по умолчанию используется SQL SECURITY NONE для materialized view и SQL SECURITY INVOKER для обычного представления.
Чтобы изменить безопасность SQL для существующего представления, используйте
Примеры
Live View
Refreshable Materialized View
interval — последовательность простых интервалов:
- Если указано
APPEND, при каждом обновлении в таблицу добавляются новые строки без удаления существующих. Вставка не является атомарной, как и в обычном запросеINSERT INTO ... SELECT. - В противном случае при каждом обновлении предыдущее содержимое таблицы атомарно заменяется.
- Нет insert trigger. Когда новые данные вставляются в таблицу, указанную в
SELECT, они не передаются автоматически в refreshable materialized view. Вместо этого данные вставляются только во время периодических или ручных обновлений. - Для запроса
SELECTнет ограничений. Допускаются table functions (например,url()), views, UNION, JOIN.
Настройки в части запроса
REFRESH ... SETTINGS — это настройки обновления (например, refresh_retries), а не обычные настройки (например, max_threads). Обычные настройки можно указать с помощью SETTINGS в конце запроса.Расписание обновления
RANDOMIZE FOR случайным образом смещает время каждого обновления, например:
REFRESH EVERY 1 MINUTE занимает 2 минуты, оно будет обновляться раз в 2 минуты. Если затем оно начнёт выполняться быстрее и обновляться за 10 секунд, оно снова вернётся к обновлению раз в минуту. (В частности, оно не будет обновляться каждые 10 секунд, чтобы наверстать пропущенные обновления — никакой очереди таких обновлений не существует.)
Кроме того, обновление запускается сразу после создания materialized view, если только в запросе CREATE не указано EMPTY. Если указано EMPTY, первое обновление произойдёт по расписанию.
В базе данных Replicated
APPEND координацию можно отключить с помощью SETTINGS all_replicas = 1. В этом случае реплики выполняют обновления независимо друг от друга. Тогда ReplicatedMergeTree не требуется.
В режиме без APPEND поддерживается только координируемое обновление. Для нескоординированного обновления используйте базу данных Atomic и запрос CREATE ... ON CLUSTER, чтобы создать refreshable materialized view на всех репликах.
Координация выполняется через Keeper. Путь znode определяется настройкой сервера default_replica_path.
Зависимости обновления
DEPENDS ON синхронизирует обновление разных таблиц. Например, предположим, что существует цепочка из двух refreshable materialized view:
DEPENDS ON оба представления начнут обновляться в полночь, и в destination обычно будут попадать вчерашние данные из source. Если добавить зависимость:
destination начнется только после того, как в этот день завершится обновление source, поэтому destination будет основан на актуальных данных.
Того же результата также можно добиться с помощью:
1 HOUR может быть любой длительностью, меньшей, чем период обновления source. Зависимая таблица не будет обновляться чаще, чем любая из её зависимостей. Это корректный способ настроить цепочку refreshable views, не указывая фактический период обновления более одного раза.
Ещё несколько примеров:
REFRESH EVERY 1 DAY OFFSET 10 MINUTE(destination) зависит отREFRESH EVERY 1 DAY(source)
Если обновлениеsourceзанимает больше 10 минут,destinationбудет его ждать.REFRESH EVERY 1 DAY OFFSET 1 HOURзависит отREFRESH EVERY 1 DAY OFFSET 23 HOUR
Аналогично примеру выше, хотя соответствующие обновления происходят в разные календарные дни. Обновлениеdestinationв деньX+1будет ждать обновленияsourceв деньX(если оно занимает более 2 часов).REFRESH EVERY 2 HOURзависит отREFRESH EVERY 1 HOUR
Обновление2 HOURвыполняется после обновления1 HOURчерез каждый второй час, например после полуночного обновления, затем после обновления в 2 часа ночи и т. д.REFRESH EVERY 1 MINUTEзависит отREFRESH EVERY 2 HOUR
destinationобновляется один раз после каждого обновленияsource, то есть каждые 2 часа.1 MINUTEфактически игнорируется.REFRESH AFTER 1 HOURзависит отREFRESH AFTER 1 HOUR
В настоящее время это не рекомендуется.
DEPENDS ON работает только между refreshable materialized views. Если указать обычную таблицу в списке DEPENDS ON, view вообще никогда не будет обновляться (зависимости можно удалить с помощью ALTER, см. Изменение параметров обновления).Настройки обновления
refresh_retries- Сколько раз повторять попытку, если запрос обновления завершается исключением. Если все повторные попытки завершаются неудачей, обновление пропускается до следующего запланированного времени. 0 означает отсутствие повторных попыток, -1 — бесконечное число повторных попыток. Значение по умолчанию: 2.refresh_retry_initial_backoff_ms- Задержка перед первой повторной попыткой, еслиrefresh_retriesне равно нулю. При каждой следующей повторной попытке задержка удваивается, вплоть доrefresh_retry_max_backoff_ms. Значение по умолчанию: 100 мс.refresh_retry_max_backoff_ms- Ограничение на экспоненциальный рост задержки между попытками обновления. Значение по умолчанию: 60000 мс (1 минута).all_replicas- В Replicated database сAPPENDопределяет, будут ли все реплики обновляться независимо или в каждый запланированный момент обновление будет выполнять только одна реплика. Не может быть изменено после создания представления. Значение по умолчанию:false.prefer_dependency_replica- Если у представления естьDEPENDS ON, приоритет на выполнение зависимого обновления получает реплика, выполнившая обновление родительского объекта; остальные реплики откладывают свою попытку наprefer_dependency_replica_delay_ms. Полезно при использованииSharedMergeTree, чтобы избежать ситуаций, когда отставание репликации приводит к отсутствию данных в цепочках зависимых обновлений. Значение по умолчанию:false.prefer_dependency_replica_delay_ms- Как долго неприоритетные реплики ждут перед попыткой выполнить зависимое обновление, когда включен параметрprefer_dependency_replica. Значение по умолчанию: 2000 мс.
Изменение параметров обновления
ALTER TABLE ... MODIFY REFRESH:
EVERY или AFTER) обязательно: этот оператор всегда заменяет все параметры обновления — расписание, RANDOMIZE FOR, DEPENDS ON и настройки обновления — на указанные в нём. Всё, что опущено, сбрасывается к значению по умолчанию (настройки) или удаляется (зависимости, рандомизация).
-
Чтобы изменить только настройки обновления (например,
refresh_retries), заново укажите текущее расписание: -
ALTER TABLE ... MODIFY SETTING refresh_retries = ...не поддерживается для materialized view; нужно использоватьMODIFY REFRESH. -
Добавлять или удалять
APPENDне поддерживается. -
Настройку
all_replicasнельзя изменить после создания.
Другие операции
system.view_refreshes. В частности, в ней содержатся прогресс обновления (если оно выполняется), время последнего и следующего обновления, а также сообщение об исключении, если обновление завершилось ошибкой.
Чтобы вручную остановить, запустить, инициировать или отменить обновления, используйте SYSTEM STOP|START|REFRESH|WAIT|CANCEL VIEW.
Чтобы дождаться завершения обновления, используйте SYSTEM WAIT VIEW. Это особенно полезно, если нужно дождаться первого обновления после создания представления.
Интересный факт: запросу обновления разрешено читать из обновляемого представления, при этом он видит версию данных до обновления. Это означает, что вы можете реализовать игру «Жизнь» Конвея: https://pastila.nl/?00021a4b/d6156ff819c83d490ad2dcec05676865#O0LGWTO7maUQIA4AcGUtlA==
Оконное представление
Это экспериментальная возможность, которая в будущих выпусках может измениться обратно несовместимым образом. Чтобы включить использование оконных представлений и запроса
WATCH, включите настройку allow_experimental_window_view. Введите команду set allow_experimental_window_view = 1.MATERIALIZED VIEW. Для хранения промежуточных данных оконному представлению требуется внутреннее хранилище. Его можно указать с помощью предложения INNER ENGINE; по умолчанию оконное представление использует AggregatingMergeTree в качестве внутреннего движка.
При создании оконного представления без TO [db].[table] необходимо указать ENGINE — движок таблицы для хранения данных.
Функции временных окон
АТРИБУТЫ ВРЕМЕНИ
time_attr функции временного окна в столбец таблицы или используя функцию now(). Следующий запрос создает оконное представление с временем обработки.
WATERMARK.
Оконное представление поддерживает три стратегии водяной метки:
STRICTLY_ASCENDING: Выдаёт водяную метку, равную максимальной наблюдаемой на текущий момент временной метке. Строки, у которых временная метка меньше максимальной, не считаются опоздавшими.ASCENDING: Выдаёт водяную метку, равную максимальной наблюдаемой на текущий момент временной метке минус 1. Строки, у которых временная метка равна максимальной или меньше неё, не считаются опоздавшими.BOUNDED: WATERMARK=INTERVAL. Выдаёт водяные метки, равные максимальной наблюдаемой временной метке минус указанная задержка.
WATERMARK:
ALLOWED_LATENESS=INTERVAL. Пример обработки опоздавших событий:
SELECT запрос, указанный в оконном представлении, с помощью оператора ALTER TABLE ... MODIFY QUERY. Структура данных, получающаяся в результате выполнения нового SELECT запроса, должна быть такой же, как у исходного SELECT запроса, как с предложением TO [db.]name, так и без него. Обратите внимание, что данные в текущем окне будут потеряны, поскольку промежуточное состояние нельзя использовать повторно.
Мониторинг новых окон
TO для вывода результатов в таблицу.
LIMIT, чтобы задать количество обновлений, которые нужно получить до завершения запроса. Предложение EVENTS позволяет использовать сокращённую форму запроса WATCH: вместо результата запроса вы получите только последнюю водяную метку запроса.
Настройки
window_view_clean_interval: Интервал очистки оконного представления в секундах для удаления устаревших данных. Система сохраняет окна, которые ещё не были полностью активированы в соответствии с системным временем или конфигурациейWATERMARK, а остальные данные удаляются.window_view_heartbeat_interval: Интервал heartbeat-сигнала в секундах, показывающий, что watch-запрос активен.wait_for_window_view_fire_signal_timeout: Тайм-аут ожидания сигнала срабатывания оконного представления при обработке по времени события.
Пример
data, и структура этой таблицы такова:
WATCH получаем результаты.
data,
WATCH должен вывести результаты в следующем виде:
TO.
*window_view*).
Использование оконного представления
- Мониторинг: Агрегируйте и вычисляйте метрики по журналам во времени и выводите результаты в целевую таблицу. Панель мониторинга может использовать целевую таблицу в качестве исходной.
- Анализ: Автоматически агрегируйте и предварительно обрабатывайте данные в пределах временного окна. Это может быть полезно при анализе большого количества журналов. Предварительная обработка устраняет повторяющиеся вычисления в нескольких запросах и уменьшает задержку выполнения запросов.
- Блог: Работа с временными рядами в ClickHouse
- Блог: Создание решения для обсервабилити на ClickHouse — часть 2 — трейсы
Временные представления
- Срок жизни сеанса Временное представление существует только в рамках текущего сеанса. По завершении сеанса оно удаляется автоматически.
- Без базы данных Для временного представления нельзя указывать имя базы данных. Оно существует вне баз данных (в пространстве имен сеанса).
-
Не реплицируется / без ON CLUSTER
Временные объекты локальны для сеанса и не могут создаваться с
ON CLUSTER. - Разрешение имен Если временный объект (таблица или представление) имеет то же имя, что и постоянный объект, и запрос ссылается на это имя без указания базы данных, используется временный объект.
-
Логический объект (без хранения)
Временное представление хранит только текст своего
SELECT(внутри используется хранилищеView). Оно не сохраняет данные и не поддерживаетINSERT. -
Предложение ENGINE
Указывать
ENGINEне требуется; если указатьENGINE = View, оно будет проигнорировано / обработано как то же логическое представление. -
Безопасность / привилегии
Для создания временного представления требуется привилегия
CREATE TEMPORARY VIEW, которая неявно предоставляется черезCREATE VIEW. -
SHOW CREATE
Используйте
SHOW CREATE TEMPORARY VIEW view_name;, чтобы вывести DDL временного представления.
Синтаксис
OR REPLACE не поддерживается для временных представлений (по аналогии с временными таблицами). Если вам нужно «заменить» временное представление, удалите его и создайте заново.
Примеры
Недопустимые варианты / ограничения
CREATE OR REPLACE TEMPORARY VIEW ...→ не допускается (используйтеDROP+CREATE).CREATE TEMPORARY MATERIALIZED VIEW .../WINDOW VIEW→ не допускается.CREATE TEMPORARY VIEW db.view AS ...→ не допускается (без указания базы данных).CREATE TEMPORARY VIEW view ON CLUSTER 'name' AS ...→ не допускается (временные объекты локальны для сеанса).POPULATE,REFRESH,TO [db.table], внутренние движки и все специфичные для MV секции → не применимы к временным представлениям.
Примечания о распределённых запросах
Memory), их данные могут передаваться на удалённые серверы при выполнении распределённого запроса — так же, как и в случае временных таблиц.