Documentación sobre el tipo de dato JSON en ClickHouse, que ofrece compatibilidad nativa para trabajar con datos JSON
¿Buscas una guía?
Consulta nuestra guía de buenas prácticas para JSON para ver ejemplos, funciones avanzadas y aspectos a tener en cuenta al usar el tipo JSON.
El tipo JSON almacena documentos JavaScript Object Notation (JSON) en una única columna.
En ClickHouse Open-Source, el tipo de datos JSON se considera apto para producción a partir de la versión 25.3. No se recomienda usar este tipo en producción en versiones anteriores.
Para declarar una columna de tipo JSON, puedes usar la siguiente sintaxis:
Los parámetros de la sintaxis anterior se definen así:
Parámetro
Descripción
Valor predeterminado
max_dynamic_paths
Un parámetro opcional que indica cuántas rutas pueden almacenarse por separado como subcolumnas en un mismo bloque de datos almacenado por separado (por ejemplo, en una misma parte de datos de una tabla MergeTree).
Si se supera este límite, todas las demás rutas se almacenarán juntas en una única estructura llamada datos compartidos.
También existen formas de cambiar el límite de rutas dinámicas sin modificar este parámetro.
1024
max_dynamic_types
Un parámetro opcional entre 1 y 255 que indica cuántos tipos de datos distintos pueden almacenarse por separado dentro de una misma columna de ruta de tipo Dynamic en un mismo bloque de datos almacenado por separado (por ejemplo, en una misma parte de datos de una tabla MergeTree).
Si se supera este límite, todos los tipos nuevos se almacenarán juntos en una única estructura llamada shared variant.
32
some.path TypeName
Una indicación de tipo opcional para una ruta concreta del JSON. Estas rutas siempre se almacenarán como subcolumnas con el tipo especificado.
SKIP path.to.skip
Una indicación opcional para una ruta concreta que debe omitirse durante el análisis del JSON. Estas rutas nunca se almacenarán en la columna JSON. Si la ruta especificada es un objeto JSON anidado, se omitirá todo el objeto anidado.
SKIP REGEXP 'path_regexp'
Una indicación opcional con una expresión regular que se usa para omitir rutas durante el análisis del JSON. Todas las rutas que coincidan con esta expresión regular nunca se almacenarán en la columna JSON.
El tipo JSON está diseñado para consultar, filtrar y agregar campos específicos dentro de objetos JSON con estructuras dinámicas o impredecibles. Lo consigue dividiendo los objetos JSON en sub-columnas independientes, lo que reduce drásticamente la cantidad de datos leídos y acelera las consultas sobre los campos seleccionados en comparación con alternativas como Map o analizar cadenas.Sin embargo, esto conlleva desventajas importantes:
INSERTs más lentos - Dividir el JSON en sub-columnas, realizar la inferencia de tipos y gestionar estructuras de almacenamiento flexibles hace que las inserciones sean más lentas que almacenar el JSON como una simple columna String.
Más lento al leer objetos completos - Si necesita recuperar documentos JSON completos (en lugar de campos específicos), el tipo JSON es más lento que leer desde una columna String. La sobrecarga de reconstruir objetos a partir de sub-columnas independientes no aporta ningún beneficio cuando no se realizan consultas a nivel de campo.
Sobrecarga de almacenamiento - Mantener sub-columnas independientes añade sobrecarga estructural en comparación con almacenar JSON como un único valor de cadena.
Usa una columna String (o tipos estructurados) cuando:
La estructura de tus datos es conocida y consistente; en este caso, usa columnas normales o tipos Tuple, Array, Dynamic o Variant
Los documentos JSON se tratan como blobs opacos que solo se almacenan y recuperan completos, sin análisis a nivel de campo
No necesitas consultar ni filtrar campos individuales de JSON dentro de la base de datos
JSON es simplemente un formato de transporte/almacenamiento y no se analiza dentro de ClickHouse
Si JSON es un documento opaco que no se analiza dentro de la base de datos y solo se almacena y se recupera, debe almacenarse como un campo String. Las ventajas del tipo JSON solo se materializan cuando necesitas consultar, filtrar o agregar de forma eficiente campos específicos dentro de estructuras JSON dinámicas.También puedes combinar ambos enfoques: usa columnas estándar para campos de nivel superior predecibles y una columna JSON para las secciones dinámicas del payload.
Las rutas JSON se almacenan de forma aplanada. Esto significa que, cuando se da formato a un objeto JSON a partir de una ruta como a.b.c,
no es posible saber si el objeto debe construirse como { "a.b.c" : ... } o como { "a": { "b": { "c": ... } } }.
Nuestra implementación siempre asumirá lo segundo.Por ejemplo:
El tipo JSON permite leer cada ruta como una subcolumna independiente.
Si no se especifica el tipo de la ruta solicitada en la declaración del tipo JSON,
la subcolumna de esa ruta siempre tendrá el tipo Dynamic.Por ejemplo:
Como podemos ver, para a.b, el tipo es UInt32, tal como especificamos en la declaración del tipo JSON,
y para todas las demás subcolumnas el tipo es Dynamic.También es posible leer subcolumnas de un tipo Dynamic mediante la sintaxis especial json.some.path.:TypeName:
Query
SELECT json.a.g.:Float64, dynamicType(json.a.g), json.d.:Date, dynamicType(json.d)FROM test
Las subcolumnas Dynamic pueden convertirse a cualquier tipo de dato. En este caso, se lanzará una excepción si el tipo interno de Dynamic no puede convertirse al tipo solicitado:
Query
SELECT json.a.g::UInt64 AS uintFROM test;
Response
┌─uint─┐│ 42 ││ 0 ││ 43 │└──────┘
Query
SELECT json.a.g::UUID AS floatFROM test;
Response
Received exception from server:Code: 48. DB::Exception: Received from localhost:9000. DB::Exception:Conversion between numeric types and UUID is not supported.Probably the passed UUID is unquoted:while executing 'FUNCTION CAST(__table1.json.a.g :: 2, 'UUID'_String :: 1) -> CAST(__table1.json.a.g, 'UUID'_String) UUID : 0'.(NOT_IMPLEMENTED)
Para leer subcolumnas de forma eficiente en partes Compact de MergeTree, asegúrese de que esté habilitada la configuración de MergeTree write_marks_for_substreams_in_compact_parts.
Cuando las rutas se almacenan en datos compartidos básicos (map), la lectura de subcolumnas de subobjetos puede ser ineficiente, ya que requiere recorrer toda la estructura de datos compartidos. Con la serialización de datos compartidos map_with_buckets o advanced, la lectura de subcolumnas desde datos compartidos está muy optimizada.
El tipo JSON permite leer una ruta como una subcolumna combinada mediante la sintaxis especial json.@some.path.
Una subcolumna combinada para una ruta determinada devuelve:
El valor literal almacenado en esa ruta como Dynamic, si la ruta tiene un valor literal.
Un subobjeto JSON en esa ruta como Dynamic, si la ruta no tiene un valor literal pero sí tiene subrutas anidadas.
NULL, si en esa ruta no existe ni un valor literal ni ninguna subruta.
Esto es útil cuando una ruta puede contener un valor escalar o un objeto anidado en distintas filas, y resulta más práctico que consultar por separado la subcolumna literal (json.a) y la subcolumna de subobjeto (json.^a).El siguiente ejemplo compara los tres tipos de subcolumna para la ruta a:
Query
CREATE TABLE test (json JSON) ENGINE = Memory;INSERT INTO test VALUES ('{"a" : 42, "b" : {"c" : 1, "d" : "Hello"}}'), ('{"a" : {"x": 1, "y": 2}, "b" : {"c" : 1}}'), ('{"c" : "World"}');SELECT json FROM test;
Fila 1: a contiene un literal 42. json.a lo devuelve como Dynamic(Int64), json.^a devuelve un subobjeto vacío {} (sin claves anidadas en a) y json.@a devuelve el literal 42.
Fila 2: a contiene un objeto anidado. json.a devuelve NULL (no hay ningún literal en esa ruta), json.^a devuelve el subobjeto como JSON y json.@a también devuelve el subobjeto como Dynamic(JSON).
Fila 3: a no está presente en absoluto. Tanto json.a como json.@a devuelven NULL, mientras que json.^a devuelve un {} vacío.
Cuando las rutas se almacenan en datos compartidos básicos (map) shared data, la lectura de subcolumnas combinadas puede ser ineficiente, ya que requiere recorrer toda la estructura de datos compartidos. Con la serialización de datos compartidos map_with_buckets o advanced, la lectura de subcolumnas desde los datos compartidos está muy optimizada.
Las rutas JSON que contienen un array de objetos se analizan como el tipo Array(JSON) y se insertan en una columna Dynamic correspondiente a la ruta.
Para leer un array de objetos, puedes extraerlo de la columna Dynamic como una subcolumna:
Como habrás notado, los parámetros max_dynamic_types/max_dynamic_paths del tipo JSON anidado se redujeron con respecto a los valores predeterminados.
Esto es necesario para evitar que el número de subcolumnas crezca sin control en arrays anidados de objetos JSON.Intentemos leer subcolumnas de una columna JSON anidada:
Query
SELECT json.a.b.:`Array(JSON)`.c, json.a.b.:`Array(JSON)`.f, json.a.b.:`Array(JSON)`.d FROM test;
El número de [] después de la ruta indica el nivel del array. Por ejemplo, json.path[][] se transformará en json.path.:Array(Array(JSON))Veamos las rutas y los tipos dentro de nuestro Array(JSON):
Query
SELECT DISTINCT arrayJoin(JSONAllPathsWithTypes(arrayJoin(json.a.b[]))) FROM test;
Internamente, la columna JSON almacena todas las rutas y los valores de forma aplanada. Esto significa que, de forma predeterminada, estos 2 objetos se consideran iguales:
{"a" : {"b" : 42}}{"a.b" : 42}
Ambos se almacenarán internamente como un par de ruta a.b y valor 42. Durante el formateo de JSON, siempre formamos objetos anidados a partir de las partes de la ruta separadas por puntos:
Query
SELECT '{"a" : {"b" : 42}}'::JSON AS json1, '{"a.b" : 42}'::JSON AS json2, JSONAllPaths(json1), JSONAllPaths(json2);
Como puedes ver, el JSON inicial {"a.b" : 42} ahora aparece con el formato {"a" : {"b" : 42}}.Esta limitación también hace que falle el análisis de objetos JSON válidos como este:
Query
SELECT '{"a.b" : 42, "a" : {"b" : "Hello World!"}}'::JSON AS json;
Response
Code: 117. DB::Exception: Cannot insert data into JSON column: Duplicate path found during parsing JSON object: a.b. You can enable setting type_json_skip_duplicated_paths to skip duplicated paths during insert: In scope SELECT CAST('{"a.b" : 42, "a" : {"b" : "Hello, World"}}', 'JSON') AS json. (INCORRECT_DATA)
Si desea conservar las claves con puntos y evitar tratarlas como objetos anidados, puede habilitar la
configuración json_type_escape_dots_in_keys (disponible a partir de la versión 25.8). En este caso, durante el análisis, todos los puntos de las claves JSON se
escaparán como %2E y se restaurarán durante el formateo.
Query
SET json_type_escape_dots_in_keys=1;SELECT '{"a" : {"b" : 42}}'::JSON AS json1, '{"a.b" : 42}'::JSON AS json2, JSONAllPaths(json1), JSONAllPaths(json2);
Nota: debido a las limitaciones del parser de identificadores y de analyzer, la subcolumna json.`a.b` es equivalente a la subcolumna json.a.b y no leerá la ruta con el punto escapado:
Query
SET json_type_escape_dots_in_keys=1;SELECT '{"a.b" : 42, "a" : {"b" : "Hello World!"}}'::JSON AS json, json.`a%2Eb`, json.`a.b`, json.a.b;
Además, si quieres especificar un hint para una ruta JSON que contenga claves con puntos (o usarlo en las secciones SKIP/SKIP REGEX), tienes que usar puntos escapados en el hint:
Query
SET json_type_escape_dots_in_keys=1;SELECT '{"a.b" : 42, "a" : {"b" : "Hello World!"}}'::JSON(`a%2Eb` UInt8) as json, json.`a%2Eb`, toTypeName(json.`a%2Eb`);
Alcanzar el límite de las rutas dinámicas dentro de JSON
El tipo de dato JSON solo puede almacenar internamente un número limitado de rutas como subcolumnas independientes.
De forma predeterminada, este límite es 1024, pero puedes cambiarlo en la declaración del tipo mediante el parámetro max_dynamic_paths.Cuando se alcanza el límite, todas las rutas nuevas insertadas en una columna JSON se almacenan en una única estructura de datos compartida.
Sigue siendo posible leer esas rutas como subcolumnas,
pero puede ser menos eficiente (consulta la sección sobre datos compartidos).
Este límite es necesario para evitar una cantidad enorme de subcolumnas distintas que pueda hacer que la tabla quede inutilizable.Veamos qué ocurre cuando se alcanza el límite en varios escenarios distintos.
Al alcanzar el límite durante el análisis de datos
Durante el análisis de objetos JSON en los datos, cuando se alcanza el límite para el bloque de datos actual,
todas las rutas nuevas se almacenarán en una estructura de datos compartida. Podemos usar las dos funciones de introspección siguientes: JSONDynamicPaths, JSONSharedDataPaths:
Durante las fusiones de partes de datos en motores de tabla MergeTree
Durante la fusión de varias partes de datos en una tabla MergeTree, la columna JSON de la parte de datos resultante puede alcanzar el límite de rutas dinámicas
y no ser capaz de almacenar todas las rutas de las partes de origen como subcolumnas.
En este caso, ClickHouse decide qué rutas permanecerán como subcolumnas después de la fusión y cuáles se almacenarán en la estructura de datos compartida.
En la mayoría de los casos, ClickHouse intenta conservar las rutas que contienen
el mayor número de valores no nulos y mover las rutas menos frecuentes a la estructura de datos compartida. Sin embargo, esto depende de la implementación.Veamos un ejemplo de este tipo de fusión.
Primero, creemos una tabla con una columna JSON, establezcamos el límite de rutas dinámicas en 3 y luego insertemos valores con 5 rutas diferentes:
Query
CREATE TABLE test (id UInt64, json JSON(max_dynamic_paths=3)) ENGINE=MergeTree ORDER BY id;SYSTEM STOP MERGES test;INSERT INTO test SELECT number, formatRow('JSONEachRow', number as a) FROM numbers(5);INSERT INTO test SELECT number, formatRow('JSONEachRow', number as b) FROM numbers(4);INSERT INTO test SELECT number, formatRow('JSONEachRow', number as c) FROM numbers(3);INSERT INTO test SELECT number, formatRow('JSONEachRow', number as d) FROM numbers(2);INSERT INTO test SELECT number, formatRow('JSONEachRow', number as e) FROM numbers(1);
Cada inserción creará una parte de datos independiente con la columna JSON que contiene una única ruta:
Query
SELECT count(), groupArrayArrayDistinct(JSONDynamicPaths(json)) AS dynamic_paths, groupArrayArrayDistinct(JSONSharedDataPaths(json)) AS shared_data_paths, _partFROM testGROUP BY _partORDER BY _part ASC
Ahora, fusionemos todas las partes en una sola y veamos qué pasa:
Query
SELECT count(), groupArrayArrayDistinct(JSONDynamicPaths(json)) AS dynamic_paths, groupArrayArrayDistinct(JSONSharedDataPaths(json)) AS shared_data_paths, _partFROM testGROUP BY _partORDER BY _part ASC
Como se describió en la sección anterior, cuando se alcanza el límite de max_dynamic_paths, todas las rutas nuevas se almacenan en una única estructura de datos compartida.
En esta sección analizaremos en detalle la estructura de datos compartida y cómo leemos de ella las subcolumnas de las rutas.Consulte la sección “funciones de introspección” para obtener más información sobre las funciones que se utilizan para inspeccionar el contenido de una columna JSON.
En memoria, la estructura de datos compartida no es más que una subcolumna de tipo Map(String, String) que almacena la correspondencia entre una ruta de JSON aplanado y un valor codificado en binario.
Para extraer de ella la subcolumna correspondiente a una ruta, simplemente iteramos por todas las filas de esta columna Map e intentamos encontrar la ruta solicitada y sus valores.
Estructura de datos compartida en las partes de MergeTree
En las tablas MergeTree, almacenamos los datos en partes de datos que guardan todo en disco (local o remoto). Los datos en disco pueden almacenarse de forma diferente a como se almacenan en memoria.
Actualmente, hay 3 serializaciones distintas de la estructura de datos compartida en las partes de datos de MergeTree: map, map_with_buckets
y advanced.La versión de serialización se controla mediante los ajustes de MergeTree
object_shared_data_serialization_version
y object_shared_data_serialization_version_for_zero_level_parts
(la parte de nivel cero es la que se crea al insertar datos en la tabla; durante las fusiones, las partes tienen un nivel superior).Nota: cambiar la serialización de la estructura de datos compartida solo se admite
para la versión de serialización de objetosv3
En la versión de serialización map, los datos compartidos se serializan como una única columna de tipo Map(String, String), igual que se almacenan en
memoria. Para leer una subcolumna de ruta de este tipo de serialización, ClickHouse lee toda la columna Map y
extrae en memoria la ruta solicitada.Esta serialización es eficiente para escribir datos y leer toda la columna JSON, pero no lo es para leer subcolumnas de ruta.
En la versión de serialización map_with_buckets, los datos compartidos se serializan como N columnas (“buckets”) de tipo Map(String, String).
Cada uno de esos buckets contiene solo un subconjunto de rutas. Para leer una sub-columna de ruta de este tipo de serialización, ClickHouse
lee toda la columna Map de un único bucket y extrae en memoria la ruta solicitada.Esta serialización es menos eficiente para escribir datos y leer toda la columna JSON, pero es más eficiente para leer sub-columnas de rutas
porque solo lee datos de los buckets necesarios.La cantidad de buckets N se controla mediante las configuraciones de MergeTree object_shared_data_buckets_for_compact_part (8 de forma predeterminada)
y object_shared_data_buckets_for_wide_part (32 de forma predeterminada).
El valor máximo permitido para ambas configuraciones es 256.
En la versión de serialización advanced, los datos compartidos se serializan en una estructura de datos especial que maximiza el rendimiento
de la lectura de las subcolumnas de rutas al almacenar información adicional que permite leer solo los datos de las rutas solicitadas.
Esta serialización también admite buckets, por lo que cada bucket contiene solo un subconjunto de rutas.Esta serialización es bastante ineficiente para la escritura de datos (por lo que no se recomienda usarla para partes de nivel cero); leer toda la columna JSON es ligeramente menos eficiente en comparación con la serialización map, pero resulta muy eficiente para leer las subcolumnas de rutas.Nota: debido a que almacena información adicional dentro de la estructura de datos, el tamaño de almacenamiento en disco es mayor con esta serialización en comparación con
las serializaciones map y map_with_buckets.Para obtener una descripción más detallada de las nuevas serializaciones de datos compartidos y de sus detalles de implementación, consulta la entrada del blog.
Control del número de rutas dinámicas dentro de JSON en partes de MergeTree
La forma principal de establecer un límite para las rutas dinámicas en JSON es usar el parámetro max_dynamic_paths dentro de la declaración del tipo JSON.
Pero cambiar max_dynamic_paths para columnas existentes requiere ejecutar ALTER TABLE <table> MODIFY COLUMN <column> JSON(max_dynamic_paths=K), lo que iniciará una mutación en segundo plano que reescribirá todas las partes existentes.
Esa mutación puede ser bastante costosa y puede afectar al rendimiento del servidor hasta que finalice. Para evitarlo, puede usar estas 3 configuraciones que pueden ayudarle a cambiar el límite de rutas dinámicas en tablas MergeTree para las nuevas partes de datos:
merge_max_dynamic_subcolumns_in_wide_part - una configuración de MergeTree que limita el número de subcolumnas dinámicas para cada columna JSON durante la fusión en una parte de datos Wide.
merge_max_dynamic_subcolumns_in_compact_part - una configuración de MergeTree que limita el número de subcolumnas dinámicas para cada columna JSON durante la fusión en una parte de datos Compact.
max_dynamic_subcolumns_in_json_type_parsing - una configuración de sesión que limita el número de subcolumnas dinámicas para cada columna JSON durante el análisis de datos JSON en una columna JSON.
Nota: el límite de rutas dinámicas no puede superar el valor especificado en el parámetro max_dynamic_paths, incluso si los valores de las configuraciones descritas son mayores.
Es posible modificar una tabla existente y cambiar el tipo de la columna al nuevo tipo JSON. Actualmente, solo se admite ALTER desde el tipo String.Ejemplo
Query
CREATE TABLE test (json String) ENGINE=MergeTree ORDER BY tuple();INSERT INTO test VALUES ('{"a" : 42}'), ('{"a" : 43, "b" : "Hello"}'), ('{"a" : 44, "b" : [1, 2, 3]}'), ('{"c" : "2020-01-01"}');ALTER TABLE test MODIFY COLUMN json JSON;SELECT json, json.a, json.b, json.c FROM test;
Esta funcionalidad es experimental y requiere que la configuración allow_experimental_json_lazy_type_hints esté habilitada.
Cuando agregas o modificas indicaciones de tipo en una columna JSON con ALTER TABLE ... MODIFY COLUMN, ClickHouse normalmente reescribe todas las partes de datos para materializar las nuevas indicaciones de tipo. En tablas con grandes volúmenes de datos históricos (cientos de terabytes), esto puede resultar extremadamente costoso.Las indicaciones de tipo diferidas permiten añadir indicaciones de tipo como una operación de solo metadatos, sin reescribir los datos existentes:
Partes antiguas: las indicaciones de tipo se aplican en tiempo de consulta convirtiendo de Dynamic al tipo indicado
Partes nuevas: las indicaciones de tipo se materializan durante las operaciones INSERT
Fusiones: las indicaciones de tipo se materializan cuando se fusionan las partes
Esto significa que puedes añadir indicaciones de tipo al instante, y los datos se convertirán gradualmente a medida que se produzcan las fusiones normales en segundo plano.
-- Crear una tabla e insertar datosCREATE TABLE test_lazy (json JSON) ENGINE = MergeTree ORDER BY tuple();INSERT INTO test_lazy VALUES ('{"user_id": "123", "score": "95.5"}');-- Habilitar la configuración experimentalSET allow_experimental_json_lazy_type_hints = 1;-- Agregar indicaciones de tipo - esto se completa de forma instantánea sin mutaciónALTER TABLE test_lazy MODIFY COLUMN json JSON(user_id UInt64, score Float64);-- Consultar los datos - las indicaciones de tipo se aplican en el momento de la lecturaSELECT json.user_id, toTypeName(json.user_id), json.score, toTypeName(json.score) FROM test_lazy;
Esta funcionalidad es experimental y puede cambiar en futuras versiones
La conversión de tipos en tiempo de consulta puede suponer una sobrecarga de rendimiento significativa en comparación con los tipos materializados previamente, especialmente en objetos JSON grandes
Esta funcionalidad solo se aplica al modificar typed_paths (indicaciones de tipo); otros parámetros de JSON, como max_dynamic_paths, SKIP o SKIP REGEXP, siguen requiriendo mutaciones
Índices en subcolumnas específicas — crea un índice de omisión estándar en una ruta JSON conocida, igual que en una columna normal. Esto indexa los valores de esa ruta.
Índices basados en rutas con JSONAllPaths — indexa el conjunto de rutas presentes en cada gránulo para omitir los gránulos que no puedan contener la ruta consultada.
Índices basados en valores con JSONAllValues — indexa todos los valores de todas las rutas JSON mediante un índice de texto para acelerar la búsqueda de texto completo en cualquier subcolumna JSON con un solo índice.
Puede crear un índice de omisión sobre cualquier subcolumna JSON con la misma sintaxis que para las columnas normales.
Cualquier tipo de índice compatible funciona (minmax, set, bloom_filter, tokenbf_v1, ngrambf_v1, etc.).Hay dos formas de hacer referencia a una subcolumna JSON en una expresión de índice:
Ruta tipada declarada en la indicación de tipo JSON: acceda directamente por nombre: json.a.
Ruta dinámica con conversión explícita: use la sintaxis de conversión ::: json.b::String.
También puede usar expresiones que combinen varias subcolumnas, por ejemplo json.a || json.b::String.
CREATE TABLE sensor_data( data JSON(sensor_id UInt32), INDEX idx_sensor data.sensor_id TYPE minmax GRANULARITY 1, INDEX idx_location data.location::String TYPE bloom_filter GRANULARITY 1)ENGINE = MergeTreeORDER BY tuple()SETTINGS index_granularity = 1;INSERT INTO sensor_data SELECT toJSONString(map('sensor_id', number, 'location', 'room_' || toString(number))) FROM numbers(4);INSERT INTO sensor_data SELECT toJSONString(map('sensor_id', number, 'location', 'room_' || toString(number))) FROM numbers(4, 4);
El índice minmax en la subcolumna tipada data.sensor_id acota el escaneo a los gránulos coincidentes:
Query
EXPLAIN indexes = 1 SELECT * FROM sensor_data WHERE data.sensor_id < 2;
También se pueden crear índices de omisión de datos en columnas JSON con la función JSONAllPaths.
Esto funciona de forma similar a crear índices de omisión en columnas Map con mapKeys: el índice almacena el conjunto de rutas JSON presentes en cada gránulo y lo utiliza para omitir los gránulos que no pueden contener la ruta consultada.
CREATE TABLE events( data JSON, INDEX idx JSONAllPaths(data) TYPE bloom_filter GRANULARITY 1)ENGINE = MergeTreeORDER BY tuple();INSERT INTO events VALUES ('{"user": {"name": "Alice"}, "action": "login"}');INSERT INTO events VALUES ('{"metric": {"cpu": 0.95}, "host": "srv1"}');
Puede usar EXPLAIN indexes = 1 para comprobar que se está utilizando el índice de omisión de datos. Cuando una ruta existe solo en una parte, el índice omite la otra parte:
Query
EXPLAIN indexes = 1 SELECT * FROM events WHERE data.user.name = 'Alice';
La expresión JSONAllPaths(json_column) produce un Array(String) que contiene todas las rutas presentes en un valor JSON.
El índice de omisión almacena estas cadenas de ruta en su estructura de datos (bloom filter o índice invertido).
Cuando una consulta filtra por json.some.path, el índice comprueba si la cadena "some.path" está presente en el índice de cada gránulo y omite los gránulos en los que no está presente.
Cuando una ruta JSON no está presente en un gránulo, la subcolumna se evalúa como:
NULL para el tipo Dynamic (p. ej., json.path) y las subcolumnas de tipo Nullable (p. ej., json.path.:Int64) — las comparaciones con NULL siempre devuelven false, por lo que omitir bloques es seguro.
El valor predeterminado del tipo para expresiones CAST no Nullable (p. ej., json.path::Int64 produce 0 cuando falta la ruta) — omitir bloques es seguro solo cuando el valor comparado difiere del valor predeterminado. El índice gestiona esta distinción automáticamente.
Los índices de texto pueden usarse para acelerar la búsqueda de texto completo en columnas JSON mediante la función JSONAllValues.
JSONAllValues devuelve todos los valores de una columna JSON como Array(String), que puede indexarse con un índice de texto.
Un solo índice sobre JSONAllValues(json_column) cubre todas las rutas JSON, lo que permite realizar búsquedas de texto completo en cualquier subcolumna sin crear índices independientes para cada ruta.Consulta Índices basados en valores con JSONAllValues en la documentación de índices de texto para obtener más detalles y ejemplos.
Antes de crear una columna JSON y cargar datos en ella, tenga en cuenta los siguientes consejos:
Analice sus datos y especifique tantas rutas con tipos como le sea posible. Esto hará que el almacenamiento y la lectura sean mucho más eficientes.
Piense qué rutas necesitará y cuáles no necesitará nunca. Especifique en la sección SKIP las rutas que no vaya a necesitar y, si hace falta, en la sección SKIP REGEXP. Esto mejorará el almacenamiento.
No establezca el parámetro max_dynamic_paths en valores demasiado altos, ya que esto puede hacer que el almacenamiento y la lectura sean menos eficientes.
Aunque depende en gran medida de parámetros del sistema como la memoria, la CPU, etc., como regla general no debería establecer max_dynamic_paths por encima de 10 000 para el almacenamiento en el sistema de archivos local ni por encima de 1024 para el almacenamiento en el sistema de archivos remoto.