Saltar al contenido principal
El tipo de dato Map(K, V) almacena pares clave-valor. A diferencia de otras bases de datos, los valores de tipo Map no tienen claves únicas en ClickHouse; es decir, un Map puede contener dos elementos con la misma clave. (Esto se debe a que los Map se implementan internamente como Array(Tuple(K, V)).) Puede usar la sintaxis m[k] para obtener el valor de la clave k en el Map m. Además, m[k] recorre el Map; es decir, el tiempo de ejecución de la operación es lineal con respecto al tamaño del Map. Parámetros
  • K — El tipo de las claves del Map. Cualquier tipo, excepto Nullable y LowCardinality anidado con tipos Nullable.
  • V — El tipo de los valores del Map. Cualquier tipo.
Ejemplos Cree una tabla con una columna de tipo Map:
Query
CREATE TABLE tab (m Map(String, UInt64)) ENGINE=Memory;
INSERT INTO tab VALUES ({'key1':1, 'key2':10}), ({'key1':2,'key2':20}), ({'key1':3,'key2':30});
Para seleccionar los valores de key2:
Query
SELECT m['key2'] FROM tab;
Response
┌─arrayElement(m, 'key2')─┐
│                      10 │
│                      20 │
│                      30 │
└─────────────────────────┘
Si la clave solicitada k no está en el mapa, m[k] devuelve el valor por defecto del tipo de valor; por ejemplo, 0 para los tipos enteros y '' para los tipos de cadena. Para comprobar si existe una clave en un mapa, puede usar la función mapContains.
Query
CREATE TABLE tab (m Map(String, UInt64)) ENGINE=Memory;
INSERT INTO tab VALUES ({'key1':100}), ({});
SELECT m['key1'] FROM tab;
Response
┌─arrayElement(m, 'key1')─┐
│                     100 │
│                       0 │
└─────────────────────────┘

Conversión de Tuple a Map

Los valores de tipo Tuple() pueden convertirse en valores de tipo Map() mediante la función CAST: Ejemplo
Query
SELECT CAST(([1, 2, 3], ['Ready', 'Steady', 'Go']), 'Map(UInt8, String)') AS map;
Response
┌─map───────────────────────────┐
│ {1:'Ready',2:'Steady',3:'Go'} │
└───────────────────────────────┘

Lectura de las subcolumnas de Map

Para evitar leer el Map completo, puede usar las subcolumnas keys y values en algunos casos. Ejemplo
Query
CREATE TABLE tab (m Map(String, UInt64)) ENGINE = Memory;
INSERT INTO tab VALUES (map('key1', 1, 'key2', 2, 'key3', 3));

SELECT m.keys FROM tab; --   igual que mapKeys(m)
SELECT m.values FROM tab; -- igual que mapValues(m)
Response
┌─m.keys─────────────────┐
│ ['key1','key2','key3'] │
└────────────────────────┘

┌─m.values─┐
│ [1,2,3]  │
└──────────┘

Serialización en buckets de Map en MergeTree

De forma predeterminada, una columna Map en MergeTree se almacena como un único flujo Array(Tuple(K, V)). Leer una sola clave con m['key'] requiere escanear toda la columna —todos los pares clave-valor de cada fila—, incluso si solo se necesita una clave. En los Map con muchas claves distintas, esto se convierte en un cuello de botella. La serialización en buckets (with_buckets) divide los pares clave-valor en varios subflujos independientes (buckets) aplicando un hash a la clave. Cuando una consulta accede a m['key'], solo se lee del disco el bucket que contiene esa clave, omitiendo todos los demás buckets.

Activar la serialización en buckets

CREATE TABLE tab (id UInt64, m Map(String, UInt64))
ENGINE = MergeTree ORDER BY id
SETTINGS
    map_serialization_version = 'with_buckets',
    max_buckets_in_map = 32,
    map_buckets_strategy = 'sqrt';
Para no ralentizar las inserciones, puedes mantener la serialización basic para las partes de nivel cero (creadas durante INSERT) y usar with_buckets solo para las partes fusionadas:
CREATE TABLE tab (id UInt64, m Map(String, UInt64))
ENGINE = MergeTree ORDER BY id
SETTINGS
    map_serialization_version = 'with_buckets',
    map_serialization_version_for_zero_level_parts = 'basic',
    max_buckets_in_map = 32,
    map_buckets_strategy = 'sqrt';

Cómo funciona

Cuando una parte de datos se escribe con la serialización with_buckets:
  1. El número medio de claves por fila se calcula a partir de las estadísticas del bloque.
  2. El número de buckets se determina según la estrategia configurada (consulta Configuración).
  3. Cada par clave-valor se asigna a un bucket aplicando un hash a la clave: bucket = hash(key) % num_buckets.
  4. Cada bucket se almacena como un subflujo independiente con sus propias claves, valores y offsets.
  5. Un flujo de metadatos buckets_info registra el número de buckets y sus estadísticas.
Cuando una consulta lee una clave específica (m['key']), el optimizador reescribe la expresión como una subcolumna de clave (m.key_<serialized_key>). La capa de serialización calcula a qué bucket pertenece la clave solicitada y lee solo ese bucket desde el disco. Cuando se lee el mapa completo (por ejemplo, SELECT m), se leen todos los buckets y se reconstruye el mapa original. Esto es más lento que la serialización basic debido a la sobrecarga de leer y fusionar varios subflujos.
El orden de las claves dentro de un valor de mapa puede diferir del orden de inserción original al usar la serialización with_buckets. Las claves se distribuyen entre buckets mediante hash y se reconstruyen en orden de bucket, no en orden de inserción. Con la serialización basic, se conserva el orden de las claves de los mapas insertados.
El número de buckets puede variar entre partes. Cuando se fusionan partes con distintos números de buckets, el número de buckets de la nueva parte se vuelve a calcular a partir de las estadísticas fusionadas. Las partes con serialización basic y with_buckets pueden coexistir en la misma tabla y se fusionan de forma transparente.

Configuración

ConfiguraciónPredeterminadoDescripción
map_serialization_versionbasicFormato de serialización para columnas Map. basic almacena los datos como un único flujo de Array. with_buckets divide las claves en buckets para acelerar las lecturas de una sola clave.
map_serialization_version_for_zero_level_partsbasicFormato de serialización para partes de nivel cero (creadas por INSERT). Permite mantener basic para las inserciones y evitar la sobrecarga de escritura, mientras que las partes fusionadas usan with_buckets.
max_buckets_in_map32Límite superior del número de buckets. La cantidad real depende de map_buckets_strategy. El valor máximo permitido es 256.
map_buckets_strategysqrtEstrategia para calcular la cantidad de buckets a partir del tamaño promedio del mapa: constant — usar siempre max_buckets_in_map; sqrt — usar round(coefficient * sqrt(avg_size)); linear — usar round(coefficient * avg_size). El resultado se limita al rango [1, max_buckets_in_map].
map_buckets_coefficient1.0Multiplicador para las estrategias sqrt y linear. Se ignora cuando la estrategia es constant.
map_buckets_min_avg_size32Cantidad mínima promedio de claves por fila para habilitar el uso de buckets. Si el promedio está por debajo de este umbral, se usa un único bucket independientemente de las demás configuraciones. Establézcalo en 0 para desactivar este umbral.

Compensaciones de rendimiento

La siguiente tabla resume el impacto en el rendimiento de with_buckets frente a la serialización basic con distintos tamaños de Map (de 10 a 10.000 claves por fila). El número de buckets se determinó mediante la estrategia sqrt, con un máximo de 32. Los valores exactos dependen de los tipos de clave/valor, la distribución de los datos y el hardware.
Operación10 claves100 claves1.000 claves10.000 clavesNotas
Búsqueda de una sola clave (m['key'])1,6–3,2x más rápido4,5–7,7x más rápido16–39x más rápido21–49x más rápidoLee solo un bucket en lugar de toda la columna.
5 búsquedas de claves~1x1,5–3,1x más rápido2,9–8,3x más rápido4,5–6,7x más rápidoCada clave lee su propio bucket; algunos buckets pueden solaparse.
PREWHERE (SELECT m WHERE m['key'] = ...)1,5–3,0x más rápido2,9–7,3x más rápido5,3–31x más rápido20–45x más rápidoEl filtro PREWHERE lee solo un bucket; la lectura completa del Map solo se realiza para las filas que coinciden. La mejora de rendimiento depende de la selectividad: cuantos menos gránulos coincidan, menor será la E/S del Map completo.
Escaneo completo del Map (SELECT m)~2x más lento~2x más lento~2x más lento~2x más lentoDebe leer y volver a ensamblar todos los buckets.
INSERT1,5–2,5x más lento1,5–2,5x más lento1,5–2,5x más lento1,5–2,5x más lentoSobrecarga de aplicar hash a las claves y escribir en varios subflujos.

Recomendaciones

  • Mapas pequeños (< 32 claves de media): Mantén la serialización basic. La sobrecarga de usar buckets no se justifica en mapas pequeños. El valor predeterminado map_buckets_min_avg_size = 32 lo aplica automáticamente.
  • Mapas medianos (32–100 claves): Usa with_buckets con la estrategia sqrt si las consultas acceden con frecuencia a claves individuales. La mejora de velocidad es de 4–8x en búsquedas de una sola clave.
  • Mapas grandes (100+ claves): Usa with_buckets. Las búsquedas de una sola clave son entre 16 y 49 veces más rápidas. Considera map_serialization_version_for_zero_level_parts = 'basic' para mantener la velocidad de insert cerca del valor de referencia.
  • Los escaneos completos del mapa dominan la carga de trabajo: Mantén basic. La serialización con buckets añade una sobrecarga de ~2x en los escaneos completos.
  • Carga de trabajo mixta (algunas búsquedas de claves y algunos escaneos completos): Usa with_buckets con las partes de nivel cero configuradas en basic. La optimización PREWHERE lee solo el bucket relevante para el filtro y luego lee el mapa completo únicamente para las filas coincidentes, lo que aporta una mejora neta significativa.

Enfoques alternativos

Si la serialización de Map en buckets no se adapta a tu caso de uso, hay dos enfoques alternativos para mejorar el rendimiento del acceso por clave:

Uso del tipo de datos JSON

El tipo de datos JSON almacena cada ruta frecuente como una subcolumna dinámica independiente. Las rutas que superan el límite de max_dynamic_paths pasan a una estructura de datos compartida, que puede usar la serialización advanced para optimizar las lecturas de una sola ruta. Consulta la entrada del blog para obtener una descripción detallada de la serialización advanced.
AspectoMap con bucketsJSON
Lectura de una sola claveLee un bucket (puede contener otras claves). Todos los pares clave-valor del bucket se deserializan.Las rutas frecuentes se leen directamente desde subcolumnas dinámicas. Las rutas poco frecuentes pasan a datos compartidos; con la serialización advanced, solo se leen los datos de la ruta exacta.
Tipos de valorTodos los valores comparten el mismo tipo VCada ruta puede tener su propio tipo. Las rutas sin una indicación de tipo usan Dynamic.
Compatibilidad con índices de omisiónFunciona con algunos tipos de índice creados sobre mapKeys/mapValuesLos índices de omisión solo pueden crearse sobre subcolumnas de rutas específicas, no sobre todas las rutas/valores a la vez.
Lectura de columna completa~2x más lenta que basic debido al reensamblado de bucketsSobrecarga debida a la codificación del tipo Dynamic y a la reconstrucción de rutas.
Sobrecarga de almacenamientoMetadatos adicionales mínimosMayor debido a la codificación del tipo Dynamic, al almacenamiento de nombres de rutas y a los metadatos adicionales de la serialización advanced.
Flexibilidad del esquemaTipos de clave y valor fijos al crear la tablaTotalmente dinámico: las claves y los tipos de valor pueden variar por fila. Se pueden declarar indicaciones de tipo para rutas conocidas.
Usa JSON cuando distintas claves necesiten distintos tipos de valor, cuando el conjunto de claves varíe significativamente entre filas o cuando las claves a las que se accede con frecuencia se conozcan de antemano y puedan declararse como rutas tipadas para acceder directamente a las subcolumnas.

Fragmentación manual en varias columnas de tipo Map

Puede dividir manualmente un único Map en varias columnas según el hash de la clave a nivel de la aplicación:
CREATE TABLE tab (
    id UInt64,
    m0 Map(String, UInt64),
    m1 Map(String, UInt64),
    m2 Map(String, UInt64),
    m3 Map(String, UInt64)
) ENGINE = MergeTree ORDER BY id;
Durante la inserción, dirija cada par clave-valor a la columna m{hash(key) % 4}. Durante las consultas, lea de la columna específica: m{hash('target_key') % 4}['target_key'].
AspectoMap con bucketsSegmentación manual
Facilidad de usoTransparente — lo gestiona el motor de almacenamientoRequiere lógica de enrutamiento en la aplicación para inserciones y consultas
Fusión verticalNo compatible — todos los buckets pertenecen a una sola columnaCompatible — cada columna Map es independiente y puede fusionarse verticalmente
Cambios de esquemaEl número de buckets se adapta automáticamente en cada parteCambiar el número de segmentos requiere reescribir los datos o añadir columnas nuevas
Sintaxis de consultam['key'] funciona directamenteDebe calcular la columna correcta: m0['key'], m1['key'], etc.
Granularidad del bucketPor parte, se adapta a las estadísticas de los datosFija al crear la tabla
La segmentación manual resulta útil cuando las fusiones verticales son importantes para reducir el uso de memoria durante las fusiones de tablas con muchas columnas, o cuando el número de segmentos debe permanecer fijo y controlarse explícitamente. Para la mayoría de los casos de uso, la serialización automática en buckets es más sencilla y suficiente. Véase también
Última modificación el 10 de junio de 2026