O GHCN-Daily é um conjunto de dados que contém observações diárias de áreas terrestres em todo o mundo. Ele inclui medições baseadas em estações terrestres do mundo todo, cerca de dois terços das quais são apenas de precipitação (Menne et al., 2012). O GHCN-Daily é uma compilação de registros climáticos de inúmeras fontes, que foram combinadas e submetidas a um conjunto comum de verificações de garantia de qualidade (Durre et al., 2010). O acervo inclui os seguintes elementos meteorológicos:
- Temperatura máxima diária
- Temperatura mínima diária
- Temperatura no momento da observação
- Precipitação (isto é, chuva, neve derretida)
- Queda de neve
- profundidade da neve
- Outros elementos, quando disponíveis
Baixando os dados
- Uma versão pré-processada dos dados para o ClickHouse, que foi limpa, reestruturada e enriquecida. Esses dados abrangem o período de 1900 a 2022.
- Baixe os dados originais e converta-os para o formato exigido pelo ClickHouse. Usuários que desejam adicionar suas próprias colunas podem preferir essa abordagem.
Dados pré-preparados
ID da estação e data, ou seja.
Dados originais
Baixar
Amostragem de dados
- Um código de identificação da estação com 11 caracteres. Ele codifica algumas informações úteis
- YEAR/MONTH/DAY = data de 8 caracteres no formato YYYYMMDD (ex.: 19860529 = 29 de maio de 1986)
- ELEMENT = indicador de 4 caracteres do tipo de elemento. Na prática, o tipo de medição. Embora haja muitas medições disponíveis, selecionamos as seguintes:
- PRCP - Precipitação (décimos de mm)
- SNOW - queda de neve (mm)
- SNWD - Profundidade da neve (mm)
- TMAX - Temperatura máxima (décimos de grau C)
- TAVG - Temperatura média (décimos de grau C)
- TMIN - Temperatura mínima (décimos de grau C)
- PSUN - Percentual diário de insolação possível (percentual)
- AWND - Velocidade média diária do vento (décimos de metro por segundo)
- WSFG - Velocidade máxima de rajada de vento (décimos de metro por segundo)
- WT** = Tipo de tempo, em que ** define o tipo de tempo. Lista completa dos tipos de tempo aqui.
- DATA VALUE = valor de dados de 5 caracteres para ELEMENT, ou seja, o valor da medição.
- M-FLAG = Flag de medição com 1 caractere. Ela tem 10 valores possíveis. Alguns desses valores indicam precisão questionável dos dados. Aceitamos dados em que ela está definida como “P” - identificado como ausência presumida como zero, pois isso só é relevante para as medições PRCP, SNOW e SNWD.
- Q-FLAG é a flag de qualidade da medição, com 14 valores possíveis. Estamos interessados apenas em dados com valor vazio, ou seja, que não falharam em nenhuma verificação de garantia de qualidade.
- S-FLAG é a flag de origem da observação. Não é útil para nossa análise e é ignorada.
- OBS-TIME = horário da observação com 4 caracteres no formato hora-minuto (ou seja, 0700 = 7:00 da manhã). Normalmente não está presente em dados mais antigos. Nós o ignoramos para os nossos propósitos.
qFlag é igual a uma string vazia.
Limpar os dados
Pivotar os dados
GROUP BY simples, podemos repivotar os dados para esta estrutura. Para limitar o uso de memória, fazemos isso um arquivo por vez.
noaa.csv.
Enriquecendo os dados
noaa_enriched.parquet.
Criar tabela
Inserção no ClickHouse
Inserindo a partir de um arquivo local
<path> representa o caminho completo para o arquivo local no disco.
Veja aqui como acelerar esse processo de carregamento.