GHCN-Daily는 전 세계 육지 지역의 일일 관측값을 담은 데이터셋입니다. 여기에는 전 세계 육상 관측소의 관측소별 측정값이 포함되며, 이 중 약 3분의 2는 강수량 측정만 제공합니다(Menne et al., 2012). GHCN-Daily는 여러 출처의 기후 기록을 머지해 구성한 복합 데이터셋으로, 공통된 품질 보증 검토 절차를 거쳤습니다(Durre et al., 2010). 이 아카이브에는 다음과 같은 기상 요소가 포함됩니다:
- 일일 최고 기온
- 일일 최저 기온
- 관측 시점의 기온
- 강수량(예: 비, 녹은 눈)
- 강설량
- 적설 깊이
- 제공 가능한 기타 요소
데이터 다운로드
- 정제, 재구성, 보강을 거친 ClickHouse용 데이터의 사전 준비 버전입니다. 이 데이터는 1900년부터 2022년까지를 다룹니다.
- 원본 데이터를 다운로드하여 ClickHouse에 필요한 포맷으로 변환합니다. 자체 컬럼을 추가하려는 경우 이 방법을 고려할 수 있습니다.
사전 준비된 데이터
clickhouse client를 사용해 삽입하거나, ClickHouse에 직접 삽입하십시오(S3에서 삽입 참조).
다운로드하려면:
원본 데이터
다운로드
데이터 샘플링
- 11자 관측소 식별 코드입니다. 이 코드 자체에 몇 가지 유용한 정보가 인코딩되어 있습니다.
- YEAR/MONTH/DAY = YYYYMMDD 포맷의 8자 날짜입니다(예: 19860529 = 1986년 5월 29일).
- ELEMENT = 요소 타입을 나타내는 4자 지표입니다. 사실상 측정 유형입니다. 사용할 수 있는 측정값은 많지만, 여기서는 다음만 선택합니다:
- PRCP - 강수량(0.1mm 단위)
- SNOW - 강설량(mm)
- SNWD - 적설 깊이(mm)
- TMAX - 최고 기온(섭씨 0.1도 단위)
- TAVG - 평균 기온(섭씨 0.1도 단위)
- TMIN - 최저 기온(섭씨 0.1도 단위)
- PSUN - 일일 가조 시간 비율(퍼센트)
- AWND - 일평균 풍속(0.1m/s 단위)
- WSFG - 최대 순간 풍속(0.1m/s 단위)
- WT** = **가 날씨 유형을 정의하는 Weather Type입니다. 전체 날씨 유형 목록은 여기에서 확인할 수 있습니다.
- DATA VALUE = ELEMENT에 대한 5자 데이터 값, 즉 측정값입니다.
- M-FLAG = 1자 Measurement Flag입니다. 가능한 값은 10개입니다. 이 값들 가운데 일부는 데이터 정확도에 문제가 있을 수 있음을 나타냅니다. 여기서는 “P”로 설정된 데이터는 허용합니다. 이는 결측이지만 0으로 추정되는 값으로 식별되며, PRCP, SNOW, SNWD 측정에만 관련되기 때문입니다.
- Q-FLAG는 가능한 값이 14개인 측정 품질 플래그입니다. 여기서는 값이 비어 있는 데이터, 즉 품질 보증 검사에서 하나도 실패하지 않은 데이터에만 관심이 있습니다.
- S-FLAG는 관측값의 소스 플래그입니다. 분석에는 유용하지 않으므로 무시합니다.
- OBS-TIME = 시-분 포맷의 4자 관측 시각입니다(즉, 0700 = 오전 7:00). 일반적으로 오래된 데이터에는 없습니다. 여기서는 이 값도 무시합니다.
qFlag가 빈 문자열인 행만 남기도록 데이터셋을 제한합니다.
데이터 정제
데이터 피벗
GROUP BY를 사용하면 데이터를 이 구조로 다시 피벗할 수 있습니다. 메모리 오버헤드를 줄이기 위해 이 작업은 파일을 한 번에 하나씩 처리합니다.
noaa.csv가 생성됩니다.
데이터 보강
noaa_enriched.parquet라는 6.4 GB 파일을 생성합니다.
테이블 생성
ClickHouse에 데이터 삽입
로컬 파일에서 삽입
<path>는 디스크에 있는 로컬 파일의 전체 경로를 의미합니다.
이 적재 속도를 높이는 방법은 여기를 참조하십시오.