개요
사전 준비 사항
새 테이블 만들기
New York City 택시 데이터셋에는 팁 금액, 통행료, 결제 유형 등 다양한 컬럼이 포함된 수백만 건의 택시 운행 상세 정보가 들어 있습니다. 이 데이터를 저장할 테이블을 만드십시오.-
SQL 콘솔에 연결합니다:
- ClickHouse Cloud의 경우 드롭다운 메뉴에서 서비스를 선택한 다음, 왼쪽 탐색 메뉴에서 SQL Console을 선택합니다.
- 자가 관리형 ClickHouse의 경우
https://_hostname_:8443/play의 SQL 콘솔에 연결합니다. 자세한 내용은 ClickHouse 관리자에게 문의하십시오.
-
default데이터베이스에 다음trips테이블을 만듭니다:
데이터셋 추가
이제 테이블을 만들었으므로, S3의 CSV 파일에서 뉴욕시 택시 데이터를 추가합니다.-
다음 명령은 S3의 서로 다른 두 파일(
trips_1.tsv.gz및trips_2.tsv.gz)에서trips테이블에 약 2,000,000개의 행을 삽입합니다. -
INSERT가 완료될 때까지 기다리십시오. 150 MB 데이터를 다운로드하는 데 잠시 시간이 걸릴 수 있습니다. -
삽입이 완료되면 정상적으로 수행되었는지 확인합니다.
이 쿼리는 1,999,657개의 행을 반환해야 합니다.
데이터 분석
데이터를 분석하기 위해 몇 가지 쿼리를 실행해 보십시오. 아래 예시를 참고하거나 직접 SQL 쿼리를 작성해 보십시오.-
평균 팁 금액 계산:
예상 결과
-
승객 수에 따라 평균 비용을 계산합니다:
예상 출력
passenger_count는 0에서 9까지의 값을 가집니다. -
지역별 일일 픽업 건수를 계산합니다:
예상 출력
-
각 이동의 소요 시간을 분 단위로 계산한 다음, 이동 시간별로 결과를 그룹화합니다:
예상 결과
-
각 동네의 픽업 건수를 하루 중 시간대별로 구분해 표시합니다:
예상 출력
-
라과디아 또는 JFK 공항으로 가는 운행 기록을 조회합니다:
예상 출력
딕셔너리 생성
딕셔너리는 메모리에 저장된 키-값 쌍의 매핑입니다. 자세한 내용은 Dictionaries를 참조하십시오.ClickHouse 서비스의 테이블과 연결된 딕셔너리를 생성합니다. 테이블과 딕셔너리는 뉴욕시의 각 동네 정보를 행으로 담고 있는 CSV 파일을 기반으로 합니다.각 지역은 뉴욕시의 5개 자치구(Bronx, Brooklyn, Manhattan, Queens, Staten Island) 이름과 Newark Airport(EWR)에 매핑됩니다.다음은 사용 중인 CSV 파일의 일부를 테이블 형식으로 나타낸 것입니다. 파일의LocationID 컬럼은 trips 테이블의 pickup_nyct2010_gid 및 dropoff_nyct2010_gid 컬럼과 매핑됩니다.| 위치 ID | 자치구 | 구역 | 서비스_구역 |
|---|---|---|---|
| 1 | EWR | 뉴어크 공항 | EWR |
| 2 | 퀸스 | 자메이카 베이 | 자치구 존 |
| 3 | 브롱크스 | 앨러턴/펠햄 가든스 | 자치구 존 |
| 4 | 맨해튼 | 알파벳 시티 | 옐로 존 |
| 5 | 스태튼 아일랜드 | 아든 하이츠 | 보로 존 |
- 다음 SQL 명령을 실행하세요. 이 명령은
taxi_zone_dictionary라는 이름의 딕셔너리를 생성하고, S3의 CSV 파일에서 데이터를 가져와 딕셔너리를 채웁니다. 파일의 URL은https://datasets-documentation.s3.eu-west-3.amazonaws.com/nyc-taxi/taxi_zone_lookup.csv입니다.
LIFETIME을 0으로 설정하면 S3 버킷으로의 불필요한 트래픽을 피하기 위해 자동 업데이트가 비활성화됩니다. 그 밖의 경우에는 다르게 설정할 수 있습니다. 자세한 내용은 LIFETIME을 사용한 딕셔너리 데이터 갱신을 참조하십시오.-
제대로 작동하는지 확인합니다. 다음은 265개 행, 즉 각 동네마다 1개 행을 반환해야 합니다:
-
딕셔너리에서 값을 조회하려면
dictGet함수(또는 그 변형)를 사용합니다. 딕셔너리 이름, 조회하려는 값, 그리고 키(이 예시에서는taxi_zone_dictionary의LocationID컬럼)를 전달합니다. 예를 들어, 다음 쿼리는LocationID가 132인Borough를 반환하는데, 이는 JFK 공항에 해당합니다):JFK는 퀸스에 있습니다. 값을 가져오는 데 걸리는 시간이 사실상 0인 점을 확인하십시오: -
dictHas함수를 사용해 딕셔너리에 키가 존재하는지 확인합니다. 예를 들어, 다음 쿼리는1을 반환합니다(ClickHouse에서 이는 “true”를 의미합니다): -
다음 쿼리는 4567이 딕셔너리의
LocationID에 해당하는 값이 아니므로 0을 반환합니다: -
쿼리에서 borough 이름을 조회하려면
dictGet함수를 사용하십시오. 예시:이 쿼리는 도착지가 LaGuardia 또는 JFK 공항인 택시 운행 건수를 자치구별로 합산합니다. 결과는 다음과 같으며, 승차 지역을 알 수 없는 운행이 꽤 많다는 점에 유의하십시오:
JOIN 수행하기
taxi_zone_dictionary를 trips 테이블과 JOIN하는 몇 가지 쿼리를 작성해 보겠습니다.-
먼저, 위의 공항 쿼리와 비슷하게 동작하는 간단한
JOIN부터 시작합니다.응답은dictGet쿼리와 동일하게 보입니다.
위
JOIN 쿼리의 출력은 dictGetOrDefault를 사용한 앞선 쿼리와 동일합니다(Unknown 값이 포함되지 않는다는 점만 제외). 내부적으로 ClickHouse는 실제로 taxi_zone_dictionary 딕셔너리에 대해 dictGet 함수를 호출하지만, JOIN 구문이 SQL 개발자에게는 더 익숙합니다.- 이 쿼리는 팁 금액이 가장 높은 1000개의 trip에 대한 행을 반환한 다음, 각 행을 딕셔너리와 inner join합니다.
일반적으로 ClickHouse에서는
SELECT *를 자주 사용하지 않는 것이 좋습니다. 실제로 필요한 컬럼만 조회하십시오.다음 단계
- ClickHouse 프라이머리 인덱스 소개: ClickHouse가 쿼리 시 관련 데이터를 효율적으로 찾기 위해 희소 프라이머리 인덱스를 사용하는 방법을 알아보십시오.
- 외부 데이터 소스 통합: 파일, Kafka, PostgreSQL, 데이터 파이프라인 등 다양한 데이터 소스 통합 옵션을 살펴보십시오.
- ClickHouse에서 데이터 시각화: 자주 사용하는 UI/BI 도구를 ClickHouse에 연결하십시오.
- SQL 참고: 데이터를 변환, 처리, 분석하는 데 사용할 수 있는 ClickHouse의 SQL 함수를 살펴보십시오.