주요 기능
- 인프로세스 SQL OLAP 엔진 - ClickHouse 기반으로 동작하므로 ClickHouse 서버를 설치할 필요가 없습니다
- 다양한 데이터 포맷 - Parquet, CSV, JSON, Arrow, ORC 및 70개 이상의 추가 포맷에 대한 입력 및 출력 지원
- 최소화된 데이터 복사 - python memoryview를 통해 C++에서 Python으로의 데이터 복사를 최소화합니다
- 풍부한 Python 생태계 통합 - Pandas, Arrow, DB API 2.0을 네이티브로 지원하며 기존 데이터 사이언스 워크플로에 자연스럽게 통합됩니다
- 의존성 없음 - 외부 데이터베이스를 설치할 필요가 없습니다
- DataStore API - SQL 최적화가 적용된 Pandas 호환 API로, 630개 이상의 메서드를 지원합니다
DataStore: Pandas 호환 API
한 줄로 마이그레이션
성능 하이라이트
| 작업 | pandas | DataStore | 속도 향상 |
|---|---|---|---|
| GroupBy 카운트 | 347ms | 17ms | 19.93x |
| 복잡한 파이프라인 | 2,047ms | 380ms | 5.39x |
| Filter+Sort+Head | 1,537ms | 350ms | 4.40x |
DataStore 기능
- 630개 이상의 API 메서드 - pandas DataFrame 메서드 209개, accessor 메서드 185개 이상
- 지연 평가 - 연산이 최적화된 SQL로 컴파일됩니다
- SQL 푸시다운 - 필터와 집계가 데이터 소스에서 수행됩니다
- 범용 데이터 소스 - 파일, S3, 데이터베이스, 데이터 레이크에서 읽을 수 있습니다
chDB는 어떤 언어를 지원하나요?
시작하려면 어떻게 해야 하나요?
- Go, Rust, NodeJS, Bun, 또는 C and C++를 사용하는 경우 해당 언어별 페이지를 확인하세요.
- Python을 사용하는 경우 개발자용 시작하기 가이드 또는 chDB 온디맨드 과정을 참조하세요.
pandas 사용자를 위한
- DataStore 빠른 시작 - 설치 및 한 줄로 마이그레이션
- pandas에서 마이그레이션 - 단계별 마이그레이션 가이드
- Pandas Cookbook - 자주 사용하는 패턴
- 주요 차이점 - pandas와의 주요 차이점
- 성능 가이드 - 최적화 팁
DataStore API 참조
- 팩토리 메서드 - 파일, 데이터베이스, 클라우드 스토리지에서 생성
- 쿼리 작성 - SQL 스타일 연산
- Pandas 호환성 - 호환 메서드 209개
- Accessor - .str, .dt, .arr, .json, .url, .ip, .geo
- 구성 - Engine, 로깅, 프로파일링
- 디버깅 - explain(), 프로파일링, 로깅
SQL API 가이드
- Python API 참조 - 전체 SQL API 문서
- JupySQL
- Pandas 쿼리
- Apache Arrow 쿼리
- S3의 데이터 쿼리
- Parquet 파일 쿼리
- 원격 ClickHouse 쿼리
- clickhouse-local 데이터베이스 사용
chDB 소개 영상
성능 벤치마크
- 내장 엔진의 ClickBench - SQL API 성능 비교
- DataFrame Benchmark - DataFrame 엔진 비교
- DataStore와 Pandas 비교 - 일반적인 작업에서 Pandas보다 최대 20배 더 빠름
chDB 소개
- 블로그에서 chDB 프로젝트가 탄생한 전체 이야기를 읽어보세요
- 블로그에서 chDB와 그 활용 사례를 알아보세요
- chDB 온디맨드 강의를 수강하세요
- codapi 예시를 통해 브라우저에서 chDB를 살펴보세요
- 더 많은 예시는 (https://github.com/chdb-io/chdb/tree/main/examples)에서 확인하세요