このドキュメントでは、Amazon Redshift から ClickHouse へのデータ移行の概要を紹介します。
はじめに
ClickHouse vs Redshift
- Redshift はクエリ実行計画ごとにコードをコンパイルします。 これにより、初回のクエリ実行時に大きなオーバーヘッドが発生します。このオーバーヘッドは、クエリパターンが予測可能で、コンパイル済みの実行計画をクエリキャッシュに保存できる場合には許容できます。しかし、クエリが変化しやすいインタラクティブなアプリケーションでは課題となります。Redshift がこのコードコンパイル cache を活用できる場合でも、ほとんどのクエリで ClickHouse のほうが高速です。「ClickBench」を参照してください。
- Redshift はすべてのキュー全体で同時実行数を 50 に制限しています。 これは BI には十分でも、高い同時実行性が求められる分析アプリケーションには不向きです。
| 利点 | 説明 |
|---|---|
| より低いクエリレイテンシ | ClickHouse は、高い同時実行性の下でも、さらにストリーミング insert が発生している状況でも、多様なクエリパターンに対して低いクエリレイテンシを実現します。インタラクティブなユーザー向け分析では避けられないことですが、クエリが cache にヒットしない場合でも、ClickHouse は高速に処理できます。 |
| より高い同時実行クエリ上限 | ClickHouse は同時実行クエリ数に対してはるかに高い上限を設定でき、これはリアルタイムなアプリケーション体験に不可欠です。ClickHouse では、セルフマネージドでも Cloud でも、各 service でアプリケーションに必要な同時実行性を実現できるよう、コンピュート割り当てをスケールアップできます。許可されるクエリの同時実行数は ClickHouse で設定可能で、ClickHouse Cloud のデフォルト値は 1000 です。 |
| 優れたデータ圧縮 | ClickHouse は優れたデータ圧縮を提供しており、総ストレージ使用量、ひいてはコストを削減できます。また、同じコストでより多くのデータを保持し、そこからより多くのリアルタイムなインサイトを得ることもできます。以下の「ClickHouse vs Redshift Storage Efficiency」を参照してください。 |