Executable および ExecutablePool テーブルエンジンでは、ユーザーが定義したスクリプト (stdout に行を書き出す) によって行が生成されるテーブルを定義できます。実行可能スクリプトは users_scripts ディレクトリに保存され、任意のデータソースからデータを読み取ることができます。
Executableテーブル: スクリプトはクエリごとに実行されますExecutablePoolテーブル: 永続的なプロセスのプールを維持し、読み取り時にそのプールからプロセスを取得します
Executable テーブルの作成
Executable テーブルエンジンには、スクリプト名と入力データのフォーマットという2つのパラメータが必要です。必要に応じて、1つ以上の入力クエリを渡すこともできます。
Executable テーブルに関連する設定です。
send_chunk_header- 説明: 処理用の chunk を送信する前に、各 chunk の行数を送信します。この設定を使うと、一部のリソースを事前に確保できるため、スクリプトをより効率的に作成できます
- デフォルト値: false
command_termination_timeout- 説明: コマンド終了のタイムアウト (秒)
- デフォルト値: 10
command_read_timeout- 説明: コマンドの stdout からデータを読み込む際のタイムアウト (ミリ秒)
- デフォルト値: 10000
command_write_timeout- 説明: コマンドの stdin にデータを書き込む際のタイムアウト (ミリ秒)
- デフォルト値: 10000
my_script.py という名前で、user_scripts フォルダーに保存されています。このスクリプトは数値 i を読み取り、ランダムな文字列を i 個出力します。各文字列の前には、タブで区切られた数値が付きます。
my_executable_table は my_script.py の出力に基づいて構築されており、my_executable_table に対して SELECT を実行するたびに、ランダムな文字列を 10 個生成します。
my_executable_table に対してクエリを実行すると、スクリプトが呼び出されます。
クエリ結果をスクリプトに渡す
nltk) があり、コメントがポジティブ・ネガティブ・ニュートラルのいずれかを判定する SentimentIntensityAnalyzer が含まれています。さらに、-1 (非常にネガティブなコメント) から 1 (非常にポジティブなコメント) までの値を割り当てることもできます。nltk を使って Hacker News のコメントのセンチメントを計算する Executable テーブルを作成してみましょう。
この例では、こちらで説明している hackernews テーブルを使用します。hackernews テーブルには、UInt64 型の id カラムと、comment という名前の String カラムが含まれています。まずは Executable テーブルを定義します。
sentiment テーブルについて、いくつか補足します。
sentiment.pyファイルはuser_scriptsフォルダ (user_scripts_path設定のデフォルトフォルダ) に保存されますTabSeparatedフォーマットは、Python スクリプトがタブ区切りの値を含む生データの行を生成する必要があることを意味します- このクエリでは
hackernewsから 2 つのカラムを選択します。Python スクリプトでは、入力される行からそれらのカラムの値をパースする必要があります
sentiment.py の定義です。
- これを動作させるには、
nltk.downloader.download('vader_lexicon')を実行する必要があります。これをスクリプト内に書くこともできますが、そうするとsentimentテーブルに対してクエリが実行されるたびにダウンロードされてしまい、非効率です rowの各値は、SELECT id, comment FROM hackernews WHERE id > 0 AND comment != '' LIMIT 20の結果セット内の1行に対応します- 入力される行はタブ区切りなので、Python の
split関数を使ってidとcommentを取り出します polarity_scoresの結果は、いくつかの値を含む JSON オブジェクトです。ここでは、この JSON オブジェクトからcompoundの値だけを取り出すことにしました- ClickHouse の
sentimentテーブルはTabSeparatedフォーマットを使用し、2つのカラムを含んでいることを思い出してください。そのため、print関数ではそれらのカラムをタブで区切って出力しています
sentiment テーブルから行を選択するクエリを記述するたびに、SELECT id, comment FROM hackernews WHERE id > 0 AND comment != '' LIMIT 20 クエリが実行され、その結果が sentiment.py に渡されます。では、試してみましょう。
ExecutablePool テーブルの作成
ExecutablePool の構文は Executable と似ていますが、ExecutablePool テーブルに固有の設定がいくつかあります。
pool_size- 説明: プロセスプールのサイズ。サイズが 0 の場合、サイズの制限はありません
- デフォルト値: 16
max_command_execution_time- 説明: コマンドの最大実行時間 (秒)
- デフォルト値: 10
sentiment テーブルは、Executable の代わりに ExecutablePool を使うよう簡単に変換できます。
sentiment_pooledテーブルにクエリを実行すると、ClickHouse は必要に応じて 4 つのプロセスを維持します。