메인 콘텐츠로 건너뛰기
지정된 클러스터의 여러 노드에서 URL의 파일을 병렬로 처리할 수 있습니다. 이니시에이터에서는 클러스터의 모든 노드에 연결을 생성하고, URL 파일 경로의 별표(*)를 해석해 각 파일을 동적으로 분배합니다. 워커 노드에서는 처리할 다음 작업을 이니시에이터에 요청한 뒤 이를 처리합니다. 이 과정은 모든 작업이 완료될 때까지 반복됩니다.

구문

urlCluster(cluster_name, URL, format, structure)

인수

인수설명
cluster_name원격 및 로컬 서버의 주소 집합과 연결 매개변수를 구성하는 데 사용하는 클러스터 이름입니다.
URLGET 요청을 받을 수 있는 HTTP 또는 HTTPS 서버 주소입니다. 유형: String.
format데이터의 포맷입니다. 유형: String.
structure'UserID UInt64, Name String' 포맷의 테이블 구조입니다. 컬럼 이름과 타입을 결정합니다. 유형: String.

반환 값

지정된 포맷과 구조를 가지며, 지정한 URL의 데이터를 포함하는 테이블입니다.

예시

CSV 포맷으로 응답하는 HTTP 서버에서 StringUInt32 타입의 컬럼이 있는 테이블의 처음 3줄을 가져오는 예시입니다.
  1. 표준 Python 3 도구를 사용해 기본 HTTP 서버를 만들고 시작합니다:
from http.server import BaseHTTPRequestHandler, HTTPServer

class CSVHTTPServer(BaseHTTPRequestHandler):
    def do_GET(self):
        self.send_response(200)
        self.send_header('Content-type', 'text/csv')
        self.end_headers()

        self.wfile.write(bytes('Hello,1\nWorld,2\n', "utf-8"))

if __name__ == "__main__":
    server_address = ('127.0.0.1', 12345)
    HTTPServer(server_address, CSVHTTPServer).serve_forever()
SELECT * FROM urlCluster('cluster_simple','http://127.0.0.1:12345', CSV, 'column1 String, column2 UInt32')

URL의 글롭 패턴

{ } 안의 패턴은 세그먼트 집합을 생성하거나 장애 조치 주소를 지정하는 데 사용됩니다. 지원되는 패턴 유형과 예시는 remote 함수 설명을 참조하십시오. 패턴 내부의 문자 |는 장애 조치 주소를 지정하는 데 사용됩니다. 이 주소들은 패턴에 나열된 순서대로 순회됩니다. 생성되는 주소 수는 glob_expansion_max_elements 설정으로 제한됩니다.
마지막 수정일 2026년 6월 10일