Хеш от NULL равен NULL. Чтобы получить хеш, отличный от NULL, для столбца типа Nullable, оберните его в tuple:
Чтобы вычислить хеш всего содержимого таблицы, используйте
sum(cityHash64(tuple(*))) (или другую хеш-функцию). tuple гарантирует, что строки со значениями NULL не будут пропущены. sum гарантирует, что порядок строк не имеет значения.BLAKE3
message— Входная строка для хеширования.String
FixedString(32)
Примеры
hash
Query
Response
MD4
s— Строка, для которой вычисляется хеш.String
FixedString(16)
Примеры
Пример использования
Query
Response
MD5
s— Строка, для которой вычисляется хеш.String
FixedString(16)
Примеры
Пример использования
Query
Response
RIPEMD160
s— Входная строка для вычисления хеша.String
FixedString(20)
Примеры
Пример использования
Query
Response
SHA1
s— Входная строка, для которой вычисляется хешString
FixedString(20)
Примеры
Пример использования
Query
Response
SHA224
s— Входное значение, для которого вычисляется хеш.String
FixedString(28)
Примеры
Пример использования
Query
Response
SHA256
s— входная строка для хеширования.String
FixedString(32)
Примеры
Пример использования
Query
Response
SHA384
s— Входная строка для вычисления хеша.String
FixedString(48)
Примеры
Пример использования
Query
Response
SHA512
s— Строка, которую нужно хешироватьString
FixedString(64)
Примеры
Пример использования
Query
Response
SHA512_256
s— Входная строка, для которой вычисляется хеш.String
FixedString(32)
Примеры
Пример использования
Query
Response
URLHash
| Режим | Описание |
|---|---|
URLHash(url) | Вычисляет хеш для строки без одного из завершающих символов /, ? или # в конце, если такой символ присутствует. |
URLHash(url, N) | Вычисляет хеш для строки до N-го уровня в иерархии URL без одного из завершающих символов /, ? или # в конце, если такой символ присутствует. Уровни те же, что и в URLHierarchy. |
url. UInt64
Примеры
Пример использования
Query
Response
Query
Response
cityHash64
Google изменила алгоритм CityHash после того, как он был добавлен в ClickHouse.
Иными словами, cityHash64 в ClickHouse и исходный CityHash от Google теперь выдают разные результаты.
cityHash64 в ClickHouse соответствует CityHash v1.0.2.
Вычисленные хеш-значения могут совпадать для одних и тех же входных значений аргументов разных типов.
Это касается, например, целочисленных типов разного размера, именованных и неименованных
Tuple с одинаковыми данными, а также Map и соответствующего типа Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— переменное количество входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример вызова
Query
Response
Query
Response
farmFingerprint64
Fingerprint64.
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это относится, например, к целочисленным типам разного размера, именованным и неименованным
Tuple с одинаковыми данными, Map и соответствующему типу Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
farmHash64
Hash64.
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это касается, например, целочисленных типов разного размера, именованных и неименованных
Tuple с одинаковыми данными, а также Map и соответствующего типа Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
gccMurmurHash
arg1[, arg2, ...]— Переменное количество аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
halfMD5
sipHash64.
Функция принимает переменное число входных параметров.
Аргументами могут быть любые поддерживаемые типы данных.
Для некоторых типов данных вычисленное хеш-значение может совпадать для одинаковых значений, даже если типы аргументов различаются (целые числа разного размера, именованный и неименованный Tuple с одинаковыми данными, Map и соответствующий тип Array(Tuple(key, value)) с одинаковыми данными).
Синтаксис
arg1[, arg2, ..., argN]— переменное количество аргументов, для которых вычисляется хеш.Any
UInt64 с порядком байтов big-endian. UInt64
Примеры
Пример использования
Query
Response
hiveHash
JavaHash с обнулёнными знаковыми битами.
Эта функция используется в Apache Hive в версиях до 3.0.
Синтаксис
arg— Входная строка для вычисления хеша.String
Int32
Примеры
Пример использования
Query
Response
icebergHash
value— исходное значение, для которого вычисляется хеш:IntegerилиBoolилиDecimalилиFloat*илиStringилиFixedStringилиUUIDилиDateилиTimeилиDateTime
Int32
Примеры
Пример
Query
Response
intHash32
arg— Целое число для хеширования.(U)Int*
UInt32
Примеры
Пример использования
Query
Response
intHash64
intHash32), но не является криптографической хеш-функцией.
Синтаксис
int— Целое число, для которого вычисляется хеш.(U)Int*
UInt64
Примеры
Пример использования
Query
Response
javaHash
В Java хеш можно вычислять только для знаковых целых чисел,
поэтому, если вы хотите вычислить хеш для беззнаковых целых чисел, их нужно привести к соответствующим знаковым типам ClickHouse.
arg— Входное значение, для которого вычисляется хеш.Any
arg Int32
Примеры
Пример использования 1
Query
Response
Query
Response
javaHashUTF16LE
arg— Строка в кодировке UTF-16LE.String
Int32
Примеры
Пример использования
Query
Response
jumpConsistentHash
Int32
Примеры
Пример использования
Query
Response
kafkaMurmurHash
arg1[, arg2, ...]— Переменное число параметров, для которых вычисляется хеш.Any
UInt32
Примеры
Пример использования
Query
Response
keccak256
message— Входная строка, которую нужно хешировать.String
FixedString(32)
Примеры
Пример использования
Query
Response
kostikConsistentHash
n <= 32768.
Синтаксис
yandexConsistentHash
Аргументы
Возвращаемое значение
Возвращает вычисленное хеш-значение. UInt16
Примеры
Пример использования
Query
Response
metroHash64
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это относится, например, к целочисленным типам разного размера, именованным и неименованным
Tuple с одинаковыми данными, а также к Map и соответствующему типу Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
murmurHash2_32
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это относится, например, к целочисленным типам разного размера, именованному и неименованному
Tuple с одними и теми же данными, а также Map и соответствующему типу Array(Tuple(key, value)) с одними и теми же данными.arg1[, arg2, ...]— Переменное количество входных аргументов, для которых вычисляется хеш.Any
UInt32
Примеры
Пример использования
Query
Response
murmurHash2_64
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это относится, например, к целочисленным типам разного размера, именованным и неименованным
Tuple с одинаковыми данными, а также к Map и соответствующему типу Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
murmurHash3_128
arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
MurmurHash3 для входных аргументов. FixedString(16)
Примеры
Пример использования
Query
Response
murmurHash3_32
Вычисленные хеш-значения могут совпадать для одних и тех же входных значений при разных типах аргументов.
Это относится, например, к целочисленным типам разного размера, именованным и неименованным
Tuple с одинаковыми данными, а также к Map и соответствующему типу Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— переменное количество входных аргументов, для которых вычисляется хеш.Any
UInt32
Примеры
Пример использования
Query
Response
murmurHash3_64
Вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это касается, например, целочисленных типов разного размера, именованных и неименованных
Tuple с одинаковыми данными, Map и соответствующего типа Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
UInt64
Примеры
Пример использования
Query
Response
ngramMinHash
ngramsize символов, вычисляет хеш-значение для каждой n-граммы и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеш-значения и hashnum максимальных хешей для вычисления максимального хеш-значения.
Учитывает регистр.
Можно использовать для обнаружения похожих строк с помощью tupleHammingDistance.
Если для двух строк возвращаемые хеши совпадают, значит, эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательный параметр. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный параметр. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
Tuple
Примеры
Пример использования
Query
Response
ngramMinHashArg
ngramsize символов и возвращает n-граммы с минимальным и максимальным хешами, вычисленными функцией ngramMinHash для тех же входных данных.
Функция чувствительна к регистру.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательно. Размер n-граммы, любое значение от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Число минимальных и максимальных хешей, используемых для вычисления результата, любое значение от1до25. Значение по умолчанию —6.UInt8
hashnum n-грамм в каждом. Tuple(String)
Примеры
Пример использования
Query
Response
ngramMinHashArgCaseInsensitive
ngramsize символов и возвращает n-граммы с минимальными и максимальными хешами, вычисленными функцией ngramMinHashCaseInsensitive для тех же входных данных.
Поддерживает регистронезависимый поиск.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательно. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
hashnum n-грамм. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
ngramMinHashArgCaseInsensitiveUTF8
ngramsize символов и возвращает n-граммы с минимальным и максимальным хешами, вычисленными функцией ngramMinHashCaseInsensitiveUTF8 для тех же входных данных.
Поддерживает регистронезависимый поиск.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательно. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
hashnum n-грамм в каждом. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
ngramMinHashArgUTF8
ngramsize символов и возвращает n-граммы с минимальным и максимальным хешами, вычисленными функцией ngramMinHashUTF8 для тех же входных данных.
Функция чувствительна к регистру.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательно. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
hashnum n-грамм. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
ngramMinHashCaseInsensitive
ngramsize символов, вычисляет хеш-значение для каждой n-граммы и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Поддерживает регистронезависимый поиск.
Может использоваться для обнаружения почти повторяющихся строк с помощью tupleHammingDistance.
Если для двух строк возвращаемые хеши совпадают, значит, эти строки одинаковы.
Синтаксис
string— String. String. -ngramsize— Размер n-граммы. Необязательный. Возможные значения: любое число от1до25. Значение по умолчанию:3. UInt8. -hashnum— Число минимальных и максимальных хешей, используемых для вычисления результата. Необязательный. Возможные значения: любое число от1до25. Значение по умолчанию:6. UInt8.
Tuple
Примеры
Пример использования
Query
Response
ngramMinHashCaseInsensitiveUTF8
ngramsize символов, вычисляет хеш-значения для каждой n-граммы и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Функция поддерживает регистронезависимый поиск.
Может использоваться для обнаружения почти одинаковых строк с помощью tupleHammingDistance.
Для двух строк: если возвращаемые хеши совпадают для обеих строк, значит, эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательный. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
Tuple
Примеры
Пример использования
Query
Response
ngramMinHashUTF8
ngramsize символов, вычисляет хеш-значения для каждой n-граммы и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Функция чувствительна к регистру.
Можно использовать для обнаружения почти дублирующихся строк с помощью tupleHammingDistance.
Если для двух строк возвращаемые хеши совпадают, то эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательный параметр. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный параметр. Количество минимальных и максимальных хешей, используемых для вычисления результата; любое число от1до25. Значение по умолчанию —6.UInt8
Tuple
Примеры
Пример использования
Query
Response
ngramSimHash
ngramsize символов и возвращает simhash n-граммы.
Может использоваться для обнаружения почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhash двух строк, тем выше вероятность, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляетсяsimhashс учетом регистра.Stringngramsize— Необязательный параметр. Размер n-граммы — любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
ngramSimHashCaseInsensitive
ngramsize символов и возвращает их simhash.
Поддерживает регистронезависимый поиск.
Может использоваться для поиска почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhashes двух строк, тем выше вероятность, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляетсяsimhashдля регистронезависимого поиска.Stringngramsize— Необязательный параметр. Размер n-граммы, любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
ngramSimHashCaseInsensitiveUTF8
ngramsize символов и возвращает simhash n-грамм.
Выполняет регистронезависимый поиск.
Может использоваться для обнаружения частично дублирующихся строк с помощью bitHammingDistance. Чем меньше расстояние Хэмминга между вычисленными simhashes двух строк, тем выше вероятность, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательно. Размер n-граммы — любое число от1до25. Значение по умолчанию:3.UInt8
UInt64
Примеры
Пример использования
Query
Response
ngramSimHashUTF8
ngramsize символов и возвращает simhash n-граммы.
Функция чувствительна к регистру.
Может использоваться для выявления частично дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhashes двух строк, тем выше вероятность, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringngramsize— Необязательный параметр. Размер n-граммы — любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
sipHash128
sipHash64, но возвращает 128-битное хеш-значение, то есть итоговое состояние xor-folding вычисляется до 128 бит.
Синтаксис
arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
SipHash. FixedString(16)
Примеры
Пример использования
Query
Response
sipHash128Keyed
sipHash128, но дополнительно принимает явный аргумент key вместо использования фиксированного ключа.
Синтаксис
(k0, k1)— кортеж из двух значений UInt64, представляющий ключ.Tuple(UInt64, UInt64)arg1[, arg2, ...]— переменное число входных аргументов, для которых вычисляется хеш.Any
SipHash типа FixedString(16). FixedString(16)
Примеры
Пример использования
Query
Response
sipHash128Reference
sipHash128, но использует 128-битный алгоритм от исходных авторов SipHash.
Синтаксис
arg1[, arg2, ...]— переменное число входных аргументов, для которых вычисляется хеш.Any
SipHash от входных аргументов. FixedString(16)
Примеры
Пример использования
Query
Response
sipHash128ReferenceKeyed
sipHash128Reference, но дополнительно принимает явный аргумент key вместо использования фиксированного ключа.
Синтаксис
(k0, k1)— кортеж из двух значений, представляющий ключTuple(UInt64, UInt64)arg1[, arg2, ...]— Переменное число входных аргументов, для которых вычисляется хеш.Any
SipHash для входных аргументов. FixedString(16)
Примеры
Пример использования
Query
Response
sipHash64
MD5.
Функция интерпретирует все входные параметры как строки и вычисляет хеш-значение для каждого из них.
Затем она объединяет хеш-значения, используя следующий алгоритм:
- Первое и второе хеш-значения объединяются в массив, для которого вычисляется хеш.
- Ранее вычисленное хеш-значение и хеш-значение третьего входного параметра хешируются аналогичным образом.
- Это вычисление повторяется для всех оставшихся хеш-значений исходных входных параметров.
вычисленные хеш-значения могут совпадать для одинаковых входных значений аргументов разных типов.
Это относится, например, к целочисленным типам разного размера, именованным и неименованным
Tuple с одинаковыми данными, Map и соответствующему типу Array(Tuple(key, value)) с одинаковыми данными.arg1[, arg2, ...]— Переменное число входных аргументов.Any
UInt64
Примеры
Пример использования
Query
Response
sipHash64Keyed
sipHash64, но дополнительно принимает явный ключ в качестве аргумента вместо использования фиксированного ключа.
Синтаксис
(k0, k1)— Кортеж из двух значений, образующих ключ.Tuple(UInt64, UInt64)arg1[,arg2, ...]— Переменное число входных аргументов.Any
UInt64
Примеры
Пример использования
Query
Response
wordShingleMinHash
shinglesize слов, вычисляет хеш-значения для каждого словесного шингла и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Чувствительна к регистру.
Может использоваться для обнаружения почти дублирующихся строк с помощью tupleHammingDistance.
Если для двух строк возвращённые хеши совпадают, то строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательно. Размер словесного шингла: любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата: любое число от1до25. Значение по умолчанию —6.UInt8
Tuple(UInt64, UInt64)
Примеры
Пример использования
Query
Response
wordShingleMinHashArg
shinglesize слов в каждой и возвращает шинглы с минимальным и максимальным хешами слов, вычисленные функцией wordShingleMinHash для тех же входных данных.
Функция чувствительна к регистру.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный параметр. Размер словесного шингла; любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный параметр. Количество минимальных и максимальных хешей, используемых для вычисления результата; любое число от1до25. Значение по умолчанию —6.UInt8
hashnum словесных шинглов. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
wordShingleMinHashArgCaseInsensitive
shinglesize слов в каждой и возвращает шинглы с минимальным и максимальным хешами слов, вычисленными функцией wordShingleMinHashCaseInsensitive при тех же входных данных.
Функция использует регистронезависимый поиск.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательно. Размер словесного шингла; любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата; любое число от1до25. Значение по умолчанию —6.UInt8
hashnum словесных шинглов. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
wordShingleMinHashArgCaseInsensitiveUTF8
shinglesize слов в каждой и возвращает шинглы с минимальным и максимальным хешами слов, вычисленными функцией wordShingleMinHashCaseInsensitiveUTF8 для тех же входных данных.
Поддерживает регистронезависимый поиск.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательно. Размер словесного шингла, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
hashnum словесных шинглов. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
wordShingleMinHashArgUTF8
shinglesize слов в каждой и возвращает шинглы с минимальным и максимальным хешами слов, вычисленными функцией wordShingleMinHashUTF8 для той же входной строки.
Чувствительна к регистру.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный параметр. Размер словесного шингла: любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный параметр. Количество минимальных и максимальных хешей, используемых для вычисления результата: любое число от1до25. Значение по умолчанию —6.UInt8
hashnum словесных шинглов. Tuple(Tuple(String))
Примеры
Пример использования
Query
Response
wordShingleMinHashCaseInsensitive
shinglesize слов, вычисляет хеш-значения для каждого словесного шингла и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Функция использует регистронезависимый поиск.
Может использоваться для обнаружения почти дублирующихся строк с помощью tupleHammingDistance.
Для двух строк: если возвращаемые хеши совпадают для обеих строк, значит, эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательно. Размер словесного шингла, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательно. Количество минимальных и максимальных хешей, используемых для вычисления результата; любое число от1до25. Значение по умолчанию —6.UInt8
Tuple(UInt64, UInt64)
Примеры
Пример использования
Query
Response
wordShingleMinHashCaseInsensitiveUTF8
shinglesize слов, вычисляет хеш-значения для каждого словесного шингла и возвращает кортеж с этими хешами.
Использует hashnum минимальных хешей для вычисления минимального хеша и hashnum максимальных хешей для вычисления максимального хеша.
Используется регистронезависимый поиск.
Может использоваться для обнаружения почти дублирующихся строк с помощью tupleHammingDistance.
Если для двух строк возвращаются одинаковые хеши, значит, эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный аргумент. Размер словесного шингла, любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный аргумент. Количество минимальных и максимальных хешей, используемых для вычисления результата, любое число от1до25. Значение по умолчанию —6.UInt8
Tuple(UInt64, UInt64)
Примеры
Пример использования
Query
Response
wordShingleMinHashUTF8
shinglesize слов, вычисляет хеш-значения для каждого словесного шингла и возвращает кортеж с этими хешами.
Для вычисления минимального хеша использует hashnum минимальных хешей, а для вычисления максимального хеша — hashnum максимальных хешей.
Функция чувствительна к регистру.
Может использоваться для обнаружения почти дублирующихся строк с помощью tupleHammingDistance.
Если для двух строк возвращённые хеши совпадают, значит, эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный аргумент. Размер словесного шингла; любое число от1до25. Значение по умолчанию —3.UInt8hashnum— Необязательный аргумент. Количество минимальных и максимальных хешей, используемых для вычисления результата; любое число от1до25. Значение по умолчанию —6.UInt8
Tuple(UInt64, UInt64)
Примеры
Пример использования
Query
Response
wordShingleSimHash
shinglesize слов и возвращает simhash словесного шингла.
Чувствительна к регистру.
Может использоваться для выявления почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhash двух строк, тем выше вероятность, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный параметр. Размер словесного шингла; любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
wordShingleSimHashCaseInsensitive
shinglesize слов и возвращает simhash словесного шингла.
Используется регистронезависимый поиск.
Может использоваться для выявления почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhash двух строк, тем выше вероятность, что эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный параметр. Размер словесного шингла, любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
wordShingleSimHashCaseInsensitiveUTF8
shinglesize слов и возвращает simhash словесного шингла.
Использует регистронезависимый поиск.
Может использоваться для обнаружения почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhash двух строк, тем выше вероятность, что эти строки одинаковы.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный. Размер словесного шингла: любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
wordShingleSimHashUTF8
shinglesize слов и возвращает simhash словесного шингла.
Чувствительна к регистру.
Может использоваться для обнаружения почти дублирующихся строк с помощью bitHammingDistance.
Чем меньше расстояние Хэмминга между вычисленными simhashes двух строк, тем выше вероятность того, что эти строки совпадают.
Синтаксис
string— Строка, для которой вычисляется хеш.Stringshinglesize— Необязательный параметр. Размер словесного шингла; любое число от1до25. Значение по умолчанию —3.UInt8
UInt64
Примеры
Пример использования
Query
Response
wyHash64
arg— аргумент типа String, для которого вычисляется хеш.String
UInt64
Примеры
Пример использования
Query
Response
xxHash32
xxHash64
Синтаксис
arg— Входная строка для вычисления хеша.String
UInt32
Примеры
Пример использования
Query
Response
xxHash64
xxHash32
Синтаксис
arg— Строка, для которой вычисляется хеш.String
UInt64
Примеры
Пример использования
Query
Response
xxh3
expr— Список выражений любого типа данных.Any
xxh3 UInt64
Примеры
Пример использования
Query
Response
xxh3_128
expr— Список выражений любого типа данных.Any
xxh3 UInt128
Примеры
Пример использования
Query
Response