Путаница в хешировании, используемая LSH

введите описание изображения здесь

Матрица M – это матрица сигнатур, которая создается посредством Minhashing фактических данных, имеет документы в виде столбцов и слов в виде строк. Таким образом, столбец представляет собой документ.

Теперь он говорит, что каждая полоса ( b в числе, r в длину) имеет свои столбцы хэшированные, так что столбец попадает в ведро. Если два столбца попадают в одно и то же ведро, для> = 1 полосок, то они потенциально похожи.

Значит, я должен создать b hashtables и найти b независимых хеш-функций? Или достаточно одного, и каждая полоса посылает свои столбцы в одни и те же коллекции ведер (но разве это не отменяет полосы)?

Достаточно ли было бы словаря для хэш-таблицы в этом случае * ?

* Является ли словарь Python примером хеш-таблицы?

  • Как получить доступ к хешу / фрагменту URL из объекта запроса Django
  • Ожидаемое количество хэш-коллизий
  • Почему pip терпит неудачу с хешем md5 для пакета?
  • Как хешировать большой объект (набор данных) в Python?
  • Извлеките хэш SHA1 из файла torrent
  • Как кодировать и декодировать строку с Python для использования в URL-адресе?
  • TypeError: unhashable type: 'dict', когда dict используется как ключ для другого dict
  • django: Как изменить URL-адрес из первичного ключа объекта базы данных?
  • One Solution collect form web for “Путаница в хешировании, используемая LSH”

    Думаю, я это понял, разместив для будущих читателей.

    Я собираюсь использовать один словарь, поскольку слайды упоминали, что нормально использовать одну и ту же функцию хэша для каждой полосы ( словари делают это ).

    Каждое ведро будет ключевым для нашего словаря.

    При вставке документ (то есть столбец, который принадлежит полосе) будет передаваться хеш-функцией (которую мы создадим), и результат должен быть ключом. Таким образом, наш словарь будет заполнен.

    Interesting Posts
    Python - лучший язык программирования в мире.