Путаница в хешировании, используемая LSH

введите описание изображения здесь

Матрица M – это матрица сигнатур, которая создается посредством Minhashing фактических данных, имеет документы в виде столбцов и слов в виде строк. Таким образом, столбец представляет собой документ.

Теперь он говорит, что каждая полоса ( b в числе, r в длину) имеет свои столбцы хэшированные, так что столбец попадает в ведро. Если два столбца попадают в одно и то же ведро, для> = 1 полосок, то они потенциально похожи.

Значит, я должен создать b hashtables и найти b независимых хеш-функций? Или достаточно одного, и каждая полоса посылает свои столбцы в одни и те же коллекции ведер (но разве это не отменяет полосы)?

Достаточно ли было бы словаря для хэш-таблицы в этом случае * ?

* Является ли словарь Python примером хеш-таблицы?

  • Индекс MultiLevel для столбцов: получение value_counts в качестве столбцов в pandas
  • NLTK - нет модуля с именем corpus
  • Вставить значок в скрипт python
  • Как преобразовать результат SQL-запроса в структуру данных PANDAS?
  • Библиотека mpeg-2 для извлечения продолжительности видео
  • Кто-нибудь знает какую-либо услугу API расписания поездов?
  • Splinter или Selenium: можем ли мы получить текущую html-страницу после нажатия кнопки?
  • Scikit-learn train_test_split с индексами
  • One Solution collect form web for “Путаница в хешировании, используемая LSH”

    Думаю, я это понял, разместив для будущих читателей.

    Я собираюсь использовать один словарь, поскольку слайды упоминали, что нормально использовать одну и ту же функцию хэша для каждой полосы ( словари делают это ).

    Каждое ведро будет ключевым для нашего словаря.

    При вставке документ (то есть столбец, который принадлежит полосе) будет передаваться хеш-функцией (которую мы создадим), и результат должен быть ключом. Таким образом, наш словарь будет заполнен.

    Python - лучший язык программирования в мире.