Глубокое погружение в модель LSTM-CRF

Углубленное разбирательство в модель LSTM-CRF

С кодом PyTorch

В быстро развивающейся области обработки естественного языка модели-трансформеры стали доминирующими, продемонстрировав впечатляющую производительность в широком диапазоне задач моделирования последовательностей, включая пос-таггинг, именованное распознавание сущносте и разделение. До эры трансформеров, условные случайные поля (CRF) были основным инструментом для моделирования последовательностей, в особенности линейно-цепных (linear-chain CRF), которые моделируют последовательности как направленные графы, хотя CRF более общие могут использоваться на произвольных графах.

Эта статья будет разделена следующим образом:

  1. Введение
  2. Оценки эмиссии и перехода
  3. Функция потерь
  4. Эффективная оценка функции разбиения с помощью алгоритма Forward
  5. Алгоритм Витерби
  6. Полный код LSTM-CRF
  7. Ограничения и заключение

Введение

Внедрение CRF в этих статьях базируется на этом отличном учебнике. Обратите внимание, что это определенно не самая эффективная реализация и также не имеет возможности пакетной обработки, однако она относительно проста для чтения и понимания, и так как целью этого учебника является ознакомление с внутренней работой CRF, она вполне подходит для нас.

Оценки эмиссии и перехода

В задачах разметки последовательностей мы имеем дело с последовательностью элементов входных данных, таких как слова в предложении, где каждый элемент соответствует определенной метке или категории. Основная цель – правильно присвоить соответствующую метку каждому отдельному элементу. В модели CRF-LSTM мы можем выделить две ключевые компоненты: оценки эмиссии и перехода. Обратите внимание, что мы будем работать со значениями в логарифмическом пространстве вместо вероятностей для численной стабильности:

  1. Оценки эмиссии относятся к вероятности наблюдения определенной метки для данного элемента данных. В контексте распознавания именованных сущностей, например, каждое слово в последовательности связано с одной из трех меток: начало сущности (B), промежуточное слово сущности (I) или слово вне какой-либо сущности (O). Вероятности эмиссии количественно оценивают вероятность того, что определенное слово связано с определенной меткой. Это математически выражается как P(y_i | x_i), где y_i обозначает метку, а x_i представляет…