Глубокое погружение в модель LSTM-CRF
Углубленное разбирательство в модель LSTM-CRF
С кодом PyTorch
В быстро развивающейся области обработки естественного языка модели-трансформеры стали доминирующими, продемонстрировав впечатляющую производительность в широком диапазоне задач моделирования последовательностей, включая пос-таггинг, именованное распознавание сущносте и разделение. До эры трансформеров, условные случайные поля (CRF) были основным инструментом для моделирования последовательностей, в особенности линейно-цепных (linear-chain CRF), которые моделируют последовательности как направленные графы, хотя CRF более общие могут использоваться на произвольных графах.
Эта статья будет разделена следующим образом:
- Введение
- Оценки эмиссии и перехода
- Функция потерь
- Эффективная оценка функции разбиения с помощью алгоритма Forward
- Алгоритм Витерби
- Полный код LSTM-CRF
- Ограничения и заключение
Введение
Внедрение CRF в этих статьях базируется на этом отличном учебнике. Обратите внимание, что это определенно не самая эффективная реализация и также не имеет возможности пакетной обработки, однако она относительно проста для чтения и понимания, и так как целью этого учебника является ознакомление с внутренней работой CRF, она вполне подходит для нас.
Оценки эмиссии и перехода
В задачах разметки последовательностей мы имеем дело с последовательностью элементов входных данных, таких как слова в предложении, где каждый элемент соответствует определенной метке или категории. Основная цель – правильно присвоить соответствующую метку каждому отдельному элементу. В модели CRF-LSTM мы можем выделить две ключевые компоненты: оценки эмиссии и перехода. Обратите внимание, что мы будем работать со значениями в логарифмическом пространстве вместо вероятностей для численной стабильности:
- Очистка + подготовка данных о озерах Миннесоты
- QA-LoRA Настройте квантованную модель большого языка на своем графическом процессоре.
- Лжепророк Создание характеристик для домашней временной регрессии (часть 1 из 2)
- Оценки эмиссии относятся к вероятности наблюдения определенной метки для данного элемента данных. В контексте распознавания именованных сущностей, например, каждое слово в последовательности связано с одной из трех меток: начало сущности (B), промежуточное слово сущности (I) или слово вне какой-либо сущности (O). Вероятности эмиссии количественно оценивают вероятность того, что определенное слово связано с определенной меткой. Это математически выражается как P(y_i | x_i), где y_i обозначает метку, а x_i представляет…