Трансформеры – интуитивно и исчерпывающе объяснены
Трансформеры интуитивно и полноценно объясненные
Исследование современной волны машинного обучения: расчленение трансформера шаг за шагом

В этом сообщении вы узнаете о архитектуре трансформера, которая лежит в основе почти всех современных больших моделей языка, использующих машинное обучение. Мы начнем с краткой хронологии некоторых значимых концепций обработки естественного языка, затем последовательно пройдемся по трансформеру и раскроем его работу.
Для кого это полезно? Всем, кто интересуется обработкой естественного языка (NLP).
Насколько сложно это сообщение? Это несложное сообщение, но в нем содержится много концепций, поэтому менее опытным специалистам в области обработки данных может быть непросто.
Предварительные условия: Хорошее рабочее понимание стандартной нейронной сети. Пребывание в теме векторных представлений, кодировщиков и декодировщиков также может быть полезным.
- Обучение без присмотра с использованием проекционных головок
- «Используйте чаще»
- Поиск похожести для вложения революционный подход в анализе данных
Краткая Хронология NLP До Трансформера
Следующие разделы содержат полезные концепции и технологии, о которых нужно знать, прежде чем переходить к трансформерам. Если вы чувствуете уверенность, не стесняйтесь пропускать.
Векторные Представления Слов
Концептуальное понимание векторных представлений слов является фундаментальным для понимания обработки естественного языка. По сути, векторное представление слова преобразует отдельные слова в вектор, который somehow представляет его значение.

Подробности могут различаться от реализации к реализации, но конечный результат можно представить как “пространство слов”, в котором присутствуют определенные удобные отношения. Слова сложно математически обрабатывать, но вектора, содержащие информацию о слове и его взаимосвязи с другими словами, гораздо легче подвергать математическим операциям. Эта задача преобразования слов в вектора часто называется “эмбеддинг”.
Word2Vect, знаковая статья в области обработки естественного языка, стремилась создать векторное представление, которое соответствовало определенным полезным характеристикам. В основе…