Исследователи компании Datategy и Математика и Искусственный Интеллект предлагают перспективу для будущего мультирежимных моделей больших языков.

Перспективы мультирежимных моделей больших языков от исследователей компании Datategy и экспертов в области математики и искусственного интеллекта

Исследователи из Datategy SAS во Франции и Math & AI Institute в Турции предлагают одно возможное направление для недавно появившихся мульти-модальных архитектур. Основная идея их исследования заключается в том, что хорошо изученная формулировка распознавания именованных сущностей (NER) может быть включена в настройку многомодальной большой языковой модели (LLM).

Мульти-модальные архитектуры, такие как LLaVA, Kosmos или AnyMAL, набирают популярность в последнее время и демонстрируют свои возможности на практике. Эти модели токенизируют данные из модальностей, отличных от текста, таких как изображения, и используют внешние кодировщики, специфичные для модальности, для включения их в общее лингвистическое пространство. Это позволяет архитектурам предоставлять средства для настройки мультимодальных данных, смешанных с текстом в пересекающемся порядке.

Авторы этой статьи предлагают, что эта общая архитектурная предпочтительность может быть расширена в более амбициозной среде в ближайшем будущем, которую они называют “омни-модальной эрой”. Понятия “сущности”, которые каким-то образом связаны с концепцией NER, могут быть представлены как модальности для таких типов архитектур.

Например, стандартные LLM-модели известны тем, что они испытывают трудности в дедуктивном алгебраическом рассуждении. Хотя идут исследования для разработки “математически дружественных” специфических моделей или использования внешних инструментов, одним из потенциальных решений этой проблемы может быть определение количественных значений в качестве модальности в этой рамке работы. Еще одним примером может служить подразумеваемая и явная дата и время, которые могут обрабатываться специфическим кодировщиком, связанным с временными представлениями.

LLM-модели также имеют большие трудности с геопространственным пониманием, где их далеко не считают “геопространственно осведомленными”. Кроме того, необходимо правильно обрабатывать численные глобальные координаты, где представления о близости и смежности должны точно отражаться в лингвистическом вложенном пространстве. Поэтому включение местоположений как специальной геопространственной модальности также может предоставить решение для этой проблемы с помощью специально разработанного кодировщика и совместной обученности. В дополнение к этим примерам, первые потенциальные сущности, которые можно было бы включить в качестве модальности, – это люди, учреждения и т.д.

Авторы утверждают, что такой подход обещает решить масштабирование знаний параметрической/непараметрической сложности и ограничение длины контекста, так как сложность и информация могут быть распределены на множество кодировщиков модальности. Это также может решить проблемы внедрения обновленной информации через модальности. Исследователи только устанавливают границы такой потенциальной рамки и обсуждают обещания и вызовы разработки языковой модели, сфокусированной на сущностях.