Раскрытие секретов мультимодальных нейронов Путешествие от Молинью до Трансформеров
Всеобъемлющее открытие секретов мультимодальных нейронов Путешествие от Молинью до Трансформеров
Трансформеры могут быть одними из самых важных инноваций в области искусственного интеллекта. Эти архитектуры нейронных сетей, представленные в 2017 году, революционизировали способ, как машины понимают и создают человеческий язык.
В отличие от своих предшественников, трансформеры полагаются на механизмы самообращения для параллельной обработки входных данных, что позволяет им улавливать скрытые связи и зависимости в последовательностях информации. Эта возможность параллельной обработки не только ускорила время обучения, но и открыла путь к разработке моделей с высоким уровнем сложности и производительности, таких как знаменитый ChatGPT.
Последние годы показали нам, насколько способными стали искусственные нейронные сети в различных задачах. Они изменили задачи языка, задачи зрения и т. д. Но настоящий потенциал заключается в кроссмодальных задачах, где они объединяют различные сенсорные модальности, такие как зрение и текст. Эти модели были дополнены дополнительными сенсорными входами и достигли впечатляющих показателей в задачах, требующих понимания и обработки информации из разных источников.
- Прогресс в компьютерном зрении глубокое обучение для распознавания изображений.
- Эксперименты, обучение модели и оценка исследование 6 ключевых вопросов MLOps с использованием AWS SageMaker
- MDaudit использует искусственный интеллект для улучшения результатов по доходам для клиентов в сфере здравоохранения
В 1688 году философ по имени Уильям Молиньё представил привлекательную загадку Джону Локку, которая продолжала увлекать умы ученых на протяжении веков. Его вопрос был простым, но глубоким: если человек, слепой с рождения, вдруг приобретет зрение, сможет ли он узнавать предметы, которые ранее он знал только через осязание и другие невизуальные чувства? Этот интригующий вопрос, известный как проблема Молиньё, затрагивает не только сферу философии, но и имеет значительные последствия для науки о зрении.
В 2011 году нейронауки о зрении начали миссию, чтобы ответить на этот вопрос, возникший задолго до этого. Ими было установлено, что немедленное зрительное распознавание ранее доступных только для тактильного восприятия объектов не является возможным. Однако важным открытием было то, что наши мозги удивительно адаптивны. Уже на второй день после операции по восстановлению зрения люди могли быстро научиться распознавать предметы визуально, сокращая разрыв между различными сенсорными модальностями.
Подтверждается ли это явление также для мультимодальных нейронов? Пришло время узнать ответ.

Мы находимся в середине технологической революции. Искусственные нейронные сети, особенно те, которые обучены на языковых задачах, проявили замечательные способности в кроссмодальных задачах, где они объединяют различные сенсорные модальности, такие как зрение и текст. Эти модели были дополнены дополнительными сенсорными входами и достигли впечатляющих показателей в задачах, требующих понимания и обработки информации из разных источников.
Одним из распространенных подходов в этих моделях зрение-язык является использование формы условной связи изображения. В этой ситуации отдельный кодировщик изображений синхронизируется с декодером текста, часто с помощью выученного слоя адаптера. Несколько методов применили эту стратегию, обычно полагаясь на кодировщики изображений, такие как CLIP, обученные вместе с языковыми моделями.
Однако недавнее исследование, LiMBeR, представило уникальную ситуацию, повторяющую проблему Молиньо в машинах. Они использовали самообучающуюся сеть изображений BEIT, которая ранее не видела никакие лингвистические данные, и связали ее с языковой моделью GPT-J с помощью слоя линейного проектирования, обученного на задаче перевода изображения в текст. Эта интригующая схема поднимает фундаментальные вопросы: происходит ли перевод семантики между модальностями в слое проекции, или выравнивание визуальных и языковых представлений происходит внутри самой языковой модели?
Исследование, представленное авторами в МИТ, стремится найти ответы на эту четырехвековую тайну и разъяснить, как работают эти многомодальные модели.
Во-первых, было установлено, что изображения, преобразованные в пространство вложений трансформатора, не кодируют интерпретируемую семантику. Вместо этого, перевод между модальностями происходит внутри трансформатора.
Во-вторых, в текстовых многослойных перцептронах без изображений были обнаружены многомодальные нейроны, способные обрабатывать информацию как изображений, так и текста с похожей семантикой. Эти нейроны играют важную роль в переводе визуальных представлений в язык.
Окончательным и, возможно, наиболее важным открытием является то, что эти многомодальные нейроны оказывают причинное влияние на выход модели. Модуляция этих нейронов может привести к удалению конкретных концепций из описаний изображений, подчеркивая их значение в многомодальном понимании контента.
Это исследование внутренних процессов отдельных блоков в глубоких сетей раскрывает множество информации. Точно так же, как сверточные блоки в классификаторах изображений могут обнаруживать цвета и узоры, а последующие блоки могут распознавать категории объектов, в трансформаторах было обнаружено появление многомодальных нейронов. Эти нейроны являются селективными для изображений и текста с похожей семантикой.
Кроме того, многомодальные нейроны могут возникать даже тогда, когда зрение и язык изучаются отдельно. Они могут эффективно преобразовывать визуальные представления в последовательный текст. Эта способность выравнивать представления между модальностями имеет широкие последствия и делает языковые модели мощными инструментами для различных задач, связанных с последовательным моделированием, от прогнозирования стратегий игры до проектирования белков.