Мультимодельные модели – что это?
Мультимодельные модели - что это значит?
Дайте LLM возможность видеть!
![Скриншот демонстрации встраивания текста и изображений Mecari, работающей на платформе Atlas от Nomic.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*JNeSrterzAVBghI_PKJ0WA.png)
Для кого этот пост?
- Аудитория читателей [🟢⚪️⚪️]: Новички в области ИИ, знакомые с популярными понятиями, моделями и их применением
- Уровень [🟢🟢️⚪️]: Промежуточная тема
- Сложность [🟢⚪️⚪️]: Легко усваивается, здесь нет математических формул или сложной теории
❓Почему это важно
Базовые модели языка (LLM), предварительно обученные на огромных наборах данных, довольно эффективны в обработке общих задач с использованием запросов через нулевую, немногих или переносных обучение.
Действительно, примеры этих моделей, таких как PaLM2 и GPT4, революционизировали способ взаимодействия с компьютерами, используя текст в качестве входных данных, но…
- Что, если мы сможем расширить интеллект этих моделей, позволив им использовать различные модальности ввода, такие как фотографии, аудио и видео? Или, другими словами, сделать их мультимодальными!
- Это могло бы значительно улучшить способность искать информацию в Интернете, а также понимать окружающий нас мир, например, в реальных приложениях, таких как медицина и патология.
- Есть решение! Мультимодельные глубокие модели обучения могут объединять встраивание разных типов ввода, позволяя LLM “видеть”, о чем вы спрашиваете, и возвращать соответствующие результаты.
⚡️Оставайтесь с нами, чтобы узнать больше о том, как все это работает, и попробовать рабочую демонстрацию!
🔥 Как это работает?
Все начинается с встраивания
Одним из самых мощных строительных блоков обучения моделей глубокого обучения является создание векторов встраивания.
- Освоение глубокого обучения Искусство приближать нелинейности с помощью точечных оценок Часть 2
- Овладение искусством очистки данных в Python
- Единая точка для логистической регрессии
Во время обучения модель кодирует различные категории (например, люди, еда и игрушки), с которыми она сталкивается, в их числовое представление, также называемое встраиванием, которое сохраняется в виде вектора чисел.
Встраивания полезны, когда мы хотим перейти от разреженного представления категории (или класса), например, длинной строки текста или изображения, к чему-то более компактному, что может быть повторно использовано в других моделях.