Отчет OpenAI ускоряет усилия по выпуску мультимодального LLM под названием GPT-Vision

OpenAI отчет ускоряет выпуск LLM GPT-Vision

Согласно сообщению издания The Information, OpenAI, в попытке опередить конкурента Google в выпуске продвинутой мультимодальной модели языка (LLM), ускоряет работы по выпуску GPT-Vision с кодовым названием Gobi. Это происходит через неделю после того, как версия Google мультимодальной модели языка (LLM) Gemini была выпущена для тестирования небольшой группе компаний.

Но что такое мультимодальная модель языка (LLM)? Согласно сообщениям, эти большие модели языка смогут обрабатывать текст и изображения. Это означает, что эти модели смогут понимать и генерировать контент, объединяющий текст и изображения, предлагая расширенные возможности.

Как мы видели с выпуском GPT-4, такой выпуск позволит не только сохранить лидерство OpenAI на рынке, но и поможет удержать долю рынка в сфере общих моделей языка. Но она еще не готова. Согласно тому же отчету, GPT-Vision застрял на этапе проверки безопасности.

Хотя это может быть верно на данный момент, кажется, что “инженеры OpenAI кажутся близкими к удовлетворению правовых требований”. Эти требования начали накапливаться в последние несколько месяцев, так как OpenAI столкнулась с несколькими угрозами судебных исков из-за данных обучения от авторов и The New York Times.

Как упоминалось ранее, если OpenAI сможет выпустить Gobi раньше, чем Google, это обеспечит стартапу в сфере искусственного интеллекта ключевое преимущество перед конкурентами, которые интенсивно инвестируют в генеративный ИИ, надеясь догнать OpenAI. Это критическое преимущество, которое они стремятся не упустить.

Так что гонка началась. OpenAI стремится запустить Gobi раньше, чем у Google появится возможность выпустить Gemini. Это, конечно, связано с огромным успехом ChatGPT. Будучи первыми на рынке, OpenAI получила первый опыт работы с новыми пользователями, и ясно, что они хотят повторить это снова с помощью своей мультимодальной модели языка (LLM).

Сказанное, есть интересные возможности, которые Gobi может принести на стол для GPT-4. Gobi, вероятно, будет строиться на основе GPT-4, добавляя улучшенные визуальные и мультимодальные функции, которые ранее представила OpenAI.

Гонка за мультимодальностью набирает обороты, и в зависимости от того, какая компания выпустит свою модель первой, это, вероятно, окажет существенное влияние на будущее рынка на многие годы вперед.