Метафорически говоря, ChatGPT живой.
ChatGPT Метафорически живое существо.
ChatGPT наконец стал мультимодальным

Рост ChatGPT был впечатляющим на протяжении многих лет. Недавно OpenAI объявила, что теперь ChatGPT может слышать, видеть и говорить.
Мультимодальность ChatGPT приобрела новую форму.
В ноябре 2023 года,
ChatGPT от OpenAI появился в интернете. Через два месяца, им пользовались более 100 миллионов пользователей, и он получил звание самого быстрорастущего потребительского программного приложения в истории. Некоммерческая компания увидела возможность получить прибыль, и это удалось.
- Наш ответственный подход к созданию ограждающих конструкций для генеративного искусственного интеллекта
- Принять унаследованное ветер
- Новые способы вдохновиться с помощью генеративного искусственного интеллекта в поиске
Прибыль пришла от их фриум-сервиса, но большая часть этой прибыли и средств пошла на оплату счетов – благодаря жадным требованиям ресурсов моделей LLM.
14 марта 2023 года,
Запуск GPT 4 закрепил имя OpenAI в суперинтеллектуальной утопии – став ключевым игроком в расширении границ искусственного интеллекта и технологий обработки естественного языка.
И другие крупные компании проявили интерес. Все стремились расширить эту границу дальше. В то же время, большинство этих технологических компаний заработали немалую прибыль в этой революционной области искусственного интеллекта.
ChatGPT, который находился на поддержке миллиардов долларов от компаний, таких как Microsoft, – наконец-то может видеть, слышать и разговаривать.
Метафорически говоря, он живой.
I. Голос: когда ChatGPT говорит

Посмотрите это демонстрационное видео от OpenAI, в котором они показывают новые мультимодальные возможности в приложении ChatGPT:
Это выглядит как момент “Привет, мир” для ChatGPT – и он живой, благодаря своему новому мультимодальному обновлению.
Через голос пользователи могут отправлять инструкции ChatGPT. ChatGPT затем отвечает в кажущемся естественным голосом. Новая голосовая функция превратила ChatGPT в сильного голосового помощника.
“Мы сотрудничали с профессиональными озвучивателями для создания каждого из голосов. Мы также используем Whisper… для транскрибации ваших произнесенных слов в текст”, – сказала OpenAI в своей посте с объявлением.
Whisper – это система распознавания речи от OpenAI, которая обучена на 680 000 часов данных.
В демо, поделенном OpenAI, пользователь просит ChatGPT рассказать историю перед сном о ежике – на что он отвечает, рассказывая историю. Он звучит похоже на chatGPT – буквально звучит – и, как сообщает ZDNet, это похоже на то, как работают голосовые помощники, например, Alexa от Amazon.
Фактически, по слухам, Alexa планирует интегрировать Генеративный ИИ, подобный GPT4, чтобы сделать своего голосового помощника более надежным и умным.
II. Изображение: когда ИИ видит

В демо от OpenAI пользователь попросил ChatGPT починить велосипед, отправив фотографии велосипеда в приложение. ChatGPT “посмотрел” на эти изображения и предложил решение починить велосипед [1].
Ситуация стала интересной, когда ChatGPT смог сопоставить руководство по эксплуатации и инструменты, и помочь пользователю по-настоящему починить велосипед. [2]
Возможность ввода изображения может быть полезной во множестве различных ситуаций: идентификация объектов, решение математических проблем, чтение инструкций или (конечно же) починка велосипеда. Возможность видеть изображения может значительно улучшить визуальные задачи, требующие анализа.
Одним интересным применением этой функции является работа датской стартап-компании Be My Eyes.
Be My Eyes разрабатывает технологии с 2012 года для более чем 250 миллионов слепых или лиц с ограниченным зрением. Они используют GPT-4 для помощи этим людям со специфическими потребностями и для этого разработали GPT-4 powered AI-версию своего прежнего Virtual Volunteer™ приложения.
Это позволяет Be My Eyes App, которое уже помогает слепым учащимся с их проблемами, стать лучше и надежнее.
Привет, читатели! Надеюсь, вы наслаждаетесь этой статьей. Она является частью моего еженедельного информационного бюллетеня Creative Block о искусственном интеллекте, технологиях и науке. Если вы хотите прочитать больше подобных постов, загляните на Creative Block.
Продолжаем.
Согласно OpenAI, Be My Eyes может принести пользу многим пользователям, поскольку теперь они могут взаимодействовать с помощью ИИ, что, благодаря возможности работы с изображениями, позволяет им более хорошо ориентироваться в окружающей среде.
“Понимание изображений обеспечивается мультимодальными моделями GPT-3.5 и GPT-4. Эти модели применяют свои навыки языкового рассуждения к широкому спектру изображений, таких как фотографии, скриншоты и документы, содержащие как текст, так и изображения”, говорит OpenAI в своем блоге.
III. Безопасность: когда ChatGPT (старается) быть безопасным

OpenAI провела бета-тестирование и «красно-командное тестирование», чтобы изучить и устранить риски.
Это позволяет ChatGPT быть почти безопасным, если не полностью.
Недавно OpenAI опубликовала статью, описывающую их тестирование с GPT-4V. GPT-4V, происходящий от слова GPT-4(V)ision, является моделью GPT-4 для анализа изображений, предоставленных пользователем.
Основной целью, по словам OpenAI, было “получение дополнительной обратной связи и понимания реальных способов взаимодействия людей с GPT-4V.”
Статья дает нам представление о рисках мультимодальной природы GPT-4.
Положительная оценка OpenAI показывает, что ChatGPT смог избежать вредного контента. Оказалось, что он отказывается генерировать изображения с реальными людьми. Кроме того, GPT4-V также отказался определять людей на изображениях.
Однако негативные оценки показывают, что GPT-4V все еще может создавать дезинформацию, обходить CAPTCHA или определять местоположение изображений.
Дополнительно OpenAI говорит следующее:
“…Задачи, такие как способность решать CAPTCHA, свидетельствуют о возможности модели решать головоломки и выполнять сложные визуальные задачи. Высокая производительность при оценке геолокации демонстрирует знание мира, которым обладает модель, и может быть полезна пользователям, пытающимся найти предмет или место”, говорит OpenAI в своем отчете GPT-4V(ision) System Card
Благодаря искусственному интеллекту, CAPTCHA стали вещью прошлого.
OpenAI нашла одно интересное открытие: GPT-4V довольно хорошо справляется с отказами от “путешествий в картинках”.
Термин “путешествия в картинках” означает процесс модификации модели искусственного интеллекта, создающей изображения (midjourney, dalle3 и т.д.), с целью обойти встроенные ограничения.
Это форма взлома (скорее обмана) этих моделей изображений, чтобы они генерировали чувствительные изображения, либо эксплуатируя их недостатки, либо манипулируя входными данными.
На графике ниже от OpenAI мы видим, как GPT-4 смог добиться отказа от “тюремного режима” — с уровнем отказа более 85%

На графике сравниваются три варианта GPT4: GPT-4 Release, GPT-4V и GPT-4V + Refusal System. [3]
OpenAI также привлекало “команды противников” для тестирования способностей модели в научных областях, таких как понимание изображений в публикациях, и ее способность давать медицинские советы на основе медицинских изображений, например, КТ-сканов.
Так что это надежно? Конечно, нет.
Вывод OpenAI по этому вопросу ясен: “Мы не считаем текущую версию GPT-4V пригодной для выполнения каких-либо медицинских функций”.
Так что возможности работы с изображениями пока еще не являются полностью надежными. Однако все же это большой шаг вперед.
OpenAI в своем блоге упоминает, что новые функции будут внедряться медленно — ссылаясь на вопросы безопасности.
IV. Куда мы приближаемся в мечтах о ИОБ?

Последние дополнения OpenAI к ChatGPT нечто удивительное. Мультимодальность — это путь, по которому OpenAI должна идти, если хочет достичь общего искусственного интеллекта (AGI).
Достигнет ли она AGI или нет, это предмет спора. Как мы узнаем, наступил ли AGI? Честно говоря, это даже для многих специалистов по ИИ не ясно.
Но в широком смысле мы можем понять, что такое AGI: искусственный общий интеллект (AGI) — это всего лишь теоретический термин, который означает ИИ, наравне с человеческим в отношении когнитивных способностей.
Однако есть одна трудность: нет способа определить определенное время в будущем, когда мы можем сказать, что AGI была достигнута.
Но черпая опыт из прошлого, кажется, что каждый раз, когда компьютер обходит человека, мы приближаемся к AGI.

Теперь ИИ, кажется, превосходит человека в творчестве. И теперь все кажется, что AGI близко.
Однако AGI становится далеким моментом, когда мы обнаруживаем недостатки в этих системах ИИ. Галлюцинация, дезинформация и предвзятость; вы знаете это. Даже когда у нас есть самая большая и сильная ИИ модель, эти ограничения становятся помехой на пути к нашему предполагаемому путешествию к достижению AGI.
К неудовольствию многих, многие указывают на то, что эти недостатки ИИ являются фундаментальными и неизлечимыми.
Однако, довольно интересно, что у нас есть несколько случаев, когда люди сами не выглядят такими уж плохими перед ИИ.
Широко известный отчет, в котором говорилось, что ИИ превосходит людей в тестах на творчество, не показал существенного преимущества. ИИ, конечно, был на равных, но не всегда был лучшим. Кроме того, история довольно интересна в случае AlphaGo. В драматическом акте “мести”, Келлин Пелрин, который был американским научным сотрудником-исследователем в FAR AI, победил AlphaGo в игре Го —, предположительно, эксплуатируя слабое место в системе.
Я считаю, что мультимодальность искусственного интеллекта – это путь к AGI. И даже если мы не сможем достичь его в ближайшем будущем, мы можем приблизиться к AGI.
Интеграция голосового ввода и вывода, распознавания изображений и стремление к безопасности приводят к созданию ChatGPT, который постоянно развивается – становится более гибким и надежным помощником по искусственному интеллекту. Способность делать выводы, анализируя окружающую среду, очень близка к тому, как люди тоже учатся.
Эти функции открывают возможности, начиная от беспроводного взаимодействия и заканчивая решением визуальных проблем.
Более того, ChatGPT в скором времени сможет искать информацию в интернете внутри окна ChatGPT [4]. В настоящее время эти функции скоро будут доступны всем пользователям и разработчикам. Согласно OpenAI, все функции будут внедряться медленно – с приоритетом для пользователей ChatGPT Plus и Enterprise.
Функциональность браузера – в настоящее время доступна только для пользователей Plus и Enterprise, – скоро будет доступна всем пользователям, в соответствии с заявлением OpenAI.
Если мультимодальность – это путь, по которому мы все идем, то можно с уверенностью сказать, что AGI близок.
В мире быстрого развития инноваций оставаться информированным крайне важно. Присоединяйтесь к моему информационному бюллетеню Creative Block и преодолевайте шум и суету: еженедельный бюллетень с достоверными знаниями об искусственном интеллекте, технологиях и науке. Без лишней рекламы, без пессимизма – лишь глубокий анализ на основе исследований, мыслящие эссе и актуальные новости, которые действительно важны.
Не упустите возможность быть в курсе реальных достижений. Подпишитесь сейчас, чтобы быть в курсе! 🚀📚
Creative Block | Aditya Anil | Substack
Еженедельный бюллетень об искусственном интеллекте, технологиях и науке, которые вам интересны. Нажмите, чтобы прочитать Creative Block от Aditya…
creativeblock.substack.com
Примечания:
- Жду дня, когда люди скажут “Вот видите! ИИ может заместить работу механиков”
- Посмотрите сами здесь
- Релиз GPT-4 – это оригинальная версия GPT-4. GPT-4V – это модифицированная версия GPT-4, обученная на большом наборе данных о ценностях и этике. GPT-4V + система отказа – это GPT-4V с дополнительным уровнем защиты, способным обнаруживать и отвергать вредные запросы.
- Тем не менее, это не новинка, так как ранее вы могли использовать gpt4 – либо с помощью плагинов, либо с помощью Bing AI Chat.