Этот AI-бюллетень – все, что вам нужно #77

Этот AI-бюллетень - ваша новая модная и красоты библия #77

Что произошло на этой неделе в AI, с Луи

На этой неделе в AI новости были скрыты релизами новых моделей большеязычных моделей от Google (Gemini) и Mistral (8x7B). Высоко отличающийся подход к анонсам моделей (пресс-события и демонстрационные видео против торрент-ссылок на вес модели в одном твите) подчеркнул различие в этике и подходе к релизам моделей (закрытый API против открытого исходного кода). Обе модели имеют высокую значимость – Google анонсировал первого конкурента GPT-4 на уровне LLM, в то время как Mistral анонсировал высококачественную модель Mixture of Experts с открытым исходным кодом.

Модель Gemini от Google привнесла вместе с несколькими спорами впечатляющие возможности и результаты тестирования. Модель особенно сильна в области мультимодальности, показывая лучшие результаты, чем GPT-4, в большинстве таких тестов, в то время как относительная производительность в области текста и кода была ближе и разнообразнее. В частности, мультимодальность интегрирована более глубоко в Gemini, в то время как GPT-4 часто обращается к внешним моделям, таким как Dalle-3. “Визуальное кодирование моделей Gemini вдохновлено нашей собственной фундаментальной работой над Flamingo … с важным отличием, что модели являются мультимодальными с самого начала и могут нативно выводить изображения с использованием дискретных токенов изображений. Однако детали этой реализации остаются неясными.”

Два более маленьких моделя Gemini уже внедрены во многих продуктах Google. Однако самая интересная и способная модель Ultra все еще находится на стадии тестирования. Релиз модели Gemini столкнулся с некоторым негативным откликом, после того как стало ясно, что демонстрационное видео возможностей мультимодального видеоанализа оказалось вводящим в заблуждение. Мы считаем, что это была неловкая и излишняя ошибка, но это не умаляет заслуг Google и инженеров Deepmind за работу над тем, что выглядит как передовая модель.

Тихий твит-релиз Mistral о его 8x7B разреженных моделях смеси экспертов (SMoE) резко контрастировал с контроверзией в Google. Хотя это не первая открытая модель MoE, она является наиболее способной и всесторонней. Тесты уже показывают впечатляющие возможности по сравнению с гораздо более объемными моделями. Модели MoE являются важным развитием по отношению к ранее доминирующим архитектурам плотных трансформеров с потенциальными преимуществами в обучении, эффективности вывода и возможностях. Стоит отметить, что GPT-4 широко считается моделью MoE, в то время как архитектура Gemini не была подробно раскрыта.

Почему вам это важно?

С выпуском Gemini мы очень рады видеть конкурента и альтернативу GPT-4, который может сбалансировать экосистему. Также важно иметь высококвалифицированную мультимодальную LLM, которую можно использовать в качестве резерва для GPT-4, поскольку LLM-модели становятся все более широкими в коммерческих продуктах.

Появление модели Mistral ближе к классу GPT 3.5, чем GPT-4. Релиз является значимым, так как у него есть потенциал стимулировать инновации в открытом исходном коде, и больше людей смогут экспериментировать с калибровкой и разработкой на моделях Mixture of Experts (MoE).

– Луи Петерс – сооснователь и генеральный директор Towards AI

Самые свежие новости

Google представляет Gemini

Google представил Gemini, новую модель в трех размерах: Ultra, Pro и Nano. Gemini является мультимодальной и превосходит другие модели по различным академическим бенчмаркам. Особенно впечатляющий результат достигнут моделью Gemini Ultra в тесте на понимание мультизадачности языка и она превосходит другие модели в изображениях без использования OCR систем.

2. Mistral AI выпустила Mixtral 8x7B

Mixtral 8x7B – это модель разреженной смеси экспертов (SMoE) с открытыми весами. Модель совместима с несколькими языками и имеет размер контекста в 32k токенов. Она может быть доведена до финетюна в качестве модели, следующей инструкциям. Mixtral 8x7B показывает лучшие результаты по сравнению с Llama 2 70B в большинстве бенчмарков с ускоренным выводом в 6 раз.

3. Европейский союз достиг соглашения по историческому AI законопроекту, опережая США

Официалы Европейского союза достигли исторического соглашения о наиболее амбициозном в мире законе, регулирующем искусственный интеллект, что является отправной точкой для того, чтобы стать мировым стандартом для классификации риска, обеспечения прозрачности и финансового взыскания с технологических компаний за невыполнение требований. Закон об искусственном интеллекте в Европе гарантирует, что развитие ИИ сопровождается контролем, а его наиболее рисковые применения запрещены.

4. Лучшее демо-видео Google Gemini было подделано

Google столкнулся с негодованием после того, как признал, что эффектное демо-видео Gemini было сильно отредактировано с использованием подсказок, чтобы сделать модель более впечатляющей. Как сообщается в статье Parmy Olson для Bloomberg, исследователи подавали модели статические изображения и монтировали успешные отклики, частично искажая возможности модели.

5. Stability AI запускает StableLM Zephyr 3B

StableLM Zephyr 3B, новая 3-миллиардная параметрическая модель для чата, выпускается в виде расширения модели StableLM 3B-4e1t, черпая вдохновение из модели Zephyr 7B. Она разработана для эффективной генерации текста, особенно в контексте следования инструкциям и ответов на вопросы, и была дообучена на нескольких наборах данных с использованием алгоритма прямой оптимизации предпочтений.

Каковы ваши мысли о демо-версии Gemini? Поделитесь ими в комментариях!

Пять пяти-минутных чтений/видео для обучения

GenAI Frontier: 10 трансформирующих исследовательских статей LLM 2023 от LLaMA до GPT-4

https://www.topbots.com/top-llm-research-papers-2023/

В 2023 году произошли значительные сдвиги в больших языковых моделях (LLM) в исследованиях ИИ. В этой статье представлен краткий обзор трансформирующих исследовательских работ в области ИИ, в которых языковые модели были усовершенствованы, уменьшены в масштабе и интегрированы с внешними инструментами для решения широкого спектра задач.

2. Длинная контекстная подсказка для Claude 2.1

Последняя версия Claude (Claude 2.1) имеет окно контекста длиной 200 000 токенов, что позволяет ей эффективно запоминать информацию. Однако она может быть неуверенной в ответе на вопросы, основанные на вставленных отдельно предложениях или предложениях, находящихся не на своем месте в документе. В данном эксперименте используется подход с подсказкой, чтобы направить Claude на наиболее релевантное предложение.

3. RAG против Context-Window в GPT-4: точность, стоимость и задержка

В этой статье автор провел тест RAG против контекстного окна GPT-4 Turbo по трем ключевым показателям: точности, стоимости и задержке, пришлось искать “иголку в стоге сена”. Они использовали в сравнении два различных конвейера RAG: Llama-Index и новый инструмент восстановления API помощника OpenAI. При этом выяснилось, что RAG работает лучше и стоит всего 4% от стоимости.

4. Как это делается: взаимодействие с Gemini через мультимодальную подсказку

Блог Google о Gemini объясняет, как исследователи используют мультимодальную подсказку, показывая модели изображения вместе с подсказкой для получения правильных ответов. Это хорошее руководство для понимания возможностей Gemini.

5. StripedHyena-7B, Open Source Models Offering a Glimpse Into a World Beyond Transformers

В этом блог-посте представлена новая архитектура для длинного контекста, улучшенной тренировки и производительности вывода по сравнению с архитектурой Transformer. StripedHyena разработан с использованием наших последних исследований о масштабных законах эффективных архитектур.

Репозитории и инструменты

1. MotionDirector может настраивать модели диффузии текста в видео для создания видео с желаемыми движениями.

2. Taskade Custom AI Agents – это набор из пяти инструментов ИИ, разработанных для автоматизации рутины, таких как исследования, управление задачами и создание контента.

3. Practical-tutorials/ project-based-learning – это отобран список практических учебных пособий по программированию проектов на различных основных языках программирования.

4. Mamba Chat – это модель чат-языка, основанная на архитектуре модели состояний пространства состояний. Его возможности поиска существенно превосходят аналогичные трансформеры с таким же размером.

Лучшие статьи недели

Вложения текста раскрывают (почти) столько же, сколько и текст

Исследование исследует концепцию “заглубления вложений” для восстановления полного текста из плотных текстовых вложений. Исследователи достигают высокой степени успеха в генерации контролируемого текста с помощью многоэтапного метода. Исследование также показывает потенциал для извлечения личных данных из текстовых вложений, подчеркивая необходимость улучшения мер безопасности в машинном обучении.

2. Мамба: моделирование последовательностей линейного времени с помощью выборочных пространств состояний

В исследовании представлена Мамба – аппаратно-ориентированный параллельный алгоритм, который преодолевает неэффективность трансформеров для длинных последовательностей при обработке языка. Благодаря реализации выборочных пространств состояний, Мамба достигает быстрого вывода, линейной масштабируемости и конкурентоспособных показателей производительности по сравнению с более крупными моделями Transformers.

3. MVDD: Модели диффузии многовидового глубинного зрения

Эта статья предлагает использовать многовидовой глубинный зрение, представляющий сложные 3D-формы в формате 2D данных с помощью модели диффузии MVDD. Она может генерировать высококачественные плотные облака точек с более чем 20 тысячами точек с мелкозернистыми деталями.

4. Модели диффузии без внимания

DiffuSSM – это новая модель, которая направлена на повышение скорости работы моделей диффузии для генерации изображений высокого разрешения без потери качества деталей. Она заменяет механизмы внимания на масштабируемую основу модели состояний, улучшая производительность на наборах данных ImageNet и LSUN, сохраняя вычислительные ресурсы.

5. SparQ Attention: эффективность LLM-инференции с низкой потребностью в памяти

SparQ Attention – это техника, которая повышает эффективность больших моделей языка за счет снижения потребности в памяти. Она не требует изменений в предварительном обучении или доводке и может значительно сократить требования к памяти внимания без ущерба для точности.

Быстрые ссылки

1. X.AI, стартап Илона Маска по искусственному интеллекту, планирует привлечь до 1 миллиарда долларов путем выпуска акций. Согласно документам от SEC, компания привлекла почти 135 миллионов долларов от четырех инвесторов, первая продажа произошла 29 ноября.

2. Meta представила Purple Llama, новый проект, стремящийся сделать процесс разработки безопасных и ответственных опытов с генеративным ИИ максимально доступным. Он запускается с инструментами, оценками и моделями, лицензируемыми на разрешительной основе, для использования в исследованиях и коммерческих целях.

3. IBM и Meta образовали Альянс искусственного интеллекта с более чем 50 учредителями и партнерами. Этот альянс стремится продвигать проекты в области искусственного интеллекта, устанавливать стандарты, улучшать открытые модели и обеспечивать безопасное и полезное развитие искусственного интеллекта.