Этот информационный бюллетень по искусственному интеллекту – всё, что вам нужно #62

Информационный бюллетень по ИИ - всё, что вам нужно #62

Что произошло на этой неделе в области искусственного интеллекта от Луи

На этой неделе мы следили за развитием моделей кодирования в META, а также новыми возможностями тонкой настройки в OpenAI. Meta представила Code LLaMA, большую языковую модель с возможностью генерации кода на основе подсказок и описания кода. Они представили три варианта модели с различными значениями параметров (7B, 13B и 34B), каждая из которых прошла обучение на дополнительных 500 миллиардах токенов, связанных с кодом. Модели совместимы с широко используемыми языками программирования, такими как Python, C++, Java, PHP и другими. Кроме того, на их основе были созданы две специализированные модели. Code LLaMA — Instruct это настроенная версия Code LLaMA, разработанная для выполнения инструкций. Кроме того, есть Code LLaMA — Python, специальная модель, адаптированная для языка программирования Python. Модели доступны под лицензиями как для исследовательских, так и для коммерческих целей. Открытый исходный код этой модели позволяет быстро разрабатывать итерации, и уже сейчас мы видим появление новых моделей на ее основе, включая WizardCoder, который продемонстрировал превосходную производительность по сравнению с большинством существующих языковых моделей, приближаясь к, но не достигая уровня GPT-4.

В другой важной новости, OpenAI представила возможность тонкой настройки GPT-3.5-turbo в качестве сервиса. Важно отметить, что использование тонкой настроенной модели для вывода информации связано с значительным увеличением стоимости. OpenAI также представила ChatGPT Enterprise, предлагающую неограниченное использование, увеличенную скорость и расширенное окно контекста для организаций.

Мы были рады видеть выпуск Code LLaMA и считаем, что есть огромный потенциал для моделей, тонко настроенных и оптимизированных для кодирования, чтобы добиться значительных улучшений, как инструментов-помощников для разработчиков, так и для открытия разработки программного обеспечения для непрограммистов. Выпуск тонкой настройки GPT Turbo также вызывает восторг, и мы ожидаем, что это приведет к созданию качественного кодирования и моделей с тонкой настройкой, но нас особенно волнует перспектива возможности тонкой настройки для GPT-4, которая откроется позже в этом году. Мы считаем, что GPT-4, тонко настроенная для кодирования, может иметь огромный потенциал.

– Луи Петерс, сооснователь и генеральный директор Towards AI

Самые горячие новости

  1. Выпущена тонкая настройка GPT-3.5 Turbo

OpenAI представила тонкую настройку для GPT-3.5 Turbo, которая обеспечивает улучшенную производительность при выполнении конкретных задач. Эта улучшенная версия потенциально может быть равной или даже превосходить возможности базовой модели GPT-4. Тестирование позволило значительно сократить длину подсказок через процесс тонкой настройки. Стоимость обучения и использования ввода/вывода предоставляется по цене $0,008, $0,012 и $0,016 за 1 тыс. токенов соответственно.

2. Представление Code Llama, передовой большой языковой модели для кодирования

Meta выпустила Code Llama, продвинутую LLM для кодирования, которая может генерировать код и естественный язык, связанный с кодом. Она доступна в трех моделях и различных размерах, чтобы удовлетворить разные потребности. Она поддерживает множество популярных языков, используемых сегодня, включая Python, C++, Java, PHP, TypeScript (JavaScript), C# и Bash.

3. Представление фундаментальной мультимодальной модели для перевода речи

Meta разработала надежную базовую модель, известную как SeamlessM4T, которая способна управлять различными текстовыми и речевыми задачами на 100 языках. Она включает автоматическое распознавание речи, перевод речи в текст, перевод речи на речь, перевод текста на текст и перевод текста в речь, поддерживая широкий спектр языков ввода и вывода.

4. Представление ChatGPT Enterprise

OpenAI запустила ChatGPT Enterprise, предоставляющую функции безопасности и конфиденциальности, подходящие для использования в предприятиях. В этой версии предлагается неограниченный доступ к GPT-4 с более высокой скоростью, расширенными окнами контекста (32k) для обработки более длинных вводных данных, расширенными возможностями анализа данных, настройками и дополнительными функциями.

5. Alibaba выпускает нового чат-бота, способного «читать» изображения

Alibaba Cloud представила две модели искусственного интеллекта с открытым исходным кодом: Qwen-VL и Qwen-VL-Chat. Эти модели обучены с использованием LLM Tongyi Qianwen (Qwen) компании Alibaba и могут интерпретировать визуальные данные, такие как текст на изображениях, и отвечать на запросы, связанные с местоположением, например, предлагая указания, интерпретируя изображения с указателями.

Пять материалов для чтения/просмотра продолжительностью 5 минут, чтобы продолжать обучаться

  1. Сделать LLMs легче с помощью AutoGPTQ и Transformers

Hugging Face представила интеграцию AutoGPTQ в Transformers, облегчая стримлинированную квантизацию 2, 3, 4 и 8 бит с незначительным снижением точности. Эта интеграция совместима с графическими процессорами Nvidia, а также с графическими процессорами AMD, работающими на RoCm.

2. Обучение языковым моделям алгоритмическому мышлению

В этой статье исследуется эффективность обучения алгоритмическому мышлению LLMs, с фокусом на преодолении таких проблем, как переобучение и ложные корреляции. Предлагается четырехэтапный подход, включающий формулировку алгоритмов как навыков, обучение нескольким навыкам одновременно, обучение композиции навыков и обучение использованию навыков как инструментов.

3. Code Llama на Hugging Face

Code Llama теперь доступна через Hugging Face и предлагает возможность выполнения заполнения кода с использованием моделей 7B и 13B. Она доступна под той же лицензией сообщества, что и Llama 2, и открыта для коммерческого использования.

4. Язык для вознаграждений при синтезе роботических навыков

Системы перевода языка в вознаграждения, работающие на основе LLMs, позволяют роботам учиться непосредственно из языка. Эти системы переводят инструкции на естественном языке в коды, определяющие вознаграждение, вычисляют вознаграждения на основе действий робота и облегчают обучение с помощью обучения с подкреплением (RL).

5. Что такое MetaGPT? Сотрудничество между агентами LLM для решения сложных задач

MetaGPT представляет новый подход к улучшению сотрудничества между искусственными интеллектами. В этом видео показаны внутренние механизмы инновационного дизайна MetaGPT, рассмотрена роль стандартных операционных процедур (SOP) и изучено, как несколько искусственных интеллектов сотрудничают безупречно.

Статьи и репозитории

  1. Усиленное самообучение (ReST) для языкового моделирования

В этой статье представлен простой алгоритм для согласования языковых моделей с предпочтениями человека, черпая вдохновение из методов пакетного обучения с подкреплением. Усиленное самообучение (ReST), разработанное DeepMind, предлагает более экономичную альтернативу RLHF. Оно использует двухэтапный процесс, Рост и Улучшение, для улучшения обучающего набора данных и настройки языковой модели.

2. Жираф – языковые модели с длинным контекстом

Жираф – это новая серия моделей, производных от LLaMA и LLaMA2, охватывающая варианты с размерами контекстного окна 4k, 16k и 32k токенов. Эти модели были доработаны на основе LLaMA и LLaMA2, и они включают эксперименты, связанные с расширением контекстного окна путем модификации позиционного кодирования.

3. Новый LLM Platypus лидирует в рейтинге лидеров Hugging Face LLM

Platypus, последняя языковая модель, представленная в рейтинге лидеров HuggingFace Open LLM, использует набор данных Open-Platypus для достижения впечатляющей производительности в области STEM и логики. Он эффективно решает проблему смещения во время обучения, используя модули LoRA и библиотеку PEFT. Однако его проблема с языками, отличными от английского, связана с его базовой моделью LLaMa-2.

4. Граф мыслей: решение сложных задач с помощью больших языковых моделей

Граф мыслей (GoT) представляет собой фреймворк, который расширяет возможности подсказывания больших языковых моделей (LLMs) за пределы того, что предлагают парадигмы, такие как Цепочка Мыслей или Дерево Мыслей (ToT). GoT показал улучшенную производительность по сравнению с альтернативными методами, особенно улучшая качество сортировки (62%), одновременно снижая затраты (31%).

5. QuIP: 2-битная квантизация больших языковых моделей с гарантиями

Эта статья представляет квантизацию с обработкой несогласованности (QuIP), новый подход, достигающий 2-битной квантизации моделей языковой модели с использованием адаптивного округления. Она является первым алгоритмом своего типа, сопровождаемым теоретическим анализом, демонстрирующим ее потенциальное влияние на другие методы квантизации, такие как OPTQ.

Нравятся эти статьи и сводки новостей? Получайте ежедневные обзоры в своем почтовом ящике!

Раздел сообщества Learn AI Together!

Мем недели!

Мем, размещенный neon8052

Избранный сообществом пост из Discord

DrDub начал замечательный проект под названием «Тель-и-Покажи», который служит экспериментом в области машинного обучения, принадлежащим сообществу. Проект создает рекомендательные профили, которые исключительно принадлежат вам. Он также предоставляет инструменты и модели, доступные для принятия другими проектами свободного программного обеспечения, чтобы улучшить полезность этих рекомендательных профилей. Посмотрите здесь и поддержите своего сообщества! Вы можете помочь этому проекту, поделившись своими индивидуальными предпочтениями по ключевым элементам или присоединившись в качестве добровольца. Поделитесь своими вопросами и отзывами в этой теме.

AI голосование недели!

Присоединяйтесь к обсуждению на Discord.

ТАИ Кураторская секция

Статья недели

Рамка для эффективного обслуживания ваших больших языковых моделей от Зумана Кейта

Внедрение больших языковых моделей, несомненно, является одной из самых сложных задач, не потому, что команды внедрения не компетентны, а просто из-за сложности внедрения этих типов моделей. Вот где пригодится библиотека vLLM, открытая библиотека, разработанная Университетом Калифорнии в Беркли в рамках лицензии Apache. Философия, лежащая в основе vLLM, заключается в том, чтобы сделать обслуживание и вывод больших языковых моделей доступными как для промышленности, так и для небольших научных исследовательских команд.

Наши обязательные для прочтения статьи

Построение интуиции на основе концепций, лежащих в основе LLM, таких как ChatGPT — Часть 1- Нейронные сети, трансформеры, предварительное обучение и настройка by Стивен Бонифацио

Генеративно-состязательные сети (GAN) для увеличения изображений от Тан Пенши Алвин

Топ-важная компьютерное зрение на неделю с 14/8 по 20/8 от Юссефа Хосни

Если вы хотите опубликовать свою работу в Towards AI, ознакомьтесь с нашими руководствами и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашим редакционным политикам и стандартам.

Вакансии

Ожидание: наставник — карьерный путь «Инженер по обработке данных» в Springboard (частичная занятость/удаленно)

Промежуточный программист @Datacom (удаленно)

Ведущий разработчик программного обеспечения @TherapyNotes.com (удаленно)

Инженер программного обеспечения @Sonovate (удаленно)

Ведущий инженер машинного обучения, рекомендательный алгоритм @Multi Media LLC (удаленно)

Старший инженер программного обеспечения, развертывание действий @GitHub (удаленно)

Инженер программного обеспечения — стажер @Bayut | dubizzle (Дубай, ОАЭ)

Интересует возможность размещения вакансии здесь? Свяжитесь с sponsors@towardsai.net.

Если вы готовитесь к своему следующему собеседованию по машинному обучению, не стесняйтесь заглянуть на наш ведущий сайт подготовки к собеседованию, confetti!

https://www.confetti.ai/