Этот информационный бюллетень об искусственном интеллекте – все, что вам нужно #70

Это информационный бюллетень об искусственном интеллекте – ваш полный гид №70

Что произошло на этой неделе в области ИИ от Луи

На этой неделе в области ИИ нас особенно заинтересовали две новые модели агентов. Компания Nvidia представила Eureka – ИИ-агента, разработанного для навигации роботов при выполнении сложных задач автономно. Этот агент, работающий на базе GPT-4, может самостоятельно генерировать функции вознаграждения, превосходящие результаты человеческих экспертов в 83% задач, обеспечивая в среднем улучшение на 52%. Захватывающая демонстрация, поделенная компанией, иллюстрирует возможность агента обучать роботическую руку выполнять трюк “быстрое кручение ручки” также хорошо, как человек. Как отмечено одним из авторов в блоге, данная библиотека использует генеративное ИИ и обучение с подкреплением для решения сложных задач.

В других новостях об агентах, исследователи компании Adept представили мультимодальную архитектуру для ИИ-агентов под названием Fuyu с 8 миллиардами параметров. Эта модель использует архитектуру только для декодера, способную обрабатывать изображения и текст, упрощая проектирование, масштабируемость и развертывание сети. Кроме того, в отличие от большинства существующих моделей, она принимает изображения разных размеров, что делает ее ценным дополнением для использования в агентах. Модель может генерировать ответы на большие изображения всего за 100 миллисекунд. Мы в восторге от последних достижений в области ИИ-агентов для физических и онлайн-приложений. В хоть и ранней стадии коммерциализации, агенты, способные самостоятельно взаимодействовать с окружающей средой и выполнять сложные задачи, создают множество возможностей для новых продуктов и приложений ИИ.

– Луи Питерс – Сооснователь и CEO Towards AI

Горячие новости

  1. OpenAI приостановила разработку модели Arrakis

Планы OpenAI по разработке ИИ-модели Arrakis для сокращения затрат на вычисления для приложений ИИ, таких как ChatGPT, были приостановлены. Несмотря на это, рост OpenAI продолжается, с прогнозируемым годовым доходом в 1,3 миллиарда долларов. Однако они могут столкнуться с вызовами со стороны грядущей ИИ-модели Google Gemini и проверкой на саммите по безопасности ИИ.

2. «Потрясающий» чип IBM ускоряет работу ИИ

IBM разработала комьютерный чип, вдохновленный работой мозга (NorthPole), который значительно повышает скорость и эффективность ИИ, уменьшая необходимость обращения к внешней памяти. NorthPole состоит из 256 вычислительных блоков, или ядер, каждое из которых содержит собственную память.

3. NVIDIA создала прорыв в обучении роботов самообучением

Исследователи NVIDIA создали ИИ-агента с названием Eureka, способного автоматически генерировать алгоритмы для обучения роботов, позволяя им быстрее освоить сложные навыки. Программы вознаграждения, сгенерированные Eureka, превосходят по эффективности программы, написанные экспертами, в более чем 80% задач.

4. Fuyu-8B: Мультимодальная архитектура для ИИ-агентов

Adept представила Fuyu-8B, мощную модель обработки языка и видео с открытым исходным кодом, способную понимать и отвечать на вопросы, касающиеся изображений, диаграмм и документов. Fuyu-8B показывает лучшие результаты по двум из трех метрик по сравнению с QWEN-VL и PALM-e-12B, хотя имеет на 2 и 4 миллиарда параметров меньше соответственно.

5. После потрясений с ChatGPT Stack Overflow сократила штат на 28 процентов

Stack Overflow увольняет 28% сотрудников из-за продвижения технологий ИИ, таких как ChatGPT. Чатботы, подобные ChatGPT, предоставляют эффективную помощь в кодировании и сильно зависят от контента с сайтов, таких как Stack Overflow. Однако важный вопрос возникает относительно устойчивости чатботов, которые собирают данные, но не приносят пользы источникам информации.

Пять пятиминутных статей/видео для вашего образования

  1. Математика трансформеров 101

В этой статье представлены основные числа и уравнения для работы с большими языковыми моделями (LLM). Она охватывает такие темы, как требования к вычислениям, оптимальные вычисления, минимальный размер набора данных, минимальная производительность оборудования и требования к памяти для вывода.

2. Почему LLaVa-1.5 является большой победой для Open-Source AI

LLaVa-1.5, более компактная, но мощная альтернатива OpenAI GPT-4 Vision, демонстрирует потенциал открытых моделей для больших многомодальных моделей (LMM). Она подчеркивает важность понимания многомодальности в искусственном интеллекте, развеивая сомнения в возможности использования подходов с открытым исходным кодом.

3. Внедрение запроса визуального входа в GPT-4 Vision

Внедрение запроса визуального входа – это уязвимость, которая позволяет злоумышленникам внедрять вредоносные данные в запросы через изображения в GPT-4 от OpenAI. Это представляет угрозу безопасности системы, так как злоумышленники могут выполнять несанкционированные действия или извлекать данные. Защита от этой уязвимости является сложной и может оказывать влияние на использование модели.

4. GPT-4 становится быстрее

GPT-4 быстро улучшает скорость ответа, особенно в 99-м процентильном показателе, где задержки сократились. GPT-4 и GPT-3.5 поддерживают низкое соотношение задержки к количеству токенов, что указывает на эффективную производительность.

5. Введение индекса прозрачности модели Foundation

Команда исследователей из Стэнфорда, МИТ и Принстон разработала индекс прозрачности для оценки уровня прозрачности в коммерческих моделях Foundation. Индекс, известный как Foundation Model Transparency Index (FMTI), оценивает 100 различных аспектов прозрачности, и результаты указывают на значительные возможности улучшения среди крупных компаний, занимающихся моделями Foundation.

Статьи и репозитории

  1. BitNet: Масштабирование 1-битных трансформеров для больших языковых моделей

BitNet – это архитектура 1-битных трансформеров, разработанная для повышения эффективности использования памяти и снижения энергопотребления в больших языковых моделях (LLM). Она превосходит методы квантования на 8 бит и FP16 и показывает потенциал для эффективного масштабирования до еще больших LLM, сохраняя преимущества эффективности и производительности.

2. HyperAttention: Внимание на длинном контексте в почти линейное время

HyperAttention – новое решение, которое позволяет эффективно обрабатывать более длинные контексты в языковых моделях. Оно превосходит существующие методы с использованием хэширования, значительно повышая скорость. Оно отлично работает с датасетами с длинным контекстом, делая выводы быстрее, сохраняя приемлемую непонятность.

3. Self-RAG: Обучение извлечению, генерации и критики через самоанализ

В этой статье представлена новая модельная архитектура Self-RAG. Она представляет собой улучшенную модель, которая улучшает Retrieval Augmented Generation (RAG), позволяя языковым моделям самостоятельно анализировать текстовые фрагменты с помощью “токенов рефлексии”. Это повышение приводит к лучшим результатам в задачах, требующих большого объема знаний, таких как вопросы-ответы, рассуждения и проверка фактов.

4. PaLI-3 Vision Language Models: Меньше, быстрее, сильнее

В этой статье представлена модель PaLI-3, меньшая, быстрее и сильнее модель визуально-языковой модели (VLM), которая сравнивается с аналогичными моделями, в 10 раз большими. Она использует модель ViT, обученную с использованием контрастных задач, что позволяет ей превосходить в многомодальных критериях оценки.

5. DeepSparse: Обеспечение вывода на уровне GPU на вашем CPU

DeepSparse – это надежная платформа, повышающая эффективность глубокого обучения на ЦПУ путем внедрения разреженных ядер, квантования, обрезки и кэширования ключей/значений внимания. Она обеспечивает производительность, сопоставимую с использованием графического процессора на широко используемых ЦПУ, обеспечивая эффективное и надежное развертывание моделей без специальных ускорителей.

Наслаждайтесь этими статьями и краткими новостями? Получайте ежедневные обзоры в свою электронную почту!

Секция “Вместе мы учимся искусственному интеллекту”!

Мем недели!

Мем, размещенный sikewalk

Популярный пост сообщества из Discord

G.huy создал репозиторий с примерами кода и ресурсами для параллельных вычислений с использованием CUDA-C. Это предоставляет начинающим отправную точку для понимания концепций параллельных вычислений и использования CUDA-C для использования мощности графических процессоров для ускорения вычислительно интенсивных задач. Посмотрите на GitHub и поддержите другого участника сообщества. Оставьте свои отзывы и вопросы здесь.

Опрос недели по AI!

Примите участие в обсуждении в Discord.

ТАИ Кураторская секция

Статья недели

Практические соображения в дизайне приложений RAG от Kelvin Lu

Архитектура RAG (Retrieval Augmented Generation) доказала свою эффективность в преодолении ограничения на длину ввода LLM и проблемы с обрезкой знаний. В современном техническом стеке LLM RAG – это одно из основ для обоснования обсуждаемого приложения на основе локальных знаний, смягчения галлюцинаций и создания аудиторских отчетов о приложениях LLM. В этой статье обсуждаются некоторые практические детали разработки приложений RAG.

Наши обязательно к прочтению статьи

Расшифровка генеративного искусственного интеллекта: глубокое исследование диффузионных моделей и эволюция визуальных вычислений от Youssef Hosni

Введение в машинное обучение: исследование его многих форм от RaviTeja G

QLoRA: обучение большой языковой модели на графическом процессоре 16ГБ от Pere Martra

Если вы хотите опубликовать статью в Towards AI, ознакомьтесь с нашими рекомендациями и зарегистрируйтесь. Мы опубликуем вашу работу в нашей сети, если она соответствует нашим редакционным политикам и стандартам.

Вакансии

Инженер машинного обучения, крупная языковая модель и генеративное искусственное интеллект @Hireio, Inc. (Сиэтл, Вашингтон, США)

Стажировка: Машинное обучение, основанное на научной физике @Mitsubishi Electric Research Labs (Кембридж, Массачусетс, США)

Машинное обучение Engineer @Pixelynx (Фрилансер/Берлин, Германия)

Jr. Машинное обучение Engineer @BreederDAO (Удаленно)

Tech Lead Машинное обучение Engineer @Baubap (Удаленно)

Машинное обучение Engineer @iTechScope (Удаленно)

Instructor, AI/Машинное обучение, Simplilearn (Неполная занятость) @Fullstack Academy (Удаленно)

Интересует возможность размещения вакансии здесь? Свяжитесь с .

Если вы готовитесь к следующему собеседованию по машинному обучению, не стесняйтесь посетить наш ведущий сайт подготовки к интервью, confetti!

https://www.confetti.ai/