Персональные нейронные сети следующего поколения NVIDIA Research объявляет массив прорывов в области искусственного интеллекта на конференции NeurIPS

Новая эра в искусственном интеллекте Персональные нейронные сети следующего поколения. NVIDIA Research представляет ряд прорывов на конференции NeurIPS

Исследователи NVIDIA сотрудничают с учебными центрами по всему миру для развития генеративного искусственного интеллекта, робототехники и естественных наук — и более дюжины из этих проектов будут представлены на конференции NeurIPS, одной из ведущих конференций по искусственному интеллекту в мире.

Конференция NeurIPS, которая пройдет с 10 по 16 декабря в Новом Орлеане, соберет вместе экспертов в области генеративного искусственного интеллекта, машинного обучения, компьютерного зрения и др. Среди инноваций, которые представит исследовательский центр NVIDIA, новые техники преобразования текста в изображения, фотографий в 3D-аватары и специализированных роботов в многозадачные машины.

«Исследовательский центр NVIDIA продолжает продвигать прогресс во всех областях — включая генеративные модели искусственного интеллекта, которые преобразуют текст в изображения или речь, автономные искусственные интеллектуальные агенты, которые быстрее учатся новым задачам, и нейронные сети, которые рассчитывают сложные физические задачи», — сказал Ян Каутц, вице-президент по исследованиям в области обучения и восприятия в компании NVIDIA. «Эти проекты, часто выполняемые совместно с ведущими учеными из академического сообщества, помогут ускорить разработку виртуальных миров, симуляций и автономных машин».

Взгляни на это: улучшение моделей диффузии текста в изображения

Модели диффузии стали самым популярным типом генеративных моделей искусственного интеллекта, которые превращают текст в реалистичные изображения. Исследователи NVIDIA сотрудничают с университетами над несколькими проектами, направленными на развитие моделей диффузии, которые будут представлены на конференции NeurIPS.

  • Статья, принятая для устного выступления, фокусируется на улучшении способности генеративных моделей искусственного интеллекта понимать связь между словами-модификаторами и главными объектами в текстовых подсказках. В то время как существующие модели текста в изображения просили изображать желтый помидор и красный лимон, они могли неправильно генерировать изображения желтых лимонов и красных помидоров. Новая модель анализирует синтаксис запроса пользователя, способствуя связи между объектом и его модификаторами для достижения более точного визуального изображения подсказки.
  • SceneScape, новая платформа, использующая модели диффузии для создания длинных видеороликов 3D-сцен по текстовым инструкциям, будет представлена в формате плаката. В проекте комбинируется модель текста в изображения с моделью предсказания глубины, которая помогает поддерживать правдоподобные сцены согласованности между кадрами — генерируя видеоролики художественных музеев, заброшенных домов и ледяных замков (изображенных выше).
  • Другой плакат описывает работу, улучшающую способность моделей текста в изображения генерировать понятия, редко встречающиеся в обучающих данных. Попытки сгенерировать такие изображения обычно приводят к низкокачественным визуальным представлениям, которые не соответствуют точно запросу пользователя. Новый метод использует небольшой набор образцовых изображений, которые помогают модели определить хорошие стартовые значения — случайные числовые последовательности, которые направляют искусственный интеллект на генерацию изображений из указанных редких классов.
  • Третий плакат показывает, как модель диффузии текста в изображения может использовать текстовое описание неполного облака точек для генерации недостающих частей и создания полной 3D-модели объекта. Это может помочь завершить данные точек в облаке, собранные с помощью лидарных сканеров и других датчиков глубины для робототехники и приложений искусственного интеллекта автономных транспортных средств. Собранные данные обычно являются неполными, так как объекты сканируются с определенного ракурса — например, лидарный датчик, установленный на транспортное средство, будет сканировать только одну сторону каждого здания при проезде по улице.

Развитие персонажей: достижения в области AI-аватаров

AI-аватары объединяют несколько моделей генеративного искусственного интеллекта для создания и анимации виртуальных персонажей, генерации текста и преобразования его в речь. Два плаката от NVIDIA на конференции NeurIPS представят новые способы повышения эффективности этих задач.

  • Плакат описывает новый метод превращения одного портретного изображения в 3D-головной аватар, учитывая детали, включая прически и аксессуары. В отличие от текущих методов, для которых требуются несколько изображений и длительный процесс оптимизации, данная модель обеспечивает высококачественную 3D-реконструкцию без дополнительной оптимизации в процессе вывода. Аватары могут быть анимированы с использованием блэндшейпов, которые используются для представления различных выражений лица в 3D-сетках, или с помощью видеоклипа, где выражения лица и движение человека применяются к аватару.
  • Другой плакат исследователей NVIDIA и их университетских коллег развивает синтез речи по тексту с помощью P-Flow, генеративной модели искусственного интеллекта, которая может быстро синтезировать высококачественную персонализированную речь на основе трехсекундной ссылочной подсказки. P-Flow обладает более точным произношением, сходством с человеком и похожестью на оригинального диктора по сравнению с новейшими аналогами. Модель позволяет почти мгновенно преобразовывать текст в речь на одном графическом процессоре NVIDIA A100 Tensor Core.

Переломные открытия в обучении с подкреплением, робототехнике

В областях обучения с подкреплением и робототехники исследователи NVIDIA представят два плаката, подчеркивающих инновационные разработки, улучшающие возможность применения искусственного интеллекта в различных задачах и средах.

  • Первый плакат предлагает фреймворк разработки алгоритмов обучения с подкреплением, которые могут адаптироваться к новым задачам, избегая распространенных проблем с градиентным смещением и неэффективностью данных. Исследователи показали, что их метод, основанный на новом мета-алгоритме, способен создавать устойчивую версию любой мета-модели обучения с подкреплением, и успешно справляется с несколькими эталонными задачами.
  • Другой исследователь NVIDIA и его университетские коллеги занимаются проблемой управления объектами в робототехнике. Предыдущие модели искусственного интеллекта, помогающие роботизированным рукам поднимать и взаимодействовать с объектами, могут справляться с конкретными формами, но испытывают трудности с объектами, не встречавшимися в обучающих данных. Исследователи предлагают новый фреймворк, который определяет геометрическую схожесть объектов с разных категорий, таких как ящики и крышки, имеющие схожие ручки. Это позволяет модели быстрее обобщать новые формы.

Разогрев науки: AI-ускоряемая физика, климат, здравоохранение

Исследователи NVIDIA на конференции NeurIPS также представят статьи, посвященные естественным наукам — физическим симуляциям, климатическим моделям и применению искусственного интеллекта в здравоохранении.

  • Для ускорения вычислительной гидродинамики для трехмерных симуляций масштаба, исследователи NVIDIA предложили нейросетевую архитектуру, которая сочетает точность и вычислительную эффективность для оценки давления вокруг автомобилей — это первый метод глубокого обучения на основе гидродинамического решателя на стандартном индустриальном трехмерном тесте для автомобильной промышленности. Метод обеспечил 100 000-кратное ускорение на одном графическом процессоре NVIDIA Tensor Core по сравнению с другим методом на графическом процессоре, одновременно уменьшив погрешность. Исследователи могут использовать модель в своих собственных приложениях с помощью открытой библиотеки neuraloperator.

 

  • Консорциум климатологов и исследователей машинного обучения из университетов, национальных лабораторий, научных институтов, Allen AI и NVIDIA сотрудничали над проектом ClimSim — огромной базы данных для исследований в области физики и климата на основе машинного обучения. Эта база данных охватывает всю планету в течение нескольких лет с высоким разрешением, и эмуляторы машинного обучения, созданные на основе этих данных, могут быть внедрены в существующие климатические симуляторы для повышения их точности и надежности. Это поможет ученым делать более точные прогнозы о бурях и других экстремальных событиях.
  • Стажеры из исследовательской группы NVIDIA представят плакат, на котором будет представлен алгоритм искусственного интеллекта, предоставляющий персонализированные прогнозы влияния дозировки лекарств на пациентов. Исследователи использовали реальные данные для тестирования прогнозов модели по свертыванию крови у пациентов, получающих разные дозировки лечения. Они также проанализировали прогнозы нового алгоритма по уровню антибиотика ванкомицина у пациентов, получающих лекарство, и обнаружили значительное улучшение точности прогнозирования по сравнению с предыдущими методами.

Исследовательский отдел NVIDIA включает в себя сотни ученых и инженеров со всего мира, которые занимаются такими темами, как искусственный интеллект, компьютерная графика, компьютерное зрение, автономные автомобили и робототехника.