Это исследование ИИ от MIT демонстрирует, как система машинного обучения, основанная на свете, может привести к созданию более мощных и эффективных моделей больших языковых моделей.

Это исследование от MIT показывает, как световая система машинного обучения может создавать мощные языковые модели.

Глубокие нейронные сети (DNN) – это своего рода супермозги для компьютеров. Они хорошо справляются с разгадыванием сложных задач на основе большого объема информации. Они позволяют компьютерам быть достаточно умными, чтобы понимать картинки, разговаривать как люди, управлять автомобилями самостоятельно и даже помогать врачам обнаруживать болезни.

DNN копируют работу нашего мозга, делая их эффективными в решении сложных проблем, с которыми обычные компьютерные программы борются. Однако текущие цифровые технологии, заложенные в основу современных глубоких нейронных сетей (DNN), находятся на границе своих возможностей, в то время как область машинного обучения продолжает развиваться. Более того, эти технологии требуют огромного энергопотребления и остаются ограниченными обширными центрами обработки данных. Эта ситуация вдохновляет на поиск и создание новых подходов к вычислениям.

В результате исследователи из Массачусетского технологического института (MIT) уделили большое внимание улучшению этой ситуации. Команда под руководством MIT изобрела систему с потенциалом превзойти возможности программы машинного обучения, управляющей ChatGPT, на несколько уровней. Эта новая система также обладает замечательным преимуществом – она потребляет гораздо меньше энергии, чем передовые суперкомпьютеры, используемые для привода современных моделей машинного обучения. Эта система продемонстрировала более чем 100-кратное улучшение энергоэффективности и более 25-кратное улучшение плотности вычислений. Ее вычисления основаны на обработке света вместо электронов с использованием сотен лазеров микронного масштаба.

Исследователи подчеркивают, что техника, которую они разработали, открывает новые возможности для оптоэлектронных процессоров масштаба, ускоряющих задачи машинного обучения от центров обработки данных до децентрализованных устройств. Другими словами, мобильные телефоны и другие небольшие устройства могут стать способными выполнять программы, которые в настоящее время могут быть вычислены только в больших центрах обработки данных. Оптические вычисления потребляют значительно меньше энергии по сравнению с электронными. Свет может передавать намного больше информации на значительно меньшем пространстве.

Дирк Энглунд, доцент отделения электротехники и компьютерных наук МИТ и руководитель этой инициативы, говорит, что возможности современных суперкомпьютеров ограничивают размер ChatGPT. Возможность обучения гораздо больших моделей ограничена экономическими факторами. Разработанная ими технология может позволить использовать модели машинного обучения, которые в противном случае останутся недоступными в ближайшие годы. Он также добавил, что они до сих пор определяют, какие возможности будут у следующего поколения ChatGPT, если оно будет в 100 раз мощнее, но именно такой режим открытий может позволить такого рода технология.

Несмотря на преимущества оптических нейронных сетей, у существующих оптических нейронных сетей (ONN) также есть значительные проблемы. Например, им требуется много энергии, поскольку они неэффективны в преобразовании входных данных на основе электрической энергии в свет. Кроме того, компоненты, необходимые для этих операций, являются крупными и занимают много места. Несмотря на то, что они хорошо справляются с линейными вычислениями, такими как сложение, оптоэлектронные нейронные сети (ONN) имеют ограничения при выполнении нелинейных вычислений, таких как умножение и условные выражения.

Ознакомьтесь с Paper и MIT Blog. Все права на эту исследовательскую работу принадлежат исследователям этого проекта. Кроме того, не забудьте присоединиться к нашей ML SubReddit с более чем 29 тысячами подписчиков, Facebook Community с более чем 40 тысячами участников, Discord Channel и Email Newsletter, где мы делимся последними новостями о исследованиях по искусственному интеллекту, интересными проектами и многим другим.

 Hostinger AI Website Builder: простой в использовании редактор со схемой перетаскивания. Попробуйте сейчас (спонсорский)

Пост: This AI Research from MIT Demonstrates How Machine-Learning System Based on Light Could Yield More Powerful and Efficient Large Language Models появился сначала на MarkTechPost.