ИИ в движении

Искусственный интеллект в движении

Краткое обозрение хак-марафона “24 часа аппаратного взлома” в Сан-Франциско

Если 2023 год был годом ЛМВ (крупных языковых моделей), то 2024 год станет годом ЛММ (крупных мультимодальных моделей). Основное отличие заключается в распознавании текста и изображений для создания входных и выходных данных. Это открывает целый ряд новых возможностей для аппаратных средств.

Чтобы исследовать, что можно совместить современные аппаратные средства и последние модели машинного обучения, мы организовали выходные хакатоны в Studio 45 в Сан-Франциско. Основной целью было объединение двух сообществ, которые до сих пор довольно отдельны: сообщества машинного обучения и сообщества робототехники. Хакеры собрались, чтобы посмотреть, какие пространственные задачи они могут решить. У каждого было 24 часа, чтобы создать команду, сделать демонстрацию и представить свои проекты перед жюри.

Умные интерфейсы, GPT-4 с глазами и открытая модель от DeepMind

В две недели вокруг хакатона произошло несколько новых разработок в области аппаратного обеспечения и искусственного интеллекта:

  • Инвестиции в умные интерфейсы: Meta выпустила очки Ray-Ban с установкой для потоковой передачи. OpenAI ведет переговоры с Джони Айв о замене, похожей на iPhone, с использованием своих последних моделей. Ранее в этом году Humane продемонстрировала свою ИИ- булавку на сцене TED, а гарнитура Apple Vision Pro выпустила SDK с visionOS, в то время как люди создают пространственные приложения.
  • OpenAI дает Chату GPT-4 возможность видить: Chат GPT-4V (vision) теперь доступен в премиальных аккаунтах, что позволяет общаться с картинками, а также Dalle-3 для создания контента. Некоторые примеры использования включают создание кода для фронт-энда на основе макета, создание кадров из фильмов или разгадывание запутанных дорожных знаков. Здесь представлены еще несколько примеров, а полный документ Microsoft на 166 страницах о GPT-4V доступен здесь.
  • Google DeepMind открывает код RT-X: Проведя бенчмарк на более чем 500 навыков по более чем 150 000 задачам, модель RT-X показала более высокую производительность по сравнению с традиционными моделями узкого интеллекта. Подробнее можно узнать здесь.

Хотя мы упустили эти захватывающие обновления на две недели, именно это и стало причиной проведения хакатона AI in Motion в Сан-Франциско: 1) скорость развития машинного обучения происходит настолько быстро, что мы хотим увидеть, что произойдет, когда оно будет лучше интегрировано с аппаратными средствами и 2) мы хотели объединить два сообщества, которые редко имеют возможность работать вместе.

Наша главная цель – объединить искусственный интеллект и аппаратное обеспечение

Для структурирования хакатона мы первоначально поставили три цели:

Цель 1: Обеспечить участие в группе ½ разработчиков машинного обучения и ½ инженеров аппаратного обеспечения.

Мы достигли: Хакеры из OpenAI, DeepMind, Meta AI Labs, Tesla и многих других компаний пришли с опытом в обоих областях.

Цель 2: Привлечь потрясающее аппаратное обеспечение, чтобы посмотреть, что могут сделать новейшие модели машинного обучения. Да, в создании этих демонстраций использовались не только ЛМВ.

Мы достигли: У нас были универсальные роботизированные руки, четырехногий робот Spot от Boston Dynamics, Roomba и целая библиотека наборов для интернета вещей (IoT). Здесь вы можете найти полную документацию, которую мы предоставили хакерам. Вскоре появится открытый исходный код документа!

Цель 3: Превратить идею в демонстрацию за 24 часа. Мы запустились в субботу в 10 утра, а демо были завершены в 10 утра в воскресенье. Да, многие все же успели поспать.

Мы достигли: Ознакомьтесь с результатами ниже!

В целом, результаты были впечатляющими. Это было как предвкушение того, каким будет очень скорое будущее с более умными интерфейсами, более функциональным оборудованием и, что более важно, более компактными командами, выпускающими более крупные проекты.

Пять основных моментов проекта

1. Заводной робот-механик Джарвис. Представьте себе маленький гараж, похожий на производственную площадку Tesla, с которым можно пообщаться.

Признание хакерам: @jqphu, @nishthenomad, @TristanHeywood, @The_TT_Hacker , @winston, @vrushank

2. XR – интеллектуальный протез для обучения, который может получать информацию о окружающей обстановке, например, кто находится рядом и чем занимается. Комбинируя ввод с камеры с компьютерным зрением и распознаванием голоса с использованием API OpenAI, их демонстрация можно улучшить визуальное понимание мира пользователем.

Признание хакерам: @jer, @EmmaQian_ , @ClovisVinant, @lingxue, @varun, @esh

3. C.H.I.P. – цифровой микроскоп с ЧПУ с классификацией “непроизводительной” микросхемы без обучения.

Признание хакерам: @johndmcmaster, @notionsmith, @justin, @ninjaa

4. Dex (победитель) сканирует и ищет потерянные предметы в комнате. Они добавили веб-камеру к Roomba и сделали возможность общаться с изображениями.

Признание хакерам: @cyrus_cowley, @ian, @surya

5. Spotsight (любимец публики) – робот-поводырь для слабовидящих. Он мог помогать безопасно передвигаться в окружающей среде, и его цена была более доступна, чем профессионально обученных псов-поводырей. Также робот мог выполнять дополнительные задачи между владельцем и окружающей средой, например, получать почту.

Признание хакерам: @ingarobotics, @cyb3rblaze_, @adit, @reuben, @abinaya

🤖 Если вам интересны другие проекты, вы можете найти их здесь.

Идеи для улучшения в следующем

  • От идеи к сюжетной линии. Мы обнаружили проблему с прохождением командами границ, чтобы понять, какую проблему они хотят решить и как продемонстрировать свое решение в течение 24 часов. На будущих хакатонах мы будем предлагать две части сюжетной линии: 1) что вы хотите, чтобы робот делал, и почему, и 2) как будет выглядеть ваша архитектура внутри. Мы исправляем ситуацию на месте и можем предоставить помощь заранее в следующий раз.
  • Многоэтапные хаки. Самые сложные хакатоны в MIT могут занимать две недели вместо одного. Иногда для идеи и разработки демонстрации может потребоваться целый уик-энд, а для финалистов может понадобиться второй уик-энд для окончательной разработки. Мы можем изучить эту модель для следующего вызова, чтобы увидеть, помогает ли она повысить качество демонстраций. В этом случае первый уик-энд будет состоять из одного дня, а второй уик-энд займет два дня.
  • Упростить библиотеку оборудования. Мы собираемся изучить двухнедельную модель с более узким спектром оборудования. Проблема избытка оборудования – это хорошая проблема. Но учитывая, что каждый робот будет иметь своего наставника, мы считаем, что лучше провести ограниченный вызов с использованием, например, квадрупеда Boston Dynamics Spot или универсальных роботизированных рук. Если мы сделаем так, нам придется исследовать вопрос времени, чтобы команды могли использовать оборудование или получить несколько ботов.

Используйте это как пособие, если вы хотите провести свой собственный хардварный хакатон

Наша команда провела десятки хакатонов, и мы обнаружили, что хакерского железа недостаточно. В то время как доставка программного обеспечения проще, мы надеемся, что это послужит вдохновением и структурой для будущих хардварных хаков.

Некоторые вещи, на которые мы ставили акцент и которые хорошо сработали:

1. Используйте пространство дизайна и изготовления, в котором хакеры могут работать.

Яркие полированные офисные столы не рекомендуются при пайке или экспериментах с железом. Мы также арендовали пластиковые столы, чтобы обеспечить максимальную гибкость.

2. Позвольте хакерам подавать заявку как команде.

2 из 9 команд подали заявку в качестве команды. Они могли сделать это при подаче заявки, чтобы мы приняли всю их команду на мероприятие. Чувствуйте себя свободно использовать эту страницу в качестве шаблона для вашего собственного хака. Мы приветствовали людей всех направлений. Единственным требованием было, чтобы вы были здесь, чтобы что-то построить и отправить. Без просто присутствующих.

3. Перед хаком предоставьте библиотеку деталей за 1 неделю.

Мы поделились этим документом за 1 неделю до мероприятия, чтобы участники могли изучить документацию. Им также рекомендовалось привезти собственное оборудование.

4. Произведите сильный старт.

Мы начали хак с кофе и неформальной смешиванием и знакомством между участниками. Это дало возможность полчаса, чтобы люди познакомились друг с другом. Затем у нас было 45 минут программирования с демонстрацией основателя, Гари из Raise Robotics, где он мог показать реальный пример того, что нужно построить. Каждый робот также имел наставника, который давал введение в аппаратную часть.

5. Для тех, кто нуждается в команде, мы им помогли ее сформировать.

Мы проводили 1-минутные презентации и 20-минутные смешивания и знакомства три раза до того, как люди познакомились, сформировали представления о командах и окончательно сформировали команды.

6. Будьте ясны в критериях оценки.

Мы четко объявили, что судьи будут оценивать идеи по следующим критериям:

  • 6.1 Понимание проблемы: Это большая проблема или оно открывает интересное будущее? Есть ли четкий клиентский случай использования?
  • 6.2 Демонстрация: Решает ли это проблему? – выполнимость – доказывает ли это концепцию?
  • 6.3 Игривость: Весело или приятно взаимодействовать с этим? Создаст ли это радость использования систем и движения с помощью искусственного интеллекта при массовом использовании?
  • 6.4. Четкие экономические стимулы: Есть ли пригодный путь для масштабирования? Есть ли ясная причина, по которой клиенты будут платить за использование этого?

7. Представьте идеи до начала работы с роботами.

Следующие 2-3 часа после формирования команд были посвящены генерации идей. Мы специально отделили это от создания, чтобы команды имели представление о том, что они хотят построить. У нас также была меритократия, где лучшие идеи, быстрее всего представленные, получали первый выбор своих роботов.

8. Также иметь наставников на двух сторонах.

У нас были наставники по дизайну, производству, оборудованию и машинному обучению, которые помогали командам. Команда из 3-5 наставников помогала всем 50 хакерам.

9. Завершите сильно.

Вместе с презентацией презентаций (2 минуты) и демонстрацией (1 минута), мы хотели, чтобы показ финала хакатона был живым. Мы разделили мероприятие на две части:

  • 1 час выставки: представьте начинание с живыми демонстрациями на стендах. Гости и судьи могли познакомиться с командами и взаимодействовать с демонстрациями.
  • 1 час питчей: питч длительностью 2 минуты и видео-демонстрация длительностью 1 минуту. Встроенное видео YouTube в демонстрации на Google Slides гарантировало, что все могли видеть все, что было сделано.

после каждого питча, каждый судья имел возможность задать 1 вопрос или дать 1 точку обратной связи.

10. структурированно-неструктурированно.

Большая часть хакатона была посвящена работе над проектами, где каждая команда могла использовать время на решение задач. Мы отказались от лишних разговоров и мастер-классов, чтобы у команд было столько времени, сколько им требуется. Даже задание было намеренно открытым: “решите пространственную проблему дома, в офисе или на улице, где искусственный интеллект сочетается с аппаратным обеспечением”.

Завершение с благодарностями в стиле кредитов фильма

Это было интересное мероприятие как для хакеров, так и для тех, кто пришел на финальную выставку. Нам нужно больше хакатонов по аппаратному обеспечению!

Для создания великолепных аппаратных устройств действительно требуется полная экосистема, даже если только на 24 часа. Мы благодарны всем нашим спонсорам, которые помогли нам организовать это мероприятие, особенно informal, которая сыграла решающую роль!

Если вы хотите провести свой собственный хакатон по аппаратному обеспечению, в будущем мы поделимся тактическими советами о том, как организовать хакатон. Следите за обновлениями!

Спасибо всем партнерам, которые помогли нам в этом!

  • ​​Studio45 – клуб и совместное рабочее пространство для профессионалов, занимающихся созданием физических продуктов в районе Бернал Хайтс в Сан-Франциско.
  • informal – фриланс-коллектив для лучших независимых профессионалов в области аппаратного обеспечения и производства. Члены informal сотрудничают с компаниями всех масштабов для проектирования, производства и отправки физических продуктов. Спасибо за упоминание!
  • ​​Blues Wireless – обеспечивает возможность подключения к облаку для продуктов на основе Интернета вещей.

​Партнеры сообщества

  • Massmelt – это разнообразный набор услуг по разработке аппаратных продуктов, призванный поддерживать организации в их стремлении построить свое видение будущего.
  • ​​SF Hardware Meetup – это сообщество более 9000 профессионалов в области аппаратного обеспечения, встречающихся ежемесячно для создания значимых связей.
  • Cerebral Valley и GenAI Collective помогают распространять информацию среди сообщества машинного обучения в Бей Эрии.

Спонсоры призов

  • Runpod – это платформа облачных вычислений с использованием GPU для обучения и масштабирования вывода на моделях искусственного интеллекта. Они предложили облачные кредиты победившей команде.

Спасибо нашим судьям за помощь в комментировании проектов!

  • Ashley – бывший технический лидер в X, Moonshot Factory (компания Google Alphabet).
  • ​Robert – руководитель продукта в компании Waymo, компании по разработке автономных транспортных средств в составе Alphabet.
  • Santhi – основатель, ангельский инвестор и венчурный стажер в Designer Fund.
  • Vince – предприниматель с семью успешными проектами и инвестор в технологические стартапы в Силиконовой Долине.

И наконец, но не менее важно, хочу поблагодарить соорганизаторов: Майкла и Яшу, обоих участников неформальной группы, за то, что они добровольно сделали этот мероприятие незабываемым для всех, кто присоединился..

P.S. Да, эту статью мы написали мы (Майкл + Яша), поэтому мы заканчиваем с благодарностью от третьего лица в конце ✌️