Лиор Хаким, сооснователь и технический директор компании Hour One – Интервью-серия

Лиор Хаким, технический директор Hour One - Интервью-серия

Lior Hakim, сооснователь и главный технический директор компании Hour One, лидера отрасли в создании виртуальных людей для профессиональных видеокоммуникаций. Реалистичные виртуальные персонажи, созданные исключительно по образцу реальных людей, передают выразительность, характерную для человека, через текст, давая возможность бизнесам повысить эффективность и масштабируемость своего общения.

Можете ли вы рассказать историю происхождения компании Hour One?

Истоки Hour One можно проследить до моего участия в криптовалютной сфере. После этого я задумался о том, во что можно вложить массовое облачное вычисление, и так как машинное обучение становилось популярным в области рекомендаций и предиктивного анализа, я работал над несколькими проектами, связанными с инфраструктурой машинного обучения. В ходе этой работы я ознакомился с ранними генеративными работами и особенно заинтересовался генеративно-состязательными сетями (GAN). Я использовал все доступные мне ресурсы для тестирования этих новых технологий. Когда я показал свои результаты другу, который имел компанию в этой области, он сказал мне, что я должен встретиться с Ореном. Когда я спросил, почему, он сказал, что, возможно, мы оба перестанем тратить его время и начнем тратить время друг друга. Орен, мой сооснователь и генеральный директор Hour One, тогда был ранним инвестором в области искусственного интеллекта. И хотя мы находились в разных местах, мы двигались в одном направлении, и создание Hour One в качестве дома виртуального человека было неизбежным путешествием.

Какие алгоритмы машинного обучения используются, и какую часть процесса занимает генеративное искусственное интеллект?

В сфере создания видео алгоритмы машинного обучения играют важную роль на каждом этапе. На этапе написания сценария большую поддержку оказывают модели большого языка (LLM), создающие или уточняющие контент для создания увлекательных сюжетов. Переходя к звуковому сопровождению, алгоритмы текст-в-речь (TTS) превращают текст в органические, эмоциональные голоса. Переходя к визуальному представлению, наша проприетарная мультимодель виртуального человека становится главной фигурой. Эта модель, усовершенствованная с помощью генеративно-состязательных сетей (GAN) и вариационных автокодировщиков (VAE), способна передавать контекстуальные эмоции, дикцию и артикуляцию, создавая захватывающее и подлинное визуальное представление. Такие генеративные техники превращают текстовые и аудио подсказки в реалистичные визуальные изображения виртуальных людей, что приводит к гиперреалистичному видео. Сочетание LLM, TTS, GAN, VAE и нашей мультимодели делает генеративный искусственный интеллект не просто частью, а основой современного видеопроизводства.

В чем отличие Hour One от конкурирующих видеогенераторов?

В Hour One наше отличие от других видеогенераторов не проистекает из заботы о конкуренции, а скорее из глубокой философии, которая определяет наш подход к качеству, дизайну продукта и стратегии на рынке. Нашим основным принципом является приоритет человеческого элемента, обеспечивая подлинность и эмоциональное воздействие наших творений. Мы гордимся тем, что предлагаем лучшее качество в отрасли без компромиссов. Используя передовую 3D-графику видео, мы предоставляем нашим пользователям настоящий кинематографический опыт. Более того, наша стратегия уникально обоснована; мы начинаем с отшлифованного продукта, после чего быстро движемся к совершенству. Такой подход гарантирует, что наши предложения всегда опережают время и устанавливают новые стандарты в создании видео.

С вашим обширным опытом работы с графическими процессорами, можете ли вы поделиться с нами некоторыми идеями по поводу вашего мнения о новом поколении платформы NVIDIA GH200 Grace Hopper Superchip?

Архитектура Grace Hopper действительно меняет игру. Если графический процессор может эффективно работать из оперативной памяти хоста, не полностью замедляя вычисления, это открывает невозможные в настоящее время соотношения моделей/ускорителей при обучении и, как результат, желанную гибкость в размерах обучающей задачи. Предполагая, что весь запас GH200 не уйдет на обучение LLM, мы надеемся использовать его для существенного снижения затрат на прототипирование наших мультимодельных архитектур.

Существуют ли еще какие-либо чипы, которые в настоящее время находятся в вашем фокусе?

Нашей основной целью является предоставление пользователю видеоконтента, который конкурентоспособен по цене. Учитывая спрос на графические процессоры с большим объемом памяти в настоящее время, мы постоянно оптимизируем и пробуем любые облачные предложения графических процессоров от ведущих поставщиков облачных услуг. Более того, мы стремимся быть хотя бы частично независимыми от платформы в некоторых наших рабочих нагрузках. Поэтому мы обращаем внимание на TPUs и другие ASIC, а также тесно следим за AMD. В конечном итоге любой путь оптимизации, связанный с аппаратным обеспечением, который может привести к лучшему соотношению FLOPs/$, будет исследован.

Какова ваша визия будущих достижений в области создания видеоконтента?

Через 24 месяца мы уже не сможем отличить сгенерированного человека от настоящего. Это изменит многое, и мы находимся на переднем крае этих достижений.

В настоящий момент большинство созданных видеороликов предназначены для компьютеров и мобильных устройств. Что нужно изменить, прежде чем у нас появятся фотореалистичные созданные аватары и миры как для дополненной реальности, так и для виртуальной реальности?

На данный момент у нас есть возможность создавать фотореалистичные аватары и миры как для дополненной реальности (AR), так и для виртуальной реальности (VR). Основным препятствием является задержка передачи данных. Хотя важно обеспечить высокое качество графики в режиме реального времени на устройствах, таких как AR- и VR-очки, для этого требуется ряд условий. Прежде всего, мы полагаемся на достижения в области производства микросхем, чтобы обеспечить более быструю и эффективную обработку данных. Помимо этого, оптимизация энергопотребления является важной задачей для обеспечения более длительного использования без ущерба для пользовательского опыта. Наконец, мы ожидаем прорывы в области программного обеспечения, которые позволят эффективно соединить процессы генерации и реального времени рендеринга. Когда все эти компоненты сойдутся, мы увидим взрывное использование фотореалистичных аватаров и окружающей среды как в AR, так и в VR.

Какой прорыв в области искусственного интеллекта вы ожидаете в будущем?

Когда речь идет о следующем значительном прорыве в области искусственного интеллекта, всегда ощущается волнение и ожидание. Хотя я уже намекнул на некоторые прогрессивные разработки ранее, то что могу сказать сейчас – мы активно работаем над несколькими революционными инновациями прямо сейчас. Я хотел бы подробнее рассказать, но пока что призываю всех следить за нашими предстоящими релизами. Будущее искусственного интеллекта обещает огромные возможности, и мы рады быть на переднем крае этих пионерских усилий. Оставайтесь на связи!

Есть ли что-то еще, что вы хотели бы поделиться о компании Hour One?

Обязательно загляните в наш канал Discord и ознакомьтесь с нашим API – это новые дополнения к нашему предложению на платформе Hour One.