Веб-интерфейс речевого API Что работает, что нет, и как улучшить его, связав его с языковой моделью GPT

Веб-интерфейс речевого API что сработало, что нет, и как улучшить его с помощью языковой модели GPT

Часть серии о том, как современный искусственный интеллект и другие технологии могут помочь более эффективному взаимодействию человека с компьютером

Фото от palesa на Unsplash

Я считаю, что современные технологии позволяют обеспечить намного более простое и естественное взаимодействие с компьютером, чем то, что предлагается текущим программным обеспечением. Я действительно считаю, что технологии настолько зрелы, что мы можем обойтись без традиционных интерфейсов и продвигаться вперед к революции в пользовательском опыте.

Большие языковые модели, безусловно, запустили один этап этой революции, особенно в том, как мы запрашиваем информацию. Однако я считаю, что технологии могут предложить нам гораздо больше. Например, мы все еще в основном используем плоские экраны, несмотря на снижение стоимости гарнитур виртуальной реальности; мы все еще используем мышь, клавиатуру и жесты касания для управления устройствами, несмотря на достижения в области технологий, таких как отслеживание фокуса глаза, распознавание речи и отслеживание движения конечностей; мы все еще много читаем, несмотря на значительные прогрессы в синтезе речи.

Я считаю, что текущие технологии настолько зрелы, что они могут предложить взаимодействие человека с компьютером почти такое же, как в сериале “Звездный путь” (если вы не знаете, о чем я говорю, посмотрите это), но мы все равно застреваем в прошлом.

С этой статьей я начинаю небольшую серию, посвященную тому, как современные технологии могут навсегда изменить взаимодействие человека с компьютером, благодаря уже хорошо работающим технологиям, которые вы сможете протестировать сами с помощью представленных мной фрагментов кода и примеров приложений.

Верен своему стилю, я буду говорить конкретно о веб-реализации всех этих современных технологий. И начну с интеграции веб-API для распознавания речи в браузерах, рассказывая о его мощи, показывая некоторые примеры использования, выделяя ограничения и приводя примеры того, как некоторые из этих ограничений можно преодолеть, совместив его с большими языковыми моделями.

Эта серия основана на недавнем проекте, над которым я работал, чтобы создать веб-приложение первого типа для иммерсивной молекулярной графики и моделирования для нескольких пользователей, HandMol: