Дизайн повседневных (ИИ) вещей

Инновационный дизайн повседневных вещей

Принципы UI/UX для создания великолепных генеративных инструментов искусственного интеллекта

Источник изображения: DreamStudio

Классическая работа Дона Нормана 1988 года «Дизайн повседневных вещей» описывает принципы пользовательского опыта, которые с тех пор оказали влияние на разработку отличных программного и аппаратного обеспечения. Норман использовал примеры из аналогового мира, такие как дверные ручки и выключатели, но его принципы также широко применимы в программном обеспечении, включая генеративные инструменты искусственного интеллекта. Все это помогает не забыть, что продукты, работающие на основе самых сложных моделей, не смогут преуспеть без хорошего интерфейса и пользовательского опыта.

Многие новые инструменты искусственного интеллекта вызвали огромный интерес, но затем проявилась недостаточная удержание пользователей (подробнее здесь, согласно Sequoia). Всплеск интереса к искусственному интеллекту привлекает “турстическое” привлечение новых пользователей, но им сложно понять и извлечь реальную пользу от продукта. Это классическая ситуация “разочарования”, которая возникает, когда основная технология (генеративные модели) опережает вспомогательную (дизайн интерфейса и пользовательский опыт).

В этом посте рассматриваются три основных концепта пользовательского опыта для генеративных инструментов искусственного интеллекта: 1) возможности, 2) обратная связь и 3) ограничения. Применение этих концептов к генеративному искусственному интеллекту приводит к следующим выводам, о которых мы поговорим:

  • Не стремитесь к Hole-In-One (совершить удар с первого раза)
  • Обратная связь от пользователя ничего не стоит
  • Критически оценивайте интерфейс чат-ботов

Примеры, которые будут рассмотрены, взяты из инструментов рабочей продуктивности (частично вдохновленных моей работой в компании Tome, исполняющей AI и VoAGI для формирования и обмена идеями) и стратегии применимы широко – от инструментов разработчика до социальных медиа и электронной коммерции.

Тема 1: Обратная связь

Предоставление быстрой и четкой обратной связи пользователю о запрошенном действии является критическим для любой технологии. Обратная связь особенно важна для систем генеративного искусственного интеллекта из-за задержки и сложности их вывода. И обратная связь работает в обе стороны – система должна активно и вовремя запрашивать от пользователя соответствующую обратную связь, чтобы создавать более точный вывод с учетом особенностей каждого пользователя в ближайшей перспективе и чтобы обеспечить создание улучшенных версий продукта в рамках VoAGI или в долгосрочной перспективе.

Учитывайте задержку

Время ответа моделей генеративного искусственного интеллекта обычно составляет от нескольких секунд до десятков секунд. На первый взгляд может показаться, что ожидание десяти секунд для создания увлекательной записки, захватывающего изображения или красивого видео не имеет никакого значения. Без генеративного искусственного интеллекта эти действия занимают часы – кому важно, занимает это 10 секунд, 1 секунду или 100 миллисекунд?

Но пользователи не являются экономистами, оптимизирующими возможность получения пользы. Они привыкли к неискусственному настолько быстрому программному обеспечению, что его воспринимают как мгновенное. Это приводит к ряду проблем пользователей с очевидно не мгновенными продуктами искусственного интеллекта:

  1. Путаница в том, работает ли система и нужно ли повторять или перезапускать действие.
  2. Высокая стоимость итерации. И поскольку в большинстве случаев первый результат, созданный искусственным интеллектом, не соответствует точно тому, что хочет пользователь, он хочет попробовать еще раз.
  3. Большая вероятность, что пользователь начнет выполнять несколько задач одновременно. Как только пользователь переключится на другое приложение, не существует гарантии, что он вернется обратно к вашему приложению.

Существуют эффективные стратегии смягчения эффектов задержки, которые существовали до эпохи генеративного искусственного интеллекта. К ним относятся загрузочные анимации, индикаторы прогресса и фоновая обработка (когда пользователь переходит к другой задаче и получает уведомление, когда текущая задача заканчивается). Новая тактика, особенно для функций генерации текста, заключается в пошаговой передаче текста на экран, слово за слово (или символ за символом), а не сразу выводить полный результат. Поскольку многие модели могут создавать слова быстрее, чем пользователь может прочитать, это может снизить ощущение задержки до нуля.

Не стремитесь к Hole-In-One (совершить удар с первого раза)

Одна особенно эффективная стратегия смягчения задержки – разделение рабочих процессов на небольшие шаги, на каждом из которых предоставляется обратная связь от системы и запрашивается обратная связь от пользователя. Это позволяет пользователю продвигаться к желаемому результату с все возрастающей уверенностью, что система будет давать точно то, что пользователю необходимо. Внимательно спроектированный итеративный рабочий процесс имеет низкую задержку на начальных шагах, и доверие пользователя к окончательному результату возрастает с каждым последующим шагом. Если вы уверены, что получите желаемый результат, то вы будете готовы подождать десять секунд для завершающего шага.

Итеративные рабочие процессы имеют более мощное преимущество, чем повышение толерантности к задержке: они позволяют пользователям генерировать вывод, который лучше соответствует их ожиданиям. Генеративные модели иногда могут создавать именно то, что пользователь хочет, всего лишь по простому запросу. И переход от ввода к окончательному выводу “точно так” – потрясающий пользовательский опыт; это похоже на одиночный удар. И подобно одиночному удару, это очень редкое явление.

Испытание заключается не в “умности” модели, а в контексте и информации, необходимой модели для реализации видения пользователя. Предположим, управляющий по продажам хочет подвести итоги работы своей команды за квартал. Он видел десятки квартальных отчетов по продажам и хорошо знаком с нормами своей компании, которые описывают такие артефакты (нормы, такие как тон, степень детализации, длина и визуальное оформление). Если бы ему понадобился коллега, который написал бы такой отчет, он просто бы попросил “квартальный отчет по продажам” и ожидал, что коллега уже знает эти нормы.

Поэтому, когда этот управляющий по продажам хочет получить такой отчет от инструмента ИИ, ему не ясно, какие нормы он должен сообщить инструменту и что он уже знает. Именно здесь особенно полезны итеративные рабочие процессы. Он может начать с чего-то простого и знакомого, например, запросить “квартальный отчет по продажам”, и инструмент может помочь ему точно определить, что именно он имеет в виду. Зак Ллойд называет этот паттерн “запрос и настройка” в этой хорошо обоснованной статье о дизайне ИИ.

Конструктор Тома схематического редактора является примером промежуточного этапа в итеративном рабочем процессе ИИ между предложением и окончательным результатом — многогранный презентационный файл. https://tome.page

Обратная связь пользователей не является бесплатной

Во многих классических продуктах машинного обучения каждое взаимодействие пользователя порождает новые данные для обучения модели, улучшая следующую версию продукта. Каждый клик пользователя по результату поиска помогает улучшению модели поиска. Каждое электронное письмо, которое пользователь помечает как спам, помогает улучшению модели классификации спама.

Но многие продукты на основе генеративного искусственного интеллекта не имеют врожденной «физики», где взаимодействие пользователя механически приводит к улучшению модели. В случае продуктов искусственного интеллекта, где вывод представляет собой сложный текст, изображение и т. д., может быть сложно отличить разочарование (когда пользователь не может получить желаемый результат и уходит) от удовлетворения (пользователь достигает своей цели и уходит). Некоторые продукты собирают обратную связь по запросу (например, значки “палец вверх” или “палец вниз”), но процент завершения обратной связи обычно очень низок, и сама обратная связь часто страдает от субъективностью в выборе.

Гораздо лучше спроектировать рабочий процесс, где естественное следующее действие пользователя указывает на его восприятие предыдущего вывода ИИ. Один из паттернов, наиболее часто используемых с текстовыми моделями, – это встроенные предложения: если пользователь принимает предложение и продолжает писать, это сильный сигнал о том, что он отнесся к предложению положительно. Другим паттерном является инструментирование того, какой ИИ-вывод сохраняется, редактируется или делится. Они не совершенно коррелируют с удовлетворением пользователя – пользователь может поделиться изображением, потому что оно особенно причудливое – но они являются неплохими показателями при использовании их в совокупности.

Тема 2: Условия

Условие – это подсказка (обычно визуальная), которая указывает на то, как и когда использовать функцию. Хорошие условия делают взаимодействие пользователей с продуктом интуитивным, без дополнительных инструкций или опыта. Мы рассмотрим условия для генеративного искусственного интеллекта на трех этапах пользовательского пути: обнаружение точек входа в ИИ, выбор правильного ввода для ИИ и использование ИИ-вывода.

Обнаружение точек входа в ИИ

Многие рабочие инструменты добавляют множество функций ИИ, и эти функции применимы на разных этапах творческого процесса. Высокоуровневые точки входа для использования функций ИИ включают:

  1. Помогите мне начать с нуля
  2. Расширьте то, что я уже начал
  3. Отредактируйте то, что я создал

Эти различные точки входа привели к значительно разным интерфейсам, даже на таком раннем этапе эволюции интерфейса ИИ. Для (1) появились интерфейсы свободного текста или «пустого холста» как ранние ведущие парадигмы. Для (2) встроенная генерация (также известная как автодополнение) часто доминирует в функциях генерации текста (например, Github Copilot), тогда как «покажи мне больше подобного» часто доминирует в функциях генерации изображений (например, Midjourney). Для (3) интерфейсы обычно сосредотачиваются на выделении, выборе или загрузке существующего контента (например, Grammarly).

AI Mind Map от Whimsical помогает пользователям начать с нуля. https://whimsical.com

Для пользователя, обнаружившего одну точку входа в ИИ в инструменте с несколькими функциями ИИ, легко прийти к выводу «вот где находится ИИ» и не обнаружить другие функции. Хорошие продукты помогают пользователям ознакомиться с различными точками входа в ИИ в те моменты их рабочего процесса, когда каждая точка входа может быть наиболее полезной.

Ввод данных для ИИ

Основным входом многих рабочих процессов генеративного ИИ является свободный текстовый ввод, также известный как «подача». К сожалению, хорошая подача усложнена, быстро развивается и неоднородна в разных инструментах. Хорошие продукты помогают пользователям создавать подсказки, включая примеры и всплывающие подсказки.

Perplexity включает несколько примеров подач на своей стартовой странице, чтобы показать примеры использования, выходящие за рамки типичных поисковых систем. https://www.perplexity.ai/

Хорошие интерфейсы также помогают пользователю понять контекст, в котором находится ИИ, и то, чего ему не хватает. Работая с мощным ИИ, разумный пользователь может прийти к выводу, что все, что он видит в приложении, ИИ тоже может видеть и понимать. Например, если я могу видеть свои предыдущие разговоры с ИИ, наверняка ИИ тоже об этом знает (такое поведение популяризовал ChatGPT). Но не каждый ИИ работает так! Некоторые системы знают предыдущие подачи пользователя, некоторые знают еще больше контекста, чем только предыдущие подачи, а некоторые знают только текущее взаимодействие пользователя и ничего больше. Пользователь не должен выяснять, что система знает и что не знает, методом проб и ошибок.

Использование вывода ИИ

Соблазнительно думать, что когда система создает генеративный вывод ИИ, и вывод хороший, успех уже близок. Но даже когда вывод хороший, это может быть путаницей для пользователя.

Во-первых, новые пользователи часто задаются вопросом, как сохранить результат. Даже если вывод хороший, многие пользователи сразу хотят продолжить и посмотреть, смогут ли они перейти от хорошего к отличному. Но опасение потерять уже существующую работу может вызывать колебания и раздражение.

Во-вторых, пользователи могут быть смущены, как улучшить вывод. Если они использовали функцию ИИ «начать с нуля», следует ли им вернуться к началу? Нужно ли перейти к другой точке входа ИИ, например, «расширить» или «редактировать»? Многие пользователи сталкивались с продуктами, где вывод нельзя непосредственно редактировать; если вывод можно редактировать, пользователям, вероятно, потребуется функция редактирования.

Тема 3: Ограничения

Ограничения ограничивают ввод и вывод, чтобы помочь пользователям работать быстрее и лучше. Хорошие ограничения понятны для пользователя. Если система может помочь пользователю достичь цели, но только частично или не всегда, лучше предотвратить этот путь, а не предоставлять надежный опыт.

LLM открывают новые огромные возможности для пользователей (вот почему я люблю работать над ними!), и создатели продуктов должны стремиться смягчить традиционные ограничения детерминированного программного обеспечения. Тем не менее, независимо от того, насколько умными станут LLM, всегда останется место для некоторых продуманных ограничений.

Input: не бойтесь элементов управления

Вдохновленные успехом ChatGPT, многие генеративные инструменты искусственного интеллекта используют свободное текстовое поле в качестве единственного или основного пользовательского ввода. Но многие аспекты намерений пользователя лучше всего выражаются через категориальные или числовые входные данные. При создании документа у пользователя обычно есть в виду такие атрибуты, как язык (категориальный) и длина (числовое значение). Пользователи могут не упоминать эти атрибуты в свободном текстовом запросе, но это не означает, что они им неважны. С помощью дискретных, ограниченных элементов управления (таких как выпадающий список или ползунок) система помогает получить входные данные, необходимые для достижения того, что пользователь имеет в виду. К тому же, имеются проверенные временем принципы для помощи пользователям в навигации по дискретным элементам управления: задание хороших значений по умолчанию, логическое группирование элементов управления и объяснение элементов с помощью подсказок или меток.

Когда речь идет об элементах управления, установка хороших значений по умолчанию является важной частью дизайна. В подавляющем большинстве случаев (гораздо более 90%) пользователи не будут изменять значения по умолчанию, даже если это было бы полезно для них. Один из вариантов объединения хороших значений по умолчанию с вариативностью предпочтений пользователей – это динамическое изменение значений по умолчанию, либо с использованием жестко закодированных правил, либо с помощью искусственного интеллекта.

Вывод: не все, что может быть сгенерировано, должно быть

Для генеративных продуктов искусственного интеллекта существуют множество ситуаций, в которых модель может произвести некоторый контент, но пользователю необходимо решить, нужен ли ему этот контент или лучше воздержаться от него из-за его неправильности или непонятности.

В случае большинства рабочих задач пользователи предпочли бы ответ “Я не знаю”, чем потенциально ложный ответ, который им придется проверять и опровергать. Это исследование Гарвардского университета в консалтинговой фирме BCG показывает, как искусственный интеллект может ухудшить качество работы, когда он отвечает на вопросы, выходящие за пределы его “конфиденциальной границы”, и пользователи, не зная, где находится эта граница, недостаточно внимательно рассматривают результаты.

Методы сокращения галлюцинаций быстро развиваются (например, генерация с использованием поиска), и я полагаю, что проблема галлюцинаций будет преодолена через несколько лет, но сегодня важно учитывать ограничения в случаях, когда критически важна достоверность информации.

Правовые и этические соображения являются еще одной причиной ограничения вывода, предназначенного для пользователя. То, что модель может генерировать текст или изображения на определенную тему, не означает, что это совместимо с нормами сознания искусственного интеллекта. Однако часто бывает так, что, когда система классифицирует запрос пользователя как “вне границ”, пользовательские намерения на самом деле являются незлонамеренными. С небольшой помощью пользователь может переформулировать свой запрос так, чтобы оставаться в границах. Например, некоторые инструменты для генерации изображений отклоняют запросы, включающие слово “ребенок”. Но если пользователь хочет сгенерировать изображение семьи с детьми, он может запросить “семья из четырех человек” или “родители с сыном и дочерью”. Главное – ясно обозначить ограничения для пользователя.

В связи с растущей популярностью генеративных продуктов искусственного интеллекта важно помнить: успех зависит не только от того, насколько умным является искусственный интеллект, но и от того, как продукт направляет пользователя через рабочий процесс, основанный на искусственном интеллекте. Основные концепции дизайна, такие как обратная связь, возможности и ограничения, остаются так же важными, как и прежде, но тактика и паттерны их реализации быстро эволюционируют. Умелое использование этих дизайнерских приемов является критическим фактором для любой компании, разрабатывающей искусственный интеллект и стремящейся преуспеть за пределами начального периода пиара и создать продукт, широко применяемый в долгосрочной перспективе.