Статті
Дизайн голосовых интерфейсов
Строим человечный диалог с машиной
10 січня, 2019
Слава Тодавчич
Соучредитель и менеджер проектов в Moqod
Юрий Учанов
UI/UX дизайнер в Moqod
Ми любимо тексти без помилок. Якщо ви їх знайшли, виділіть фрагмент і натисніть Ctrl + Enter.

Каждый из нас сталкивался с голосовыми интерфейсами. Робот, отвечающий, что подъедет красная kia, лифт, называющий этаж, навигатор, подсказывающий, что сейчас направо – кто-то ведь должен продумывать их слова? В этом заключается новое направление для дизайнеров интерфейсов – дизайн голосовых интерфейсов.

В статье речь пойдет о более интеллектуальных системах, таких как голосовые помощники или умные дома. Как они устроены – объясняет UI/UX designer в Moqod Юрий Учанов вместе с коллегой Славой Тодавчичем.

Автор всех изображений: Юрий Учанов

Что такое VUI

Голосовые интерфейсы (ГИ, или VUI – voice-user interface) – это эволюция взаимодействия, которая освобождает руки и глаза, упрощает ввод или получение информации. Например, когда мы ведем автомобиль или делаем хирургическую операцию, а в этот момент хотим узнать, сколько лет Деми Мур.

В последние несколько лет голосовое взаимодействие развивается семимильными шагами. Уже 20% всех поисковых запросов в Google на мобильных устройствах делаются с помощью голоса. По прогнозам Gartner к 2020 году 30% посещений сайтов будут происходить без экрана. Узнать прогноз погоды, включить свет в гостинной или заказать пиццу можно уже сейчас. В будущем же возможности видятся практически безграничными.

Составляющие голосового интерфейса

Что характеризует голосовой интерфейс и в чем его отличия от привычного визуального? Специалисты из Nielsen Norman Group выделили пять базовых технологий голосового пользовательского интерфейса:

  1. Голосовой ввод: запросы произносятся голосом, а не вводятся посредством клавиатуры или графических элементов экранного интерфейса.
  2. Естественный язык: пользователи не должны ограничиваться использованием определенного, оптимизированного для компьютера словаря или синтаксиса, но могут структурировать ввод любыми способами, как если бы это был разговор с человеком.
  3. Голосовой вывод: информация произносится голосом, а не выводится на экране.
  4. Интеллектуальная интерпретация: для настоящего понимания запросов пользователя ГИ должен использовать дополнительную информацию, такую как контекст использования или действия, которые пользователь совершал ранее.
  5. Содействие: ГИ совершает действия необходимые для выполнения задачи пользователя, которые пользователь не запрашивал.

Не все голосовые интерфейсы используют все пять пунктов одновременно. Например, виртуальные клавиатуры мобильных устройств предлагают только языковой ввод, голосовые помощники иногда выводят информацию на экран, вместо того чтобы проговаривать голосом.

С интеграцией же всех пяти свойств мы получаем взаимодействия с двумя существенными преимуществами:

  • Возможность формулировать цели на естественном языке. Исчезает необходимость в изучении интерфейса и нажатии кнопок.
  • Возможность предсказывать цели пользователя, предлагать их на основе контекстной информации или предыдущих действиях.

Голосовые помощники

Совокупность всех пяти базовых технологий и их интеграции – это предпосылка к тому, чтобы создать интерфейс, не требующий вообще никакого ввода. Хотя мы еще очень далеки от дизайна интерфейса, читающего мысли людей, но голосовые помощники, в первую очередь Alexa, Google Assistant и Siri, – первый шаг на пути к этому.

Почти все мы хотя бы раз уже пользовались голосовыми помощниками. Как минимум теми, что встроены в наши смартфоны. Мы имеем некоторое представление о том, что это и чем вообще может быть полезно. Исследование от той же Nielsen Norman Group выявило текущее положение дел на рынке помощников, недостатки и преимущества ГИ в их современном воплощении. Далее некоторые результаты исследования.

Юзабилити

Исследование показало, что голосовые помощники плохо соответствуют всем пяти критериям голосовых интерфейсов и их интеграции. Уровень юзабельности близок к бесполезному даже в хоть сколько-то сложных взаимодействиях. Вопреки предпосылкам о человеко-ориентированном дизайне, пользователям приходится думать о том, когда голосовой помощник будет полезен и когда лучше отказаться от его использования, подбирать формулировки запросов. И это несмотря на то, что изначальный посыл был в том, что компьютер должен подстраиваться под человека, а не наоборот.

Ниже перечислено, как помощники справились с каждым критерием голосового интерфейса и что возможно будет исправлено в будущем.

Большинство пользователей, участвовавших в исследовании голосовых помощников, отметили, что используют их в основном в двух ситуациях:

  • Когда заняты руки, например, во время вождения или готовки;
  • Когда им кажется, что задать вопрос голосом будет быстрее, чем вводить его с клавиатуры и прочитать ответ.

Почти все ясно представляют возможности помощников и часто не используют их для сложных запросов, предпочитая веб-поисковики. Они чувствуют, что на запросы с одним четким ответом будет получен корректный результат. Некоторые считают, что могут выполнить и сложную задачу, но для этого нужно упрощать запросы и думать над их формулировкой. Большинство же считает, что обдумывание того, как правильно задать вопрос, не стоит усилий.

Значимая область, где голосовые помощники существенно помогают облегчить взаимодействие – это диктовка текста: длинные сообщения или поисковые запросы, особенно на мобильных устройствах. Диктовка видится более быстрой и удобной альтернативой экранным клавиатурам. Но и тут есть проблемы с распознаванием специфических терминов, вставкой правильной пунктуации и именами.

Проектирование голосовых интерфейсов

Для решения всех проблем ГИ в текущей реализации важно найти правильный подход в их разработке. Голосовое управление – это вербальный процесс, общение с машиной. В хорошем голосовом интерфейсе это общение должно быть таким же естественным, как и с человеком. В проектировании таких систем гораздо больше психологии, понимания особенностей человеческого мышления.

Константин Самойлов из команды исследования голосовых интерфейсов Google в своем докладе рассказал об особенностях проектирования ГИ. Что нужно учитывать при их разработке и каких принципов придерживаться:

Доверие

Доверие  – не технический вопрос, но если его не решить, вся остальная работа будет проделана зря. Без доверия пользователь просто не будет использовать ГИ для выполнения хоть сколько-то значимых задач. Сначала мы узнаём, как система справляется, а потом начинаем делегировать ей задачи.

Непросто сделать такой интерфейс, которому пользователь бы доверился даже в такой простой задаче, как установка будильника. Одно дело проспать субботний завтрак, другое – рейс на самолете. Если человек не понимает, на сколько система может ошибиться, то он её просто не использует.

Невидимый интерфейс

Невидимость – принципиальное отличие голосового интерфейса. Мы не видим элементы интерфейса, в какой его части или на каком шаге мы находимся.

У каждого пользователя своя умственная модель, отвечающая на вопрос о возможностях системы. Она, по сути, заменяет эти визуальные составляющие интерфейса. Каждая реакция системы на действия пользователя изменяет умственную модель и, чтобы ГИ работал, надо помогать пользователю корректировать модель нужным образом.

Корректировка умственной модели

Когда система задает вопросы, предполагающие только простые ответы, например, «да/нет», пользователь может сделать вывод, что она довольно примитивна и все последующие команды и ответы будет формулировать соответственным образом.

Если же система задает вопросы, ответы на которые пользователь может сформулировать как угодно, и понимает их, то и все последующие взаимодействия с системой пользователь будет выстраивать на том же уровне.

Человечность

Чтобы взаимодействие с ГИ было естественным надо понимать, почему общение с другими людьми кажется естественным. Но проблема в том, что мы этого не знаем. Почему разговор с некоторыми людьми нам кажется более естественным, чем с другими? За счет каких характеристик? Не зная этого, невозможно и внести это в систему.

Возможный выход – сделать систему, которая, получая обратную связь, сама будет узнавать, что сделано правильно, а что можно было сделать иначе. Система выяснит, какие характеристики важны для естественного взаимодействия.

Индивидуальность

Современные реализации ГИ позволяют имитировать характер его личности – дружелюбность, чувство юмора, интеллектуальность и прочие. Это достаточно разноплановые характеристики и подход разных компаний к их реализации отличается.

Siri – проект компании, идеология которой – всё должно просто работать. И всё действительно работает, если пользователь угадывает с грамматикой и словарём. Если не угадывает, то система, без каких-либо указаний на то, что пошло не так и как скорректировать поведение, просто перестает работать.

При этом большой акцент сделан на индивидуальности. Качество голоса, шутки, смешные комментарии при выполнении обычных задач иногда действительно впечатляют. Создается ощущение, что перед нами личность. Пользователь расслабляется и пытается взаимодействовать с Siri как с личностью. Но когда система начинает реагировать не так, как он ожидает, восприятие резко снижается. Он думает, что его действия не одобряются или над ним просто смеются. И это намного хуже, чем если бы он изначально воспринимал её как машину.

В Google посчитали более безопасным не пытаться имитировать индивидуальность, показывать, что перед пользователем просто высокотехнологичный программный продукт, у которого даже нет имени (OK, Google).

Голосовые интерфейсы в бизнесе

Сегодня голосовые интерфейсы не только помогают обычным пользователям, но и бизнесу для решения своих задач.

Что касается продаж посредством ГИ, то по данным Voicebot.ai 26% владельцев «умных» колонок совершали покупки с их помощью хотя бы раз, а около 16% делают это ежемесячно. Но чаще всего это простые потребительские товары или сервисы, не требующие изучения отзывов, фотографий или сравнения цен с другими поставщиками. Например, заказ еды или покупка подписок на аудио/видео сервисы.

Чаще всего компании создают собственные «навыки» – команды, позволяющие взаимодействовать с их собственными программами через голосовых помощников. Например «Алису» от Яндекса уже можно использовать для поиска авиабилетов, заказа доставки цветов, продуктов, поиска вакансий, несложных игр и многого другого. С помощью тех же «навыков» компании используют помощников как консультантов, в результате клиенты получают помощь мгновенно, не пробираясь через поисковую выдачу.

Один из важных вопросов связан с рекламой: начнут ли монетизироваться голосовые помощники? Это, по сути, новый канал продвижения, который до сих пор не ясно как можно использовать. Мы уже привыкли мысленно «фильтровать» визуальную рекламу – так называемая «баннерная слепота», когда мы просто не замечаем всё, что похоже на баннер или контекстную рекламу, и это не требует никаких усилий. Но какова будет реакция, если голосовой диалог с компьютером будет прерываться рекламными вставками?

Помимо навыков некоторые компании выбирают и другой путь использования ГИ в своем бизнесе – разработка собственного ПО. Обычно это связано с невозможностью использования голосовых помощников. Например, диспетчерская служба такси – пользователь звонит с обычного телефона. В случаях, когда требуются очень высокий уровень конфиденциальности, также не стоит использовать голосовых помощников – данные уходят на сервер сторонних компаний.

Будущее голосовых интерфейсов

В ближайшем будущем голосовое взаимодействие получит все большее распространение почти во всех сферах деятельности. Устройства, способные распознавать голос и генерировать его, стремительно дешевеют с развитием голосовых помощников и повсеместного распространения интернета. Однако чаще всего это будут узкоспециализированные варианты использования. Когда пользователь понимает, например, что не стоит у автоматизированного киоска по продаже мороженого спрашивать прогноз погоды.

Не прекратятся и попытки имитировать возможность голосовых помощников ответить на любой вопрос или выполнить любое действие, которое мы уже сейчас можем осуществить с помощью визуального интерфейса. Но вряд ли это будет работать именно так, как мы представляем. В диалоге и с обычными людьми мы часто сталкиваемся с недопониманием, что говорить о машинах. С этим связана и проблема создания «настоящего» искусственного интеллекта, который бы полностью решил все проблемы голосового взаимодействия, – мы просто не понимаем до конца, как устроен мозг и человек.


Ранее Telegraf.Design писал о том, как устроен дизайн мобильных приложений для людей с ограниченными возможностями.

avatar
Слава Тодавчич
Соучредитель и менеджер проектов в Moqod
Колонка
avatar
Юрий Учанов
UI/UX дизайнер в Moqod
Колонка

У нас є ще дещо для вас

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: