Детские болезни голосовых интерфейсов или Алиса, где миелофон?

4 min readFeb 3, 2021

До тех пор, пока Илон Маск не научился вживлять чипы прямо в мозг, управление голосом — один из наиболее простых способов взаимодействия человека и машины.

Во-первых, не нужно обучаться специальным навыкам, вроде набора на клавиатуре, использования мышки, нажимания на сенсорный экран и так далее. Во-вторых, не нужно учиться особенностям интерфейса, ведь любая графика требует сначала анализа, а уже потом происходит взаимодействие. В-третьих, не нужно заучивать команды взаимодействия — эту проблему особенно оценят те, кто хоть раз использовал один и тот же программный продукт в разных языковых версиях, пытаясь разобраться, как локализовали ту или иную команду.

Но это в теории. На практике у голосовых интерфейсов сегодня те же самые детские проблемы, которые преследуют графические оболочки. Все описанное ниже — анализ взаимодействия с умной колонкой Яндекс и помощником Алиса.

1. Паталогическая забывчивость.

- Когда Алиса выстраивает диалог, она не может вернуться на шаг назад. Например, если в игре в города попросить ее повторить город, она скажет: «Это не похоже на название города». Хотя сценарий довольно понятен — человек не расслышал по каким-то причинам ответ.

- Алиса плохо помнит свои предыдущие действия. Пример: установка таймера. Когда таймер сработал, Алиса забывает о его существовании. Несколько раз я так чуть было не переварил макароны. То ли я не услышал сигнал, то ли что-то сбросилось. Но я не могу этого проверить. Естественно, ругаюсь. Естественно, Алиса мне отвечает, что она ничего не забывает. Я уверен, что в системе ведется лог взаимодействия. И я мог бы хотя бы проверить, несработавший таймер — моя ошибка, или ошибка Алисы.

Почему это детская ошибка? Вспомните, например, как офисные приложения забывают, где вы сохраняли предыдущий файл, и пытаются сохранить текущий в каком-то расположении по умолчанию. Или забывают напрочь параметры сохранения предыдущего файла? Хотя скорее всего, либо то, либо другое у пользователя будет совпадать.

2. Отсутствие тонких настроек.
Классический подход к интерфейсам говорит, что наиболее часто используемые или востребованные настройки нужно выносить на видное место, а все остальные специфические — скрывать и вызывать контекстно, либо дополнительной командой. Но там же говорится, что эти тонкие настройки не надо удалять совсем.

- Алиса умеет сообщать погоду. Она рассказывает текущую температуру, осадки, прогноз осадков на несколько часов, прогноз температуры до конца дня. Но я не могу заставить ее сообщить ветер, например. Или температуру по ощущениям. Или давление. Хотя все это есть в Яндекс.Погоде, но достучаться через голосовой интерфейс до информации невозможно. Алиса будет твердить только базовые данные.

- Управление громкостью. Алиса понимает «громче» и «тише», но не знает, что такое «чуть громче» и «чуть тише» или «очень громко» и «очень тихо». Хотя реализовать разную длину шага в настройках несложно. Да, есть сенсорное управление, но я не всегда могу стоять над колонкой с поднятой рукой.

- Алиса практически не умеет использовать дополнительные команды. Если я скажу, «включи радио и сделай потише», она включит радио, но вторую часть придется повторить. Более того, она включит радио, а сама отключится, придется снова ее звать. Хотя логика подсказывает, что можно оставлять микрофон включенным несколько секунд для дополнительных команд.

3. Персонификация.

- Алиса умеет запоминать только один голосовой профиль. То есть узнает человека по голосу и включает персонификацию. Какой в этом смысл, не очень понятно. Если колонкой пользуется вся семья, то можно настроить параметры доступа к контенту, например. Такой разделенной доступ практикует, например, Netflix. И главное, непонятно, откуда взялось такое ограничение.

- Вообще персонифицированные настройки реализованы через телефон. А в телефоне понять, где что спрятано — очень непросто. Например, есть программа «Шоу Алисы» — когда она на фразу «Доброе утро» выдает погоду, новости и потом включает музыку. Так вот, чтобы сменить источники в подборке новостей, нужно залезать в ворох настроек. Где оно закопано я смог разобраться минут за пять (а это много, и искал я специально до победного, мог бы просто плюнуть и все).

Аналог из прошлого (далекого, не все вспомнят, наверное) — настройка драйверов для каждого элемента периферии через свой интерфейс. Это когда чтобы музыка работала, нужно лезть в программу, отвечающую за настройку музыки, а не в стандартный Windows «Громкость и настройки». Или вообще переставлять вручную заглушки-переключатели на звуковой карте.

4. Взаимодействие с внешними источниками данных.

- Алиса может назвать исполнителя и название композиции только из Яндекс.Музыки. Если играет радио, то никакого тебе условного «Шазама». Но сейчас радиостанции выводят везде плейлист в режиме реального времени. Наверняка, есть какие-то API, по которым информацию можно собирать. Почему бы не делать это?

- Я не могу подключить Вконтакте, хотя музыки у меня там прилично. Понятно, что Яндекс развивает свою экосистему, но это выглядит примерно как если бы Google Chrome давал доступ только к магазину приложений Google Play, а все сторонние файлы приложений просто игнорировал бы.

Представьте, если в презентацию вы сможете добавить только картинки, сделанные в приложении от Microsoft.

5. Отсутствие обучения пользователя.

Да, изредка Алиса говорит что-то про какие-то функции. Из серии «Кстати, а еще я могу». Но происходит это, во-первых, очень редко, во-вторых, не всегда к месту. В-третьих, на слух очень сложно понять, что нужно сделать и как. Как раз здесь хорошо сработает связка «Колонка» — «Телефон» с пуш-уведомлениями. Кстати, об обновлениях или добавлениях каких-то функций Алиса тоже умалчивает.

Сейчас практически все основные приложения (от Microsoft и Adobe — точно) контекстно рассказывают о функциях системы. А после обновления — показывают, что поменялось. У Adobe вообще реализованы мини-уроки внутри программ, чтобы сразу понимать, где какой инструмент и как он работает. Ну хоть Скрепыша включите!

Завершая разговор, резюмирую.
На мой взгляд, умные колонки с голосовым интерфейсом — интересный, полезный и удобный продукт. Но взаимодействие с пользователем построено без учета сильных сторон естественного общения, да еще и страдает при этом детскими болезнями графических интерфейсов.

У меня стойкое подозрение, что разработчики сами не пользуются продуктом в реальной жизни, а к проектированию алгоритмов Алисы подходят как к проектированию веток диалогов ботов из колл-центров. Между тем, Алиса — это не бот, это интерфейс, и акценты очевидно нужно смещать в сторону реальных потребностей пользователя, а не изолированных ответов на каждый конкретный вопрос.

Детские болезни голосовых интерфейсов или Алиса, где миелофон?

Written by Dmitry Mazhorov