VUI (Voice User Interface)

ユーザーからの音声入力 (発話) をトリガーに、人工知能を介してシステムとインタラクションする形のユーザーインターフェース、いわゆる VUI (Voice User Interface) が、徐々に普及しつつあります。プラットフォームとしては Amazon Alexa、Apple Siri、Google Assistant、Microsoft Cortana がメジャーですが、スマートフォンアプリのように GUI (Graphical User Interface) を伴うものもあれば、スマートスピーカー (Amazon Echo、Apple HomePod、Google Home など) のように VUI 単体のものもあります。

VUI によってもたらされるユーザー体験 (UX) としては、情報の取得 (ユーザーの質問に呼応した「答え」を得ること) だけでなく、eコマースの注文、各種代行作業 (たとえば、ブッキングやメッセージ送信など)、スマートホーム内の機器の制御… と様々なものが挙げられますが、いずれにしてもインタラクションは文字通り「対話」的です。タイピングやジェスチャなどの行為で感じるような「操作している」感が比較的希薄で、自分の喋ったことがそのまま体験に直結してしまう、ポジティブな意味で不思議な感じ (体験もしくはシステムに対するこれまでにないエンゲージメント感とでも言いましょうか…) を覚えます。

その一方で VUI には、従来の GUI とは多少違った形での、ユーザビリティの配慮が必要であるように思います。

VUI とユーザビリティ

VUI におけるインタラクションのトリガーはユーザーの発話であり、入力時にフィーチャーされる機能は基本的にマイクだけです。UI の中に他の視覚的な手がかりが無い (または少ない) ことが多く、Jacob Nielsen の 10 Usability Heuristics で言うところの「Recognition rather than recall (記憶に依存せず、そこにあるものを見て認識できるようにする)」の担保が不十分になりがちです。つまりシステムの利用に際して、どう使うのか/どんな結果が得られるのかが予想しにくく、ユーザーは根拠 (自信) のないメンタルモデルに全面的に依拠せざるを得ない、という状況に陥りやすいと言えそうです。

これを踏まえて VUI のユーザービリティを保つためのポイントを考えてみると :

…ということになるのかなと思います。

適切なメンタルモデル形成をサポートする

どう操作すればよいか、また操作によって何が起こるかを提示し、ユーザーのメンタルモデルが適切なものになるようサポートします。ユーザーが自信を持ってシステムと向き合うことができるように、戸惑わせたり迷わせたりしないことが大事です。

適切なフィードバックでコミュニケーションをすり合わせる

ユーザーの操作 (発話) に対して、適切な量と質のフィードバックをタイムリーに提供することで、ユーザーは誤解なく、システムと今どんなやりとりをしているのかを確認できます。不適切なフィードバックによって、ユーザーを圧倒したり不安がらせたりしないことが大事です。また、適切なフィードバックを通じて、ユーザーのメンタルモデルを補正できたり、次の発話行動 (システムとの噛み合った漸進的な対話) を促したり、といったことが期待できます。

システムがユーザーに合わせる

VUI においては、ユーザーが喋り言葉として表現可能な音声情報が、すべて入力となり得ます。ユーザーが発するあらゆる発話をエラー扱いせず受け入れ、ユーザーに「無理にシステムに合わせている感」を覚えさせないようにすることが大事です。

さらに UX を高めるために

上記に加えて、VUI の UX をさらに高めるために、以下のことも意識するとよいかと思います。


今後、VUI のケーススタディが増えてゆくにつれて、上記以外にもユーザビリティ上の留意点が明らかになるかもしれません。実際に VUI を用いたインタラクションを設計する際には、プラットフォーム各社の公式ガイドライン (例 : Amazon AlexaGoogle Assistant) を熟読しつつ、その製品/サービス固有のターゲットユーザー、ゴール、コンテキスト、シナリオに基づいてスクリプトを作り、上流工程からユーザビリティを検証したいところです。「オズの魔法使い」テストが手軽に使えそうなので (一人がユーザー役、もう一人がシステム役となり、ユーザー役の発話に対し、システム役がスクリプトに基づいて発話などのフィードバックを返す、という具合)、機会があれば試してみるのもよいかと思います。