Google Audio Indexing(GAudi)

Googleの実験サイトGoogle Labs(グーグル ラボ)の中に、Google Audio Indexing(GAudi)というものがあります。動画の中で発せられている音声(人の言葉)の内容を、検索しようという実験です。(読みかたは「ガウディ」でよいのでしょうか?なかなかしゃれたネーミングですね。)

実験では、(Googleが買収した)You Tubeに登録されている動画コンテンツを検索対象にしています。GAudiページ上部にある検索窓にキーワードを入力して「Search videos(動画を検索)」ボタンをクリックすると、当該キーワードを含むYou Tubeの動画を一覧表示できます。

さらに面白いのは、特定の動画を選択し、その検索窓にキーワードを入力して「Search inside this video(この動画の中を検索)」ボタンをクリックすると、当該キーワードが出現する近辺の文をテキスト表示してくれて、そこから動画再生をスタートさせることができることです。
GAudiの表示例

現時点では(比較的発話が鮮明な)政治家の発言やそれに関連するニュースなどに限定されていることから、音声認識技術自体はまだまだ発展途上だと推測されます。「もっとノイズが入った状態で音声認識できるのか?」「発話が鮮明でない一般会話もきちんと音声認識できるのか?」「英語以外の言語は音声認識できるのか?」などなど、課題を挙げればキリがないでしょう。しかし、「to organize the world's information and make it universally accessible and useful(世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすること)」というミッションを掲げているGoogleのことですから、これらの課題は、いずれ解決されるのでしょう。

となった場合、このサイトのコラム記事「Webにおけるテキストライティングの重要性」の内容が時代遅れのものになるのでは?と考える読者の方もいらっしゃるかもしれませんが、私自身はそうは思っていません。というのも、情報がマシンリーダブル(machine-readable:コンピュータなどの機械が解読可能な状態)であるためには、「情報がテキスト化されている状態」がもっとも利便性が高いと思うからです。恐らくは、だからこそGAudiは「音声」を「テキスト」に変換しているのだと思いますし、さらに将来、(検索窓にキーワードをテキスト入力する代わりに)マイクで音声入力できるような時代も来るかもしれませんが、マイクによる音声入力とWeb上の情報とのマッチングには、やはり「テキスト化されている状態」が媒介であり続けるのでは?と思っています。

いずれにしても、Web上で実用的に使える表現形態の種類が増えることは、ユーザビリティユーザーエクスペリエンスの観点からも、注目されるべきことだと思います。今後の展開が楽しみですね。