画像内の文字情報のテキスト抽出の可能性

「SEMリサーチ」というサイトで、「Googleは将来、画像上のテキストを認識できるようになるか?」という興味深い記事がありました。

Googleのスタッフが「Will Google find text in images someday ?」という質問に答える形で、画像内の文字情報のテキスト抽出の可能性について、見解を示しているのですが、「実現するためのアイデアは思い浮かぶものの、作業が大変で、近い将来での実現は難しい」ようです。

やはり難しいか...と思いますが、もし仮に実現したら、とても素晴らしいですね。ユーザーにとっては検索行動の幅がぐんと広がるので、より充実したユーザーエクスペリエンスの実現につながるかもしれません。

また、アクセシビリティの観点で考えると、たとえば動画には聴覚障害者向けにキャプション(字幕)を付加することが望ましいのですが、検索技術サイドからの後押しがあれば(静止画像内の文字はもちろん、動画の字幕などもテキスト抽出できるようになれば...)、結果的に、こうしたキャプション付けが「当たり前」になることが期待できるような気がします。Google Audio Indexing(GAudi)において、動画中の音声(人の言葉)の内容を検索しようという実験は行なわれていますが、画像内文字のテキスト認識も、いつかGoogle Labs(グーグル ラボ)でお目見えすることがあれば、と想像すると楽しみですね。

とはいえ、やはりWebにおける表現の基本はテキストでしょう。どんなに検索技術が向上しても、画像には「確実に代替テキストを付加する」ようにマークアップすべき(<img>要素へのalt属性など)です。上述のGAudiが「音声」を「テキスト」に変換しているように、結局のところテキストデータが検索技術の拠り所である以上、テキストベースでのセマンティック(何を意味するかを表す情報)を維持することの重要性は、将来にわたっても変わることはないと思います。