代替コンテンツの自動提供への期待

ウェブアクセシビリティにおいて、非テキストコンテンツに対する代替コンテンツの提供は、大きな課題と言えます。たとえば、画像の代替テキスト、動画コンテンツのキャプション (字幕) や音声解説、オーディオコンテンツのトランスクリプト (書き起こし) といったものが挙げられますが、私自身のヒューリスティック評価経験でもこれらは (画像の代替テキストですら) 依然として徹底できていない印象です。

サイト設計や制作の工程で、またサイト公開後の運営において、代替コンテンツを提供することの重要性が十分に理解されていないからと言えますが、AI (人工知能) などの技術の進化によって代替コンテンツが自動的に提供されるようになれば、この状況は大きく改善されるかもしれません。

この記事では、非テキストコンテンツに対する代替コンテンツの自動提供について、現時点での技術動向を踏まえつつ、期待感を綴ってみたいと思います。

もっとも現時点では、きちんと人的リソースを割いて、地道に代替コンテンツを提供することが大切です。近い将来に自動提供が実現されることを見込んで今必要な作業を放棄してよい、という主旨ではありません。

画像の代替テキスト

画像に対する代替テキストの自動提供については、Facebook が面白い試みを実践しています。iOS VoiceOver をオンにして Facebook アプリを使用中、投稿された写真にフォーカスが当たると、その写真に含まれているものを AI が認識して内部的にテキストを生成する (その結果、スクリーンリーダーが音声で読み上げる) というものです。

Introducing Automatic Alt Text (by Facebook)

Facebook はとかく写真投稿が多くなりがちですが、一般の SNS ユーザーが写真を投稿する際、都度適切に代替テキストを入れるというのは、まず期待できないと言えるでしょう。その意味では、代替テキストの付加をシステムとして自動化しようという流れは、とても合理的だと思います。

また、Google も独自の機械学習モデルを活用した画像解析の技術を持っていて、Google Cloud Vision API として公開しています。これも応用次第では、画像に対する代替テキストの自動付与につなげることができそうです。

What is Cloud Vision API? (by Google)

現時点では、Facebook、Google いずれの技術も、画像に何が含まれているかを抽出するだけのようですが、AI がさらに高度化する中で、画像の周囲の状況 (たとえば、ウェブページの構成やレイアウト、前後のテキスト文面など) も同時解析しつつ、画像の意味をより文脈的に言語化できるようになれば、より一層実用的な代替テキスト提供になりそうな気がします。

動画コンテンツのキャプション (字幕) および音声解説

動画コンテンツに対するキャプション (字幕) については、かねてより YouTube が、機械学習アルゴリズムによる自動キャプション機能を提供しています。(参照 : 自動字幕起こし機能を使用する - YouTube ヘルプ)

YouTube の自動キャプションの例 : 75 new iOS 10 features / changes! (9to5Mac) より
YouTube の自動キャプションの例

現時点では、動画に含まれる発話内容が自動キャプション生成の対象になっていますが、AI の高度化によって声質や映像部分をも含めた解析が可能になれば、より正確に文脈を先読みした形で、精度の高いキャプション生成 (単に発話内容だけでなく、誰のセリフなのか、何の音なのか、といった付帯的な情報も含めて) が期待できそうです。

さらに言うと、映像の動きを解析して瞬時に言語化できるほどに AI が進化すれば、音声解説 (audio description) の自動提供にもつながりそうで、こちらも今後に期待したいと思います。

オーディオコンテンツのトランスクリプト

オーディオコンテンツの発話内容のトランスクリプト (書き起こし) は、ディクテーション技術 (音声情報をテキスト情報に変換する技術) によって自動化が期待できます。ディクテーション技術は、古くから「ドラゴンスピーチ」があったり、最近ではモバイルデバイス (iOS や Android) での音声入力もおなじみになってきており、既に実用的と言えそうです。最近ではトランスクリプトの自動生成に特化したサービスも出てきています (たとえば Trint など)。

そのうえで、こうして生成されたテキストを、トランスクリプトとしてウェブページ上に自動的に表示できるようになれば、さらにスマートと言えそうです。

たとえば Google から Google Cloud Speech API が公開されていますが、こうした API を応用することで、オーディオコンテンツの再生をテキスト化すると同時に、それをトランスクリプトとしてオーディオコンテンツに隣接する形でウェブページ上に出力 (表示) するといったことができるかもしれません。トランスクリプトというよりは字幕っぽいアピアランスになるかもしれませんが、それはそれで、かえって UI デザインとしては受け入れられそうな気もします。