動画コンテンツに対する「音声ガイド」

公開日 : 2014年1月19日 (2020年8月30日更新)
カテゴリー : アクセシビリティ

Web アクセシビリティの一環として、動画コンテンツに対して「音声ガイド」を付加する、というものがあります。

「音声ガイド」とは、映像内容 (視覚情報) を、音声 (言葉) によって補足説明するもの、と言えばわかるでしょうか。テレビドラマなどで、主音声 (セリフ、効果音、ナレーションなど) とは別に、副音声で脚本の「ト書き」のような音声を聞けることがありますが、これがまさに、音声ガイドの典型例と言えるでしょう。主に視覚障害者に対する情報保障として用意されるもので、英語では「audio description」と言います。

今回の記事では、この「音声ガイド」について、考えてみたいと思います。

音声ガイドは達成等級レベル「AA」で求められる。

動画コンテンツの、視覚障害者向けの情報保障としては、スタティックな (静的な) Web ページにテキストを書き起こす「トランスクリプト」という手法もあります。JIS X8341-3:2010 (WCAG 2.0) には、下記の達成基準があります (下記に引用した中の「時間の経過にともなって変化するメディアに対する代替コンテンツ」の具体例が、トランスクリプトになります)。

同期したメディアに含まれている収録済みの映像コンテンツに対して、時間の経過にともなって変化するメディアに対する代替コンテンツ又は音声ガイドを提供しなければならない。ただし、その同期したメディアがテキストの代替メディアであって、代替メディアであることが明確にラベル付けされている場合は除く。

出典 : JIS-X8341-3:2010「7.1.2.3 収録済みの映像コンテンツの代替コンテンツ又は音声ガイドに関する達成基準 (等級A)」

トランスクリプトはテキストコンテンツなので、スクリーンリーダーを用いて音声で読み上げることができます。その意味では、視覚障害者にとってある程度の情報保障にはなりますが、実際に動画を再生しながら楽しむことは難しいと言えます。動画コンテンツの持つ空気感、臨場感、なども含めて (たとえ映像は見えなくても、主音声トラックを聞きながら) 楽しみたい、となると、音声ガイドが提供されているほうがベターでしょう。

ただ、音声ガイドを提供することは、トランスクリプトよりも難易度が高く、JIS X8341-3:2010 (WCAG 2.0) では達成基準等級「AA」となっています。

同期したメディアに含まれているすべての収録済みの映像コンテンツに対して、音声ガイドを提供しなければならない。

出典 : JIS-X8341-3:2010「7.1.2.5 収録済みの映像コンテンツの音声ガイドに関する達成基準 (等級AA)」

公的機関や大手企業サイトを中心に、リニューアルなどを機に JIS-X8341-3:2010 (WCAG 2.0) の等級「AA」達成を宣言をするサイトが増えてきています。それ自体はウェルカムなことですが、本当に「AA」を満たそうとすると、音声ガイドを提供することは基本的に避けて通れない必須要件、ということになります。

もっとも、「Understanding WCAG 2.0 (WCAG 2.0 解説書)」の「収録済の映像コンテンツの音声ガイド : 達成基準 1.2.5 を理解する」によると、「注記1 : 達成基準 1.2.3、1.2.5、及び 1.2.7 では、映像トラックにある情報のすべてが音声トラックですでに提供されている場合には、音声ガイドを必要としない」という註釈があるので、音声ガイドを付加しなくても (主音声だけでも) 十分に内容が伝わる、というものであれば、音声ガイドを別途用意しなくてもよしとされるようです。
また、法制面から達成基準等級「AA」を求める国がいくつかありますが、オーストラリアやカナダ (オンタリオ州) のように、WCAG 2.0 の達成基準1.2.5は例外事項として免除されるケースもあります。

音声ガイドはどう提供すればよいのか？

実際問題として、音声ガイドはどのようにして提供すればよいのでしょうか。動画共有サービス (YouTube など) を利用して動画を Web ページに埋め込む場合と、HTML5 の <video> 要素を用いる場合について、それぞれ考えてみましょう。

動画共有サービス (YouTube など) を利用する場合

Web ページへの動画コンテンツの埋め込み手段として、YouTube や Vimeo のような動画共有サービスを利用するケースは少なくありません。動画配信インフラとしては安価 (無料でも利用可) ですし、動画コンテンツそのもののシェア (拡散) もされやすそう、というメリットがあるからです。

ところが、この手の動画共有サービスには、現時点では音声ガイドを付加する機能がありません。現実的には、以下のようにして音声ガイド付き動画コンテンツをユーザーに提供する、くらいしかできなさそうです (あまりスマートではありませんが...)。

同一内容の動画コンテンツについて、「音声ガイドあり」「音声ガイドなし」のふたつのバージョンを作り、動画共有サービスで公開する。
「音声ガイドなし」バージョンの動画を、自サイトに埋め込む。
埋め込んだ動画の傍らにリンクを設ける。クリック/タップすると、動画共有サービスのサイト上にある「音声ガイドあり」バージョンが開く。

HTML5 の <video> 要素を用いる場合

最近では HTML5 によるサイト構築も珍しくなくなっています。HTML5 では、<video> 要素を用いることによって、動画コンテンツを Web ページに埋め込むことができます。その際、音声ガイドを付加することは可能なのでしょうか。いくつか、手法はあるようです。

<audio> 要素で音声ガイドを提供し、<video> 要素の動画と同期再生させる。

<video> 要素で動画コンテンツを用意し、それとは別に、<audio> 要素で音声ガイドを用意します。そのうえで、JavaScript を使って動画コンテンツど音声ガイドを同期再生させる、というものです。

詳しくは、英語の記事ですが「Accessible Audio Descriptions for HTML5 Video (SitePoint)」をご参照ください。具体的なデモもご覧いただくことができます。(ただし、私の環境で試したところ、iPhone や iPad では、音声ガイドを再生できないようです。)

<video> 要素内に、<track kind="descriptions"> を記述する。

<video> 要素内に、<track> 要素を記述することで、動画とは別に用意したテキストファイル (WebVTT形式) を同時に読み込み、動画再生に同期させることができます。ソースコードは下記のように書きます。

<video controls poster="peekaboo_thumbnail.png">

<source src="peekaboo.mp4" type="video/mp4" />
<source src="peekaboo.webm" type="video/webm" />
<source src="peekaboo.ogv" type="video/ogg" />

<track kind="captions" srclang="ja" label="日本語キャプション" src="peekaboo_caption.vtt" />

<track kind="descriptions" srclang="ja" label="日本語音声ガイド" src="peekaboo_audio_descriptions.vtt" />

</video>

<track> 要素は、様々な用途に使うことができます (kind 属性値として、subtitles、captions、descriptions、chapters、metadata を指定することができます) が、音声ガイドを提供する場合は、「descriptions」をkind 属性値として指定することになります。上記のソースコード例で言うと、<track kind="descriptions"> が指し示している「peekaboo_audio_descriptions.vtt」というファイル (WebVTT 形式で記述されたテキストファイル) の中に、音声ガイドの発話タイミング (タイムコード) と文面が時系列に記述されているとして、それをスクリーンリーダーが (動画再生に合わせて) 音声で読み上げる、という仕組みです。

ただし、W3C の WCAG ワーキンググループが発信している情報「Using the track element to provide audio descriptions」によると、2014年1月現在で、この <track kind="descriptions"> をサポートしているブラウザは、存在していないそうです。Google Chrome の場合、拡張機能「HTML5 Audio Description」をインストールすると、ChromeVox による音声ガイドの読み上げが可能になるようなのですが、私自身の環境で試したところ、うまくいきませんでした。

今後に期待...

音声ガイドを作る作業はとても手間がかかるものなので (話者の手配、録音、編集、など...)、実際に提供するとなると、工数/コストの面でかなり敷居が高いと言えます。その意味では、HTML5 の <track kind="descriptions"> のような、テキストファイルさえ用意しておけばスクリーンリーダーが動画再生と同期して音声ガイドを読み上げてくれる...という仕組みが実現/普及することを、今後、大いに期待したいところです。

願わくば、この流れが YouTube や Vimeo といったメジャーな動画共有サービスにも波及して、「テキストを供給すれば音声ガイドを付加できる」機能が追加されたらいいな、と思います。両者ともアクセシビリティには前向きに取り組んでいて、実際、クローズドキャプション (聴覚障害者向けの情報保障としての字幕表示) はサポートしているので、同様に音声ガイドのサポートにも期待したいと思います。

前の記事
アクセシビリティ達成基準レベル「AA」について考える

次の記事
ブラウザ標準スクロールバーを意図的に隠すことについて