映像に対する情報保障

Web コンテンツとして動画を用いる場合、その映像 (視覚によって伝わる情報) に対しては、アクセシビリティ上の配慮として「代替コンテンツ」または「音声トラック」「音声ガイド」を併せて用意することが求められます。

JIS X8341-3:2010 の規定を見ると、以下のように書かれています。

収録済みの映像しか含まないメディアは、次の事項を満たさなければならない。ただし、その映像がテキストの代替メディアであって、代替メディアであることが明確にラベル付けされている場合は除く。

b) 収録済みの映像しか含まない場合
時間の経過に伴って変化するメディアに対する代替コンテンツ又は音声トラックによって、収録済みの映像しか含まないコンテンツと等価な情報を提供している。

出典 : JIS X8341-3:2010「7.1.2.1 収録済みの音声しか含まないメディア及び収録済みの映像しか含まないメディアに関するする達成基準 (等級A)」 (一部抜粋)

筆者註 : 上記で言う「映像しか含まないメディア」とは、音声を含まない、映像のみの動画コンテンツのことを指します。また、「収録済みの」とは、あらかじめ制作された (ライブストリーミングではない) ものを指します。

同期したメディアに含まれている収録済みの映像コンテンツに対して、時間の経過に伴って変化するメディアに対する代替コンテンツ又は音声ガイドを提供しなければならない。ただし、その同期したメディアがテキストの代替メディアであって、代替メディアであることが明確にラベル付けされている場合は除く。

出典 : JIS X8341-3:2010「7.1.2.3 収録済みの映像コンテンツの代替コンテンツ又は音声ガイドに関する達成基準 (等級A)」

筆者註 : 上記で言う「同期したメディア」とは、映像と音声が同期して流れるメディア、という意味で、すなわち音声を伴った動画コンテンツのことを指します。

先の記事「音声を伴う動画にはキャプション (字幕) を付ける」で言及した「キャプション」が、主に聴覚障害者に対する視覚による情報保障だったのに対し、上記に引用した規定にある「代替コンテンツ」「音声トラック」「音声ガイド」は、主に視覚障害者に対する聴覚による情報保障になります。

このうち、「音声トラック」「音声ガイド」は、文字通り音声によるもの (つまり聴覚によって伝わる情報) なので、視覚障害者に対する情報保障としてイメージしやすいと思います。これに対し「代替コンテンツ」は漠然としていてイメージしにくいかもしれませんが、たとえば映像の内容をテキストで書き起こすことによって、スクリーンリーダーを介しての音声読み上げが可能になるので、これも聴覚による情報保障となり得るのです。

肝心な情報が映像でなくても伝わるか?を確認する

実際のところ、動画コンテンツ (映像) に対して、代替コンテンツ/音声トラック/音声ガイドを用意する必要性があるのか...については、視覚に依存できない状態をシミュレートして (たとえば目をつぶったり、画面を覆ってみたりして) 動画コンテンツを再生してみると、理解しやすいかなと思います。このとき、肝心な情報 (ユーザーが目的を達成するうえで必要不可欠な情報) が伝わらないのであれば、それを補完するために、聴覚で認識できる形での情報提供が必要になる、というわけです。

ただ、JIS X8341-3:2010 の達成基準のうち「等級A」を目指すのであれば、この「肝心な情報が伝わるか?」の検証は、動画コンテンツそのものだけでなく、その動画を取り巻く文脈上にあるコンテンツ (主にテキスト) も併せて見る、という形でよいようです。

上記に引用した JIS X8341-3:2010 のふたつの規定 (7.1.2.1 と 7.1.2.3) には注釈として、「ただし、(その動画コンテンツが) テキストの代替メディアであって、代替メディアであることが明確にラベル付けされている場合は除く」と書かれています。これはつまり、ユーザーが目的を達成するために必要な情報が基本的にテキストで提供されていて、映像はその代替、たとえば補足的な情報であったり、あればより魅力的に伝わるが無くても支障の無い情報 (nice-to-have) だったり...というものであれば (そしてその旨が、動画コンテンツのところで明示されているのであれば)、必ずしも代替コンテンツ/音声トラック/音声ガイドは必要ない、ということになります。

より厳密にアクセシブルにするためにはすべての動画に音声ガイドを付ける

ところで、上記に引用した「7.1.2.3 収録済みの映像コンテンツの代替コンテンツ又は音声ガイドに関する達成基準 (等級A)」をより厳しくした達成基準として、JIS X8341-3:2010 には、以下の規定があります。

同期したメディアに含まれているすべての収録済みの映像コンテンツに対して、音声ガイドを提供しなければならない。

出典 : JIS X8341-3:2010「7.1.2.5 収録済みの映像コンテンツの音声ガイドに関する達成基準 (等級AA)」

前景音が、映像と同等の意味を伝達する音声ガイドを挿入するための十分な長さの (会話及びナレーションの) 合間を含まない場合、同期したメディアに含まれているすべての収録済みの映像コンテンツに対して、拡張した音声ガイドを提供しなければならない。

出典 : JIS X8341-3:2010「7.1.2.7 収録済みの映像コンテンツの拡張した音声ガイドに関する達成基準 (等級AAA)」

これを読むと、JIS X8341-3:2010 の達成基準のうち「等級AA」以上を目指すのであれば、「テキストの代替メディアであるか否か」を問わず、すべての動画コンテンツ (映像) には、音声ガイドを付けなければならない、ということになります。

ある程度アクセシビリティを担保しつつ動画コンテンツを作る

現実問題として、すべての動画コンテンツ (映像) に対して音声ガイドを作る、というのは、かなりハードルの高い要求だと思います (技術的にというよりはむしろ、人的リソースやコストの面で難しかったりするのではないでしょうか)。

その一方で、動画コンテンツには、テキストコンテンツや音声のみのコンテンツには無い、動画ならではの利点があります。動画を通じてユーザーにより魅力的に/エモーショナルに情報を伝えたいという意図があるのであれば、現実的な (かつ、ある程度アクセシビリティを担保する) 方策を採りつつ、積極的に動画コンテンツを作るのがよいと考えます。その際、まずは以下を意識してみるとよいかもしれません。

  • 基本的には、コンテンツはテキストで用意する。
  • 無くてもユーザーは困らないが、nice-to-have な情報伝達媒体として、よりエモーショナルにユーザーに訴えかける目的で、動画を用いる。
  • 動画 (映像) に重要な情報が含まれる (それを理解できないとユーザーの目的達成に支障が出る) 場合は、映像内容に相当するテキストを併せて用意する (映像の代替コンテンツとして)。