動画のクローズドキャプションの作りかた (YouTube の場合)

先の記事「音声を伴う動画にはキャプション (字幕) を付ける」で、Web コンテンツとして動画 (音声を伴うもの) を用いる場合、アクセシビリティ上の配慮としてキャプション (字幕) を付けることが求められると書きました。キャプションにはふたつの種類がありますが (オープンキャプションとクローズドキャプション)、今回は、クローズドキャプションの作成方法について、YouTube を例に、ご紹介しようと思います。

YouTube のクローズドキャプション機能

YouTube には、クローズドキャプションを表示する機能が標準で用意されており、動画制作者がキャプションを容易に付加できるようになっています。

YouTube 動画にクローズドキャプションを付加した例 (画面キャプチャ)
クローズドキャプションを付加した YouTube 動画

実際の動画を以下に貼り付けたので、再生しながらご覧いただくと、より具体的に体感いただけると思います。

YouTube 動画にクローズドキャプションを付加した例

クローズドキャプションの基本的な作りかた

クローズドキャプションは、動画とは別に、テキストファイルとして作成します。基本的には、字幕の表示タイミング (タイムコード) と文面を、時系列に記述するだけです。上でご紹介した動画では、下記のようにクローズドキャプションを記述しています (.sbv ファイル)。

0:00:00.160,0:00:01.000
[スイッチを入れる]

0:00:01.000,0:00:04.560
(クマの声) ハーイ、赤ちゃん。「いないいないばあ」はとっても楽しいよ。

0:00:06.260,0:00:08.000
あれ?どこに行ったの?

0:00:08.000,0:00:10.200
いないいないばあ!見つけた!

0:00:15.980,0:00:17.000
やあ、かわいいね!

0:00:20.740,0:00:22.340
ぼくはどこかな?

0:00:23.340,0:00:24.540
ここだよ!

0:00:27.880,0:00:29.500
どこ行ったの〜?

0:00:30.080,0:00:32.040
いないいないばあ!見つけた!

0:00:35.460,0:00:38.460
もっともっと、もーっと、遊ぼうよ!

このテキストファイルを、YouTube にアップロードしておくと、動画再生に同期して順次字幕が表示される、という仕組みになります。

具体的により詳しくは、YouTube のヘルプ「スタート ガイド: 字幕と文字起こし」をご参照ください。

クローズドキャプション作成支援ツール

クローズドキャプション用のテキストファイルは、自分で作らなければなりませんが、テキストエディタで必要な情報を手入力するのは難しい...という方もいるでしょう。

CaptionTube のように、動画再生やタイムラインをモニターしながら、順次、時間や字幕テキストをフォームに入力してゆけば、キャプションファイルを生成してくれる...という便利な作成支援ツールもあります。

クローズドキャプション作成支援ツール「CaptionTube」の画面例
「CaptionTube」の画面例

キャプション自動同期機能

なお、Youtubeでは、「キャプション自動同期機能」も用意されています。タイムコードを含まない (字幕文面のみを記述した) テキストファイルを YouTube にアップロードすると、あとは YouTube 側のシステムが自動的に処理してくれて、動画再生に同期したクローズドキャプションを付加してくれる、というものです。

実際に試してみましたが、生成されたクローズドキャプションを見ると、元のテキストファイルに記述していた括弧、句読点、エクスクラメーション、クエスチョンマークがごっそり消えてしまっていました (要は、音声として聞こえる文字以外は、自動的に削除された状態です)。また、タイムコードの埋め込み精度が高くなく、字幕の表示タイミングが結構ずれていました。

この自動同期機能、クローズドキャプションを付加する取っ掛かりとしては、とても敷居が低くて素晴らしい機能だと思うので (なにせ字幕文面だけをテキストファイルで用意すればよいのですから)、記号の扱いも含めて、処理精度が上がってゆくことを期待したいところです。

自動キャプション機能

クローズドキャプションを付加する敷居をさらに下げる試みとして、YouTube では「自動キャプション機能」も用意されています (技術の進化ってスゴイですね...)。

動画によっては未対応だったりしますし、また処理精度もいまひとつという現状ですが、もしこれが実用的になれば、キャプションをゼロから書き起こす必要がなく、とりあえず音声認識でキャプションを自動生成しておき、そのあと、文面やタイミングを微調整する...といったワークフローになることが期待できそうです。

キャプションを書き起こす作業というのは、正直、労力がかかるものです。「あらゆる動画にキャプションが付いているのは当たり前」となるためにも、この自動キャプション機能は、ぜひとも実用的になってほしいなと思います。