SAPI4に対応したFire Vox
Fire Vox(Firefoxで音声読み上げ)で取り上げたことのある、Firefoxの音声読み上げ機能拡張「Fire Vox」ですが、従来はMicrosoft Speech APIのバージョン5(SAPI 5)に対応した日本語音声合成エンジンが必要でした。ところがFire Voxの最新バージョンでは、SAPI4に対応できるようになっています(2008年5月に公開版から、すでにSAPI4対応になっているようです)。
現行のSAPI5より古い(枯れた)Speech APIであるSAPI4ですが、SAPI5と異なり、無料で入手できるというメリットがあります。最新の(SAPI4に対応した)Fire Voxは、「T's開発室」さんのページからダウンロードできます。また同ページに、SAPI4の音声の入手方法が解説されています。
さっそくSAPI4対応版のFire Voxをインストールし、SAPI4の日本語音声合成エンジンとランタイムを組み込んでみました。Firefoxの「ツール」メニューにある「Fire Vox TTSの選択」で、SAPI4が選択できるようになっています。

使い方(音声読み上げの再生方法など)は、従来のSAPI5を使う場合と基本的に同じです。「ツール」メニューの「Fire Voxオプション」で開くプリファレンスダイアログに載っているショートカットキーを操作することで、読み上げを制御することができます(詳しくは、Fire Vox(Firefoxで音声読み上げ)の「Fire Voxの使用方法」をご参照ください)。1点難点なのが、SAPI5ではできた、音声の選択と読み上げ速度の調整ができないことです。(正確にいうと、音声の選択は可能です。Firefoxのアドレスバーに「about:config」と入れると、Firefoxのコンフィギュレーション情報がリスト表示されるのですが、その中の「firevox.SAPI4Voice」の値を手動で変えるることでできます。ちょっと敷居の高い、面倒な作業ではありますが...。)
また、実際に音声読み上げをやってみると、ちょくちょく「音飛び」が発生してしまいました。速度の速いパソコンを使っていると起こるそうなのですが、それほどハイエンドなマシンでなくても(昨今の平均的なスペックのPCでも)起こる現象なので、少しずつでも改善されることを期待したいと思います。
とはいえ、無料で入手できる日本語音声合成エンジンをFirefoxで使えるようになったのは、とても大きな前進ですね。Fire Voxの今後の発展を、今後も注目していきたいと思います。
いただいたコメント(14通)
コメントを投稿する
(投稿いただいたコメントは、当サイト管理者による承認後、公開させていただきます。なお、コメントの記入は、日本語でお願い致します。)
トラックバック
この記事に対するトラックバックURL: http://website-usability.info/cgi/mt/mt-tb.cgi/102


こんにちは。検索して、辿りつきました。
公式とは別に非公式版のアドオンがtakayanさんのサイトで公開されています。
それとは、別のお話なのですが、同じくtakayanさんのサイトで、
Aozoravoice2というソフトが公開されています。SAPI5.0用です。
これは文字通り、青空文庫を音声化しようというものです。
青空文庫では、ルビが振られています。Aozoravoice2は辞書機能付きルビ変換で
読みのみにし、それをmp3に変換しています。
|:ルビの付く文字列の始まりを特定する記号
(例)一番|獰悪《どうあく》な種族であった。獰悪な生き物は猫である。
↓
一番どうあくな種族であった。どうあくな生き物は猫である。
http://neu101.seesaa.net/article/105435238.html
http://neu101.seesaa.net/article/93639978.html
↑のコメントを参考に新しくAozoravoice2を作って下さいました。
http://www.forest.impress.co.jp/article/2009/04/27/okiniiri.html
こちらは、フリーのAquesTalkを用い、音声化しています。
但し、AquesTalkの仕様上の問題で読み上げのみで、苦肉の策でしおり対応となっています。
AquesTalkのフリー版にWAVE出力の機能はあるのですが、かなり時間が掛かり、
実用的ではありません。
a さん、コメントいただきまして、ありがとうございます。
「公式とは別に非公式版のアドオンがtakayanさんのサイトで公開されています。」とのことですが、これは、上記本文中でご紹介させていただいた「T's開発室」さんのことかなと思います(私自身、こちらのサイトを拝見して、勉強させていただきました)。
さて、青空文庫形式テキストの読み上げツールのご紹介、ありがとうございました(「青空文庫」自体は存じ上げていましたが、それに対応した読み上げツールが開発されていたことは、恥ずかしながら存じ上げませんでした)。
ルビの読み上げは、Webページにおいては、解決されてほしい課題だと思います。
(このあたりのお話については、よろしければ当サイトのコラム記事「固有名詞や専門用語、ブランド名の音声読み上げ」「Ruby要素は固有名詞の読み上げに寄与するか」をご参照いただけますと幸いです。)
http://website-usability.info/2008/02/entry_080207.html
http://website-usability.info/2008/08/entry_080811.html
「青空文庫」の場合、ルビを示す記述方法が確立していて、それにきちんと対応した「AozoraVoice」のような読み上げソフトが実現している、という点で、一般的なWebページの一歩先を行っているのかな、と感じました。
少し話がずれますが、「AozoraVoice」や「(フリーのAquesTalkを使った)青空ろーどく」は、単に音声読み上げをするのではなく、音声ファイル(mp3やwav)を生成してくれるのですね。Podcastで読める(聴ける)ようになると、また面白い展開が期待できそうですね。
よろしければまた、色々と教えてください。
AozoraVoice2は、WAVやmp3のみの生成です。
読み上げには対応していません。
小説を聞くのに1冊辺り、5時間から9時間ぐらい掛かりますので、
パソコンの前で聞くのは、大変だと私は思います。
(私はmp3プレイヤーに105円のスピーカーに繋いで聞いています。
http://blogs.dion.ne.jp/krusty/archives/1955142.html )
もし読み上げをしようとすれば、AozoraVoice2で辞書機能付きルビ変換
した(または、ルビ全削除した)テキストを生成できるので、
それを読み上げソフトで読ませてあげれば良いです。
フリーの普通の読み上げソフトは2種類あります。
読み上げとWAV(mp3)に対応したソフトです。
TextToWav (SAPI4.0と5.0対応)
http://smart-butler.com/download.html
Text To Wav 2 (SAPI4.0と5.0対応 AquesTalkも)
http://noah.ninja-web.net/soft/index.html
反対に、青空ろーどくはAquesTalkの仕様上の問題(時間が掛かる)の
理由で、読み上げのみに対応しています。WAV出力は実用に耐えないので
対応していません。それで、しおり対応となっています。
ちなみに、AquesTalkを使った読み上げとWAV出力に対応したソフトは、
SofTalkとText To Wav 2です。
SofTalk
http://cncc.hp.infoseek.co.jp/
Podcastの件ですが、著作件(特にSAPI5.0の方)の問題で、難しいと
思います。「電子かたりべ」というソフトがありますが、このQ&Aで
mp3に変換したものを公開してはいけないと書いてあったと思います。
音声エンジンに(ペンタックスの)MISAKIが使われています。
年3000円でレンタルするシステムになっています。
http://www.e-kataribe.com/portal
読み上げで小説用途だと、レジュームが効いた方が便利だと思うので
txrdが使えそうです。SAPI4.0用と5.0用がそれぞれあります。
WAVやMP3の出力に対応していませんが。
http://www.forest.impress.co.jp/article/2006/06/08/okiniiri.html
http://www.vector.co.jp/soft/win95/art/se378533.html
a さん、詳しい情報、ありがとうございます。とても勉強になります。
確かに、小説は一度に読み上げるには時間がかかるので、別途、音声ファイル化して、ユーザー自身のペースや好みの環境で適宜聴けるようにしておくほうが、理にかなっている(ユーザーのユースケースに適合している)と言えそうですね。
あるいはおっしゃるように、読み上げソフトに「レジューム」機能(途中で止めたときにどこまで読んだかを記憶してくれて、次に読む際には、続きから読み上げてくれるしくみ)があると便利(というかユーザビリティ上、必須)でしょうね。
(アクセシビリティから話が逸れますが)Podcastは著作権の問題で難しいとのこと、そのとおりだろうなと思います。小説自体の著作権もあるでしょうし、音声合成エンジンで出力できる「声」そのものにも、使用条件があるかもしれませんし(正直このあたりは勉強不足なのですが、有料配信か無料配信か、など諸条件によって縛りが複雑になっても不思議ではなさそうですね)。
青空ろーどくの件ですが、wavとか色々出力出来るようになったそうです。
試していないので、どんなものかは分かりませんが。
なので、処理時間も不明です。
(AquesTalkでwavの出力を試したのは、SofTalkです。約1年前に
試しました。もの凄く時間が掛かったんですが、改善されたのかな?)
いちおー、報告まで。
ちなみに、AozoraVoice2で小説2冊辺りの処理時間は、1時間弱です。
もちろん、パソコンスペックとテキストの文字数に依存しますが。
私の環境下(パソコン2台で試した感じ)では、1冊の処理時間と
時間差で2冊を処理した時間はそれ程大きくは変わりません。
(同時に2冊処理出来ないので、AozoraVoice2に1冊送って、すぐに
もう1冊送ります。同時に複数冊をAozoraVoice2に送ると、
確か1冊ずつ変換してくれたと思います。)
著作権に関しては、私も詳しくは無いのですが、歌詞に似ているなと
思っています。あれも、ネットで公開するのは著作権違反で出来ません。
但し、許可さえおりれば、公開出来るようになっています。
実際、JASRACの許可を受けて複数の歌詞公開サイトがあります。
a さん、コメントありがとうございます。
音声ファイル生成にかかる処理時間についての情報、興味深く読ませていただきました。元データがテキストなので、小説1冊分としてもさほどデータ量は多くないと思うのですが、それなりに時間を要するのですね。このサイトのテーマからは大きく外れるのですが、以前、音楽制作をしていたことがありまして、DAW(デジタルオーディオワークステーション)というアプリケーションを使って最終的に「2 mix」(いろんなパートの音をいわゆる「ステレオ」にまとめた状態)に落とし込む際に、PCスペックがボトルネックになることがあったことを、ふと思い出しました。(ぜんぜん関係ない話ですみません...。)
青空ろーどくを試してみました。結構速かったです。
音は悪いですが、1冊をmp3までで約10分程でした。
AquesTalkのフリー版でWAVE出力に時間が掛かると書きましたが、
ソフト制御の問題のようですね。ソフトによっては、処理速度が違うのは、
勉強になりました。それから、ルビ処理も結構細かく設定できるようで、
この点はAozoravoice2を上回る機能ですね。
後、Aozoravoice2の書き忘れですが、青空ろーどくを試してて
思い出したのですが、WAVの出力設定によっても時間が変わります。
22kHz,16bit,2ch (SAFT22kHz 16Bit stereo)で私はやっています。
SAPI5.0の入手について、詳しいサイトがあったので紹介しておきます。
SAPI5.0(5.1)の入手方法
http://mahoro-ba.net/e1048.html
Neospeech MIYUとSHOW(SAPI5.0) US$29.95
http://www.flamereader.com/purchase.html
購入している人は見掛けますが、購入される際は、自己責任でご購入下さい。
尚、ちょっと遊ぶ用途では、電子かたりべがあります。ユーザー登録が必要ですが、1ヶ月試用出来ます。
(詳細はまほろばの『SAPI5対応の日本語音声合成エンジンのインストール』をご覧下さい。)
a さん、SAPI5の入手方法についてご紹介いただき、ありがとうございました(「まほろば」さんのサイトは、ちょくちょく拝見していますが、とても解説が丁寧ですね)。
さて、様々な入手方法があるSAPI5ですが、いずれも有料というのが残念です。
晴眼者にとっては、最新のWeb閲覧環境(ブラウザ)は無料で入手できるのに、視覚障碍者ユーザーが優れた音声合成エンジン(SAPI5)を手に入れるためにはエクストラにお金がかかってしまう...。この「不公平感」が、そもそも「アクセシブル」ではないなあ、というのが、かねてからの私の問題意識です。
SAPI5.0で今までで分かっていた無料の分では、
ドキュメントトーカがあります。AquesTalkをSAPI5.0にしたものです。
但し、宣伝が入り、また、音も悪く使えたものではありません。
ですが、朗報です。
http://noah0.blog119.fc2.com/blog-category-2.html
http://dnasoft.bbs.fc2.com/
Text To Wav 2 の作者であるNoahさんのサイトで
SAPI5.0の無料の分『Galatea』が紹介されてました。
http://www.ar.media.kyoto-u.ac.jp/msnavi/speech/index.html
Julius for SAPI
libchasen.msi
SynTTS.msi
の3点をインストールして下さい。TextToWavでは、動かないようです。
Aozoravoice2やText to wav2で動く事はざっと確認しました。
注意点は英語(アルファベット)は読まないようです。
(今の所、調査不足で裏技があるかまでは、分かりません。)
音はAquesTalkより良く、男性、女性の声があります。
お暇な時のお試しあれ。
aさん、SAPI5に関する情報、ありがとうございました(御礼が遅くなってしまい、すみません)。
私の方でも、試してみたいと思います。うまく使用できたら、改めて当サイトのコラム記事に採り上げさせていただきたいと思います。
自分のHPのURLでググッたら、たまたま見つけたので、コメントさせて下さい。
”とても解説が丁寧ですね”なんて・・・ ありがとうございます。
私も、「SynTTS.msi」を使ってみたことがありますが、よく落ちる(^^;
でも、なんとか「Galatea Talk」を使えないかなという思いがあって
「使ってみようGalateaTalk」というソフトを作ってみました。
http://mahoro-ba.net/e1281.html
テキストファイルや、Word、Excel、PDFからテキストを抽出(Xdco2txt
を使っています)したり、Webページからテキストを取り込んだりして、
読み上げたり、WAVやMP3形式でファイルを作成できます。
だから、青空文庫にも、ある程度は使えるとおもいます。
プログラミングは素人なので、まだ、不具合があるかもしれませんが、
よろしかったら、使ってみて下さい。
マーチン@まほろば さん、コメントありがとうございます。
まほろばさんのサイトはちょくちょく拝見させていただき、とてもわかりやすい解説でとても役立っています(特に、NVDAの記事は、たいへん参考になりました)。
「使ってみようGalateaTalk」の情報、ありがとうございます。ぜひ、使ってみたいと思います。