天気予報

20

12

みん経トピックス

特集

インタビュー2010-06-04

東芝 ToSpeakに見る最新音声合成事情(前編)

ボーカロイド「初音ミク」をはじめとする音声合成システムが盛り上がりを見せる中、東芝が同社の音声合成エンジン「ToSpeak(トゥースピーク)」の体験サイト「Studio ToSpeak」を開設。ここでは、好みの文章を入力し合成ボタンをクリックするだけで、さまざまな声質・口調の合成音声を無料で生成。作成した合成音声をダウンロードして楽しむことができる取り組みを実施している。実際に試してみたところ、これが、なかなかどうしてクオリティーが高い。アキバ経済新聞ではますます進化する音声合成技術と「Studio ToSpeak」について、東芝 研究開発センター 知識メディアラボラトリー・平林剛さんと同社広告部・荒井孝文さんに話を聞いた。(以下、敬称略)

知らずに触れてる音声合成技術

-本日はお時間いただきありがとうございます。早速ですが、お2人の自己紹介をお願いします。まず平林さんから。

安藤さん 平林 東芝の研究開発センターで、10年以上音声合成技術を担当しています。これまでは組み込み機器向けが多かったのですが、最近は「それだけではダメだろう」とウェブサービス向けの音声合成技術の開発を担当しています。東芝は音声合成技術を25年以上も手掛けており、これまでの製品化事例としては、電話機から電子辞書向けミドルウェア,PCソフトやWiiなどのゲーム向けなどいろいろありますが、現時点で一番多いのはカーナビなど車載機器向けが上げられます。東芝はカーナビを作っておらず、他社のカーナビシステムの中にミドルウェアとして提供しているので、実はあまり知られていないかもしれませんが、国内のカーナビ向け日本語音声合成ミドルウェアとしてはトップシェアです。(苦笑)

-僕ら知らない間に東芝の音声合成技術に触れているんですね(笑)。では、次に荒井さんお願いします。

安藤さん 荒井 僕は、東芝のいろいろな部門を経験して、3年ほど前に広告部へ異動、最近は、ウェブを中心に、「ユーザーが体験できるようなプロモーション」を意識して、日々企画を考えています。今年1月に、この「Studio ToSpeak」が公開されたときに、実は、社内でも公開されるまで知らなかったんですが、試しにやってみたらものすごく精度が高い。音声合成のイメージからして「いかにも合成音的なレベルじゃないの?」と思っていたんですが、きちんと読み上げてくれる。それで、「スタジオで声を収録して使うというような仕組みの代わりにだって使えるんじゃないか?」「広告キャンペーンにも使えるんじゃないか?」とか、色々試してみたくなり、すぐに平林さんのチームに連絡を取り、研究開発センターと共に次の展開を狙っていると言う現状です。

組み込み向けからの脱却-「安定感」「省メモリ」その道25年は伊達じゃない

-ありがとうございます。では、次に、今、荒井様のお話にも上がりましたが、この「Studio ToSpeak」についてお聞かせください。

安藤さん 平林 開発の経緯から話しますと、昨今、合成音の質がかなり上がり、初音ミクを含む音声合成技術を使った新しい商品や市場が出始めているという状況で、今までナレーターの声を収録・編集して作成していた音声コンテンツを「音声合成でやりたい」というクライアントからの声が非常に多くなってきたんです。また、ネットワークインフラの発展やスマートフォンなどのネットワーク端末が出てきたことで、カーナビなど組み込み機器の機能が、なんとなくネットワークの向こうで、サーバー上でやれるという流れの中、社内でも「わざわざ組み込まなくてもいいんじゃないか」、「我々は本当に組み込み向けだけやっていていいのか?」という懸念もありました。そこで、さまざまな用途にいち早く低コストで対応できるよう、音声合成のサービス事業の展開検討をスタートしました。もちろん、東芝の音声合成技術は組み込み向けミドルウェアでは高い実績があるのに、一般的には知名度がゼロに近いということが悔しかったので、「もっと多くの人に我々の技術を知ってもらいたい」みたいな意識もありました(笑)

-なるほど。

平林 しかし、実際に検討を始めてみると、これまで組み込み向け中心にやってきたこともあり、いざ非組み込み向けサービスを考えたときに、何をやればいいのかがわかりませんでした。色々考えた結果、まずは、当社の音声合成技術のアピールとユーザーからの意見や要望を収集することを目的にして、サイト「Studio ToSpeak」を立ち上げて、実験的にサービスを無料で始めた感じです。

-僕らの世代は音声合成というとPC-6001mkIIなどのイメージが強いですが、あれからどのように進化しているのでしょうか?

平林 そこを話し始めると1時間以上かかってしまうんですが(笑)、もうあの時代とは全く別物ですよ。当時と比べれば、声質もロボットっぽくないと思いますし、人間により近づいた自然な合成音を提供できていると思います。あと、当社では今までハードウェアの制約が厳しい組み込み機器向けをターゲットにしていたことから、処理量やメモリ量が非常に小さくてすむというのが大きな特徴でもあります。世の中で既に公開されている音声合成エンジンには、デモ音声ではすごく自然性が高いけれど、実際にいろいろと喋らせてみるとバラつきが大きくて使いづらいというものも見受けられますが、カーナビ向けミドルウェアなどの企業向けビジネスで培った技術により、高品質な合成音を安定してご提供できるようになりました。

■「実はなんでもできるんです(笑)」-Studio ToSpeak

-なるほど。これまでは、企業からの要望があったので業務に耐えうる「安定感」に磨きをかけてきたんですね。そんな中、この「Studio ToSpeak」が公開されましたが、公開後、一般ユーザーからのフィードバックはどんな感じだったんですか?

平林 我々は「いかに正確なものを安定して提供するか」という東芝っぽい(笑)、カーナビなどのある意味とても真面目な用途向けだったので当たり前かもですが、非常に堅い考えだったんですね。それで一般公開してみたら、我々の今までの視点にはないような、「変な声がでるから面白い」「読み間違うからかわいい」とか、ユーザーから新しい視点でのフィードバックも数多くいただきました(笑)。ですので、最近では、エンターテインメント向けサービスとして考えると、「多少変な声でも良いんじゃないか」「人間っぽいだけが合成音声じゃないだろう」というような考えも出てきたりしています。

-ユーザーさんが投稿したもののなかにはスゴイ凝ったものもあるみたいですが、機能としては、ぱっと見シンプルですがカスタマイズできたり、タグを打ち込んだりすると、かなり色んな声が出せるんですよね。

安藤さん 平林 「読み調整モード」や「タグの差し込み」など、合成音を細かく調整できる機能もオープンにしてあります。入力文字数制限も1,000文字としていますが、「無料で1,000文字もOKにするのはどうかと思う」とか、作成した合成音をダウンロードできるようにしているため、「本当にダウンロードさせちゃっていいのか?」とか社内でもさまざまな意見がありましたが、我々としては、実際に使ってもらわないと本当にユーザーが快適に使えるかどうかわからないですし、そもそも様々な機能をオープンにしたからといって使ってくれるとは限らないので、まずは「使ってもらえるものなのかどうか?」ということを確かめたくて思い切って公開しました。そのため、いろいろ試してみてくれるユーザーが増えるとすごく嬉しいですね。知らない方は「こんにちわ」などとちょっと入力してみて終わりになってしまいますが、実はなんでもできてしまう…という(笑)。がんばって凝った合成音を自作して、ダウンロードしたものを携帯の着信音や目覚まし、オリジナル動画のナレーションなどに利用しているユーザーさんもいたりして嬉しい限りです。

-エッチなワードもNGにしてないとか?(笑)

平林 入力できますよ。「Studio ToSpeak」では特にNGワードを設定していないので、ユーザーさんの責任においてどんな単語でも入力可能です。我々はその分野で本当に使いたいユーザーがいて、ニーズがあるのならば、そこに適した音質や話し方を提供するのもアリじゃないかと思っています。東芝としてできるかどうかは別ですが(笑)。データを鑑みても、夜中になるとピンク色が強くなりますし(笑)。ただ、全体的に思っていたより皆さん真面目な入力が多いですね。

-現状のユーザーはどんな層ですか?

平林 そのデータは、公開しづらい部分でもありますが、思ったよりも年齢は高めでしたね。「Studio ToSpeak」の存在自体があまり知られていないため、認知してくれている層が限られてしまっていることもあり、現在のメインは、インターネットをヘビーに使っている方や、理系の方、動画投稿・共有サイトのヘビーユーザーなどですね。本当は、今後の可能性として、女子中高生など若い人にもリーチしてみたいんです。たぶん、我々の頭では考えられない楽しい使い方が生まれるんじゃないかなと思いますし。

-「Studio ToSpeak」本体と、プロモーションサイトとしてYouTubeに開設している「ぱらちゃん神話」、ユーザー層は異なりますか?


安藤さん荒井 全然ちがいますね。エロ度・ふざけ度も含めて(笑)。やっぱり「Studio ToSpeak」はtoshiba.co.jpの研究開発センターの下に入っていますから、技術を探すためにサイトに訪れているユーザーと、普通にYouTubeを閲覧しながら面白い動画を探しているユーザーでは異なりますしね。さらに、従来のYouTube東芝ノートPCチャンネルでバイラルムービーを見てもらうだけの場合、ユーザー層は30代が多かったんですが、今回の音声合成によるアニメジェネレーターは、10代・20代からの反応が大きいです。

-なるほど、ところで、開発するのに苦労した点とかはありますか?

平林 今まで、直接研究所から技術を外に出すことは学会発表など以外では慣例がほとんどなかったこともあり、最新の技術を一般公開するにあたっては色々と障壁がありました。そのため、一番苦労したのは実は社内調整だったりします。やりたいからやってしまいましたが…(笑)。あと、サイトデザインについても悩みましたね。今回、老若男女、幅広いユーザーをターゲットに据えているため、あまりオタク色を強く出しすぎるのもどうかと思いましたし、かといって業務的なものでは面白くないし…と。そのような経緯があり、結局、今のようなデザインになっていますが、これはこれで、どっちつかずというか…(苦笑)。

1 2 次のページへ

グローバルフォトニュース

最新ニュース

フォトフラッシュ

秋葉原に3月23日、ハンバーグダイニング「issa」がオープンした。店内には、前身の豆乳カフェ営業時に活躍していたゆるキャラ「ちょうせい豆乳くん」の姿も
[拡大写真]

アクセスランキング