HOYA

ホーム > VoiceText Lab

VoiceText Lab

VoiceTextが取り組んでいる新しい技術、音声合成にできる事をお見せするコーナーです。

DNN音声合成

最先端の機械学習技術「ディープラーニング」の導入により、全体的な品質が向上し、感情表現がより繊細で自然になりました。
また従来の技術では難しかった相槌・語尾・言い回しなどの細かいニュアンスの表現力が大幅に向上しました。
一般的にディープラーニングは高いマシンスペックを要求されますが、改良を重ね従来版と近いマシンスペックでの動作を可能にしました。

サンプル音声

歌声合成

歌声合成とは、テキストではなく、歌詞とメロディー(楽譜など)を入力することで歌声を合成する技術です。従来の一音一音を繋ぎ合わせる方式では無く、機械学習ベースの新しい方式により、滑らかで自然な歌声合成を実現しています。
VoiceTextの歌声合成では、楽譜のようなシンプルな入力で高いクオリティの歌声を合成することができます。
ビブラートやブレスといった歌唱表現なども声優の特徴を再現しており、これらの特徴も自動で反映されます。

歌声合成視聴

    • 曲1)MOVEMENT
      [Original Demo Song]
    • 曲2)桜咲く季節
      [Original Demo Song]
    • 歌詞とメロディーのみを入力しており、発音補正やピッチ・リズム・ビブラートなどの調整は一切行っておりません。
    • BGMと馴染ませるためのEQ・コンプレッサー・リバーブなどの一般的なエフェクトは使用しております。

感情音声

音声合成では、機械的な声、平板な読み方が当たり前、淡々と伝えるのに適し感情は持たせない。VoiceTextは、こんな"業界の常識"に挑戦しています。

感情音声試聴

ロンバード効果

ロンバード効果とは?

雑音の大きい環境では、人間は自然と声を張り上げ、聞き取りやすい声へ変化します。
この現象はロンバード効果と呼ばれています。

騒音下でも聞き取り易い音声

ロンバード効果をシミュレートすることで、音声合成でも聞き取りやすさに効果がでることが確認されています。(※1)

騒音環境下での評価実験でも、通常の音声合成モデルに比べ、最大1.6倍(※2)の了解度向上が確認されました。

(※1)参考文献
M. Cooke, C. Mayo, C. Valentini-Botinhao, Y. Stylianou, B. Sauert and Y. Tang, "Evaluating the intelligibility benefit of speech modifications in known noise conditions," Speech Communication, 55, 572-585, 2013.
C. Valentini-Botinhao, J. Yamagishi, S. King and Y. Stylianou, Combining perceptually-motivated spectral shaping with loudness and duration modification for intelligibility enhancement of HMM-based synthetic speech in noise," Proc. INTERSPEECH, 3567-3571, 2013.

(※2)当社調べ

製品に関するお問い合わせ
03-6479-7182 (法人専用)
受付時間 / 月~金:9:00~17:00