AI総合研究所として知られる東大発のベンチャーNABLASは、Googleが開発した最先端の音声生成モデル「SoundStorm」を基盤とした、日本語対応の超高速音声生成モデルを開発しました。
本モデルはデータから瞬時に日本語音声を生成することができます。同社独自の日本語データセットを用いてモデルの学習を行い、自然な日本語での音声生成を可能にしています。
Googleの音声生成モデル「SoundStorm」とは
SoundStormは、Google社が開発した最先端の音声生成モデルで、従来の技術に比べて飛躍的に性能が向上しているといいます。特に、TPU-v4を用いた環境では3秒程度のオリジナル音声から、わずか0.5秒でリアルな音声を生成できる点が特徴です。また、テキスト読み上げや対話システムなどへの応用も期待されている次世代モデルです。
SoundStormの基盤技術を日本語対応モデルに応用
NABLASはこのSoundStormの基盤技術を日本語対応モデルに応用し、数秒の処理で日本語の音声生成が可能なモデルを開発しました。このモデルは、発話者Aの音声データと発話内容を含む発話者Bの音声データを使用し、発話者Aの声で発話者Bの内容を生成するSpeech to Speech機能を備えています。
NABLASの日本語モデルの特徴
NABLASの新モデルは、日本語専用に設計され、同社が独自に処理した日本語データセットで学習されています。このデータセットには、騒音や背景音を除去した高品質な音声データが使用されており、より自然でクリアな日本語音声が生成されます。また、同社の開発したオーディオコーデックにより、SoundStormを上回る音声品質と類似度スコアが達成されています。
発話困難者支援からエンターテインメントまで幅広い活用が期待される
この技術は、以下のような応用分野での活用が期待されています。
- 発話困難者への支援: 発話に困難を抱える人々が、自身または任意の音声データを使用して発言したい内容を発話可能にすることで、コミュニケーションの障壁を低減できます。
- カスタマーサポート: 感情的な対応が求められる場面で、オペレーターの負担を軽減するために、感情を抑えた音声での対応が可能となります。
- エンターテインメント: SNSやメディア配信活動において、リアルタイムでの音声出力が可能になることで、コンテンツ制作の効率化や創作の幅が広がります。
さらなる音声生成技術の普及へ
NABLASは、日本語対応モデルの開発を皮切りに、音声変換、テキスト読み上げ、リアルタイム対話翻訳など、日本国内での音声生成技術の普及に向けた取り組みを進める模様です。同時に、生成技術の悪用防止や検出技術の開発にも力を入れていくと発表しています。
NABLASとは
NABLASは、東京大学発のAI技術ベンチャー企業です。最先端の人工知能や機械学習技術を用いて、企業のデジタルトランスフォーメーションを支援する製品やサービスを提供しています。特に音声合成、自然言語処理、データ解析分野でのソリューションが強みで、企業向けAI活用のためのコンサルティングや開発も手掛けています。
「SoundStorm(サウンドストーム)」ってめっちゃ強そうな名前。そういうポケモンの技がありそう。