OpenAIは、音声合成ソリューションモデル「Voice Engine」について、現時点のプレビュー結果と初期に得られた知見を公表しました。
OpenAIの「Voice Engine」とは
Voice Engineは、テキスト入力と15秒の音声サンプルから自然な音声を生成することができます。たった15秒の音声サンプルから、感情的でリアルな音声を生成することができることで注目を集めました。
一般公開はされておらず、パートナー企業とともに検証作業を行っている
しかし、この技術を広く展開するには様々な課題があると考えられています。現在は政府、メディア、エンターテイメント、教育などの分野における米国内外のパートナーと協力し、そのフィードバックを確実に取り入れながら、検証作業を行っています。
様々な分野で「Voice Engine」のテストを開始
Voice Engineの初期用途は、多岐にわたります。例えば、教育テクノロジー企業のエイジ・オブ・ラーニングは、合成音声を活用して読書支援を提供し、学習を促進しています。また、ビデオやポッドキャストの翻訳により、クリエイターや企業は世界中の視聴者に対して流暢な音声でコンテンツを届けることが可能になります。
さらに、Voice Engineは医療分野でも利用法が模索されています。ライフスパンのノーマン・プリンス神経科学研究所では、腫瘍学的または神経学的な病因による言語障害を持つ患者に対して、Voice Engineを試験的に実施しており、声の回復をサポートする取り組みも行われています。
安全面・倫理面の整備も
合成音声技術の安全性と倫理的な側面は重要な懸念事項とされています。OpenAIは、政府や様々な分野のパートナーと協力し、Voice Engineの安全性を確保するための措置を講じています。その中には、音声の使用に関する明確な同意と、生成された音声の出所の追跡などが含まれています。
音声合成の更なる進化に注目が集まる
OpenAIのプレビューは、様々な分野で幅広くテストが実施され、多くのフィードバックが寄せられていることが明らかになりました。音声合成を取り入れ、人の温かみを感じる要素を音声に組み込むだけで、さらなる活用が進んでいくでしょう。今後の音声合成の更なる進化に、引き続き注目です。
音声合成とは
音声合成は、テキストやデータをコンピューターが自然な音声に変換する技術です。コンピューターはテキスト情報を解析し、それを音声データに変換して再生します。この技術は、既に音声アシスタント、ナビゲーションシステム、読み上げソフトウェアなど、さまざまな分野で利用されています。
引用/参照元:Navigating the Challenges and Opportunities of Synthetic Voices
バ美肉(バーチャル美少女受肉)って言葉を編み出したやつは、天才かよほどのアホかどちらかだと思うね。