株式会社クロスキャットは、AIで音声コンテンツを提供するサービスの開発を進めていることを発表しました。
クロスキャット社の音声変換AI技術の特徴
本サービスでは、AIによって音源の分離(音源からBGMと人の声に分離)と音声変換を一括処理するため、効率的な音声コンテンツの生成を実現します。特許出願中のこの技術は、ユーザー自身の音声を学習し、ユーザーに似た音声を生成するため、流暢な音声変換による長文スピーチ対応も可能となります。
音声コンテンツ生成の現状
同社は、AIで音声変換により生成する方法は、「文字から音声を生成(=音声合成)」「音声から音声を生成(=音声変換)」の2つの方法があるとしています。
「文字から音声を生成」するAIは、いわゆる音声合成と呼ばれる方法ですが、音にツギハギ感が出たりイントネーションの違和感などを引き起こす可能性があり、不自然に聞こえることがあるとの懸念があります。
一方、現在開発中の「音声から音声を生成」する音声変換のAIは、元の音声のイントネーションやリズムを保持し、声質だけを変換することができるため、変換後の音声は滑らかで、より自然なものとなるとのことです。
音声変換とは
音声変換とは、個別の音声データを学習して、その人特有の話し方を再現する技術です。通常のボイスチェンジャーと異なり、まだ話したことがないフレーズや風邪による鼻声まで忠実に再現が可能です。AIの進化により、音声解析に必要な情報が減り、少ない音声情報でも合成が可能となっています。今後、音声変換を活用して、情報をより豊かに伝えるための新しい音声コミュニケーション形態が生まれる可能性が期待されています。
参照/引用元:AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発(特許出願中)
クロスキャット...?社名が気になる...。