クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発


株式会社クロスキャットは、AIで音声コンテンツを提供するサービスの開発を進めていることを発表しました。

クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発

引用元:AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発(特許出願中)

クロスキャット社の音声変換AI技術の特徴

本サービスでは、AIによって音源の分離(音源からBGMと人の声に分離)と音声変換を一括処理するため、効率的な音声コンテンツの生成を実現します。特許出願中のこの技術は、ユーザー自身の音声を学習し、ユーザーに似た音声を生成するため、流暢な音声変換による長文スピーチ対応も可能となります。

音声コンテンツ生成の現状

同社は、AIで音声変換により生成する方法は、「文字から音声を生成(=音声合成)」「音声から音声を生成(=音声変換)」の2つの方法があるとしています。

「文字から音声を生成」するAIは、いわゆる音声合成と呼ばれる方法ですが、音にツギハギ感が出たりイントネーションの違和感などを引き起こす可能性があり、不自然に聞こえることがあるとの懸念があります。

一方、現在開発中の「音声から音声を生成」する音声変換のAIは、元の音声のイントネーションやリズムを保持し、声質だけを変換することができるため、変換後の音声は滑らかで、より自然なものとなるとのことです。

クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発

クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発

引用元:AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発(特許出願中)

音声変換とは

音声変換とは、個別の音声データを学習して、その人特有の話し方を再現する技術です。通常のボイスチェンジャーと異なり、まだ話したことがないフレーズや風邪による鼻声まで忠実に再現が可能です。AIの進化により、音声解析に必要な情報が減り、少ない音声情報でも合成が可能となっています。今後、音声変換を活用して、情報をより豊かに伝えるための新しい音声コミュニケーション形態が生まれる可能性が期待されています。

参照/引用元:AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発(特許出願中)


AMI(エイミー)

クロスキャット...?社名が気になる...。

音声マーケティング最前線2023

【市場レポート】
音声マーケティング最前線2023/資料DL

無料で資料をダウンロード
このエントリーをはてなブックマークに追加

このエントリーをはてなブックマークに追加