クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発

2023.11.09

Marika Kawano

株式会社クロスキャットは、AIで音声コンテンツを提供するサービスの開発を進めていることを発表しました。

引用元：AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発（特許出願中）

クロスキャット社の音声変換AI技術の特徴

本サービスでは、AIによって音源の分離（音源からBGMと人の声に分離）と音声変換を一括処理するため、効率的な音声コンテンツの生成を実現します。特許出願中のこの技術は、ユーザー自身の音声を学習し、ユーザーに似た音声を生成するため、流暢な音声変換による長文スピーチ対応も可能となります。

音声コンテンツ生成の現状

同社は、AIで音声変換により生成する方法は、「文字から音声を生成（=音声合成）」「音声から音声を生成（=音声変換）」の2つの方法があるとしています。

「文字から音声を生成」するAIは、いわゆる音声合成と呼ばれる方法ですが、音にツギハギ感が出たりイントネーションの違和感などを引き起こす可能性があり、不自然に聞こえることがあるとの懸念があります。

一方、現在開発中の「音声から音声を生成」する音声変換のAIは、元の音声のイントネーションやリズムを保持し、声質だけを変換することができるため、変換後の音声は滑らかで、より自然なものとなるとのことです。

クロスキャット、音声分離と音声変換が可能な「音声変換AI技術」を開発

引用元：AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発（特許出願中）

音声変換とは

音声変換とは、個別の音声データを学習して、その人特有の話し方を再現する技術です。通常のボイスチェンジャーと異なり、まだ話したことがないフレーズや風邪による鼻声まで忠実に再現が可能です。AIの進化により、音声解析に必要な情報が減り、少ない音声情報でも合成が可能となっています。今後、音声変換を活用して、情報をより豊かに伝えるための新しい音声コミュニケーション形態が生まれる可能性が期待されています。

参照/引用元：AIにより音源分離と音声変換を一括処理する「音声コンテンツ生成システム」開発（特許出願中）