半導体企業のNVIDIAが新たな音声生成AI「Fugatto」を発表しました。音楽や会話、環境音など様々な音声に対応しています。
ユーザーが説明できるものなら全て生成可能
Fugattoでは、テキストや音声を入力することで、音楽や会話、環境音など、様々な音声を生成することができます。テキストプロンプトに基づいて音楽を生成したり、入力した音楽から特定の楽器やサウンドを除去することも可能となっています。
NVIDIAは、「Fugattoはユーザーが説明できるものならなんでも生成できる」と述べており、動物の鳴き声から効果音、環境音、人間の会話など多様な音声を生成することができます。
人間の会話では感情を調整できるようになっているほか、話し声を徐々に大きくすることで、人が近づいてくるように聞こえるといった細かな表現も可能になっています。
Fugattoはインドやブラジル、中国、ヨルダン、韓国など、世界中から集まったメンバーにより開発され、発話も多言語に対応しています。
NVIDIAとは
NVIDIAは、米国に本社を置くテクノロジー企業で、主に半導体やグラフィックス処理ユニット(GPU)の開発と製造で知られています。1993年に設立され、現在ではAI、データセンター、自動運転車、ゲーミングなど、幅広い分野で活躍しています。
参照元:Now Hear This: World’s Most Flexible Sound Machine Debuts
FugattoはFoundational Generative Audio Transformer(基礎的生成音声変換)の略らしい。