音声AI企業のAudioShakeが、重なった音声を個別に分離するAIモデル「Multi-Speaker」を発表しました。

引用元:AudioShake Launches Breakthrough AI Model to Separate Overlapping Voices in Audio
文字起こしの精度向上などに活用
「Multi-Speaker」では、音声がどれだけ重なっていても、それぞれの話者を特定して個別の音声に分離することができます。
複数人での会話やパネルディスカッションなど、複雑な音声環境でも個々の話者を区別できるようになり、文字起こしや字幕作成の精度向上のほか、映画の吹き替え、ローカリゼーションの速度向上、別の音声AIタスクのための音声の分離が可能となります。
AudioShakeのCEOであるジェシカ・パウエル氏は以下のように述べています。
Multi-Speakerの発表により、私たちは音の分離の可能性の限界を押し広げます。このモデルはラジオ放送や映画、トランスクリプションなど複雑な音声編集を扱う全てのプロのために設計されています。Multi-Speakerにより、これまで分離が不可能だった音声の取り扱いが容易になるでしょう。
AudioShakeとは
AudioShakeは米国に本社を置く音声AI企業です。音楽分野でAI技術を用いたプロダクトを発表しており、ステム分離技術や歌詞自動書き起こしなどをこれまで手がけています。2024年にはディズニーと提携し、音源のステム分離技術を活用して古い録音物の用途を広げる取り組みを進めています。
参照元:AudioShake Launches Breakthrough AI Model to Separate Overlapping Voices in Audio
合唱の文字起こしはどうなるんや?