音声AIのスタートアップ企業ElevenLabsが、効果音やサウンドスケープなどを生成するAIモデル「Text to Sound Effects」を発表しました。
文章から効果音を生成
「Text to Sound Effects」は、文章の入力によって効果音やサウンドスケープ、様々な種類の人の声、短いインストゥルメンタルミュージックなどを生成することができます。ホラームービーの効果音やパトカーのサイレンといった日常生活で馴染みのある音から、「ドアの向こうで古いアメリカのドアベルが鳴る音」や「荒野でクリケット銃が発砲される音」のように、シチュエーションを細かく限定したものも生成することができるといいます。
ElevenLabsは「Text to Sound Effects」を開発するにあたって、動画や音声の素材を提供するプラットフォーム「Shutterstock」と提携しました。ElevenLabsはShutterstockのオーディオライブラリを使用して、モデルの開発や修正を行ってきたとのことです。
Shutterstockのエンタープライズ責任者であるエイミー・イーガン氏は以下のようにコメントしています。
私たちはElevenLabsと提携し、私たちのデータによってAIにおける新たな革新であるText to Sound Effectsを実現できることにとても興奮しています。私たちの豊富で没入感のあるオーディオライブラリと最先端の技術の組み合わせが、市場で初めての創造を可能にしました。私たちはコミュニティからの好意的なフィードバックに感激しており、彼らが生み出す様々なプロジェクトを楽しみにしています。
高まるElevenLabsの存在感
2022年に設立され、2023年に複数の音声AIサービスをリリースしたElevenLabsは2024年に入ると8,000万ドルにのぼる多額の資金調達や米国ラジオ大手のAudacyとの提携といったニュースで存在感を見せています。今回発表された音声AIモデル「Text to Sound Effects」によって、音声AI業界におけるElevenLabsの存在感がさらに高まることが予測されます。
ElevenLabsとは
ElevenLabsは、ロンドンを拠点とするAIスタートアップです。元Googleのピョートル・ダブコウスキー氏と、パランティア出身のマティ・スタニシェフスキ氏が共同創業し、様々な言語の音声合成ボイスオーバーや音声吹き替えを作成できるプラットフォームを開発しています。
2023年1月にサービスをリリースし、その後、シリーズAラウンドで1900万ドル(約27億円)を調達しました。また、音声クローニングの問題に対処するため、AI Speech Classifierという判定ツールを公開しています。
参照元:AI generated sound effects are here
生成AIと素材サイトの提携は今後も増えていきそうだね。