ElevenLabsが効果音を生成するAIモデル「Text to Sound Effects」を発表。写真や映像、音楽素材を手掛けるShutterstockと提携

2024.06.07

Taka Haraguchi

音声AIのスタートアップ企業ElevenLabsが、効果音やサウンドスケープなどを生成するAIモデル「Text to Sound Effects」を発表しました。 ElevenLabsが効果音を生成するAIモデル「Text to Sound Effects」を発表。写真や映像、音楽素材を手掛けるShutterstockと提携

文章から効果音を生成

「Text to Sound Effects」は、文章の入力によって効果音やサウンドスケープ、様々な種類の人の声、短いインストゥルメンタルミュージックなどを生成することができます。ホラームービーの効果音やパトカーのサイレンといった日常生活で馴染みのある音から、「ドアの向こうで古いアメリカのドアベルが鳴る音」や「荒野でクリケット銃が発砲される音」のように、シチュエーションを細かく限定したものも生成することができるといいます。

ElevenLabsは「Text to Sound Effects」を開発するにあたって、動画や音声の素材を提供するプラットフォーム「Shutterstock」と提携しました。ElevenLabsはShutterstockのオーディオライブラリを使用して、モデルの開発や修正を行ってきたとのことです。

Shutterstockのエンタープライズ責任者であるエイミー・イーガン氏は以下のようにコメントしています。

私たちはElevenLabsと提携し、私たちのデータによってAIにおける新たな革新であるText to Sound Effectsを実現できることにとても興奮しています。私たちの豊富で没入感のあるオーディオライブラリと最先端の技術の組み合わせが、市場で初めての創造を可能にしました。私たちはコミュニティからの好意的なフィードバックに感激しており、彼らが生み出す様々なプロジェクトを楽しみにしています。

高まるElevenLabsの存在感

2022年に設立され、2023年に複数の音声AIサービスをリリースしたElevenLabsは2024年に入ると8,000万ドルにのぼる多額の資金調達や米国ラジオ大手のAudacyとの提携といったニュースで存在感を見せています。今回発表された音声AIモデル「Text to Sound Effects」によって、音声AI業界におけるElevenLabsの存在感がさらに高まることが予測されます。