写真が歌い出す？動画生成AIシステム「EMO」をアリババグループが発表

2024.03.09

Marika Kawano

中国アリババグループのIntelligent Computing Research Instituteが発表した、動画生成AIシステム「EMO（Emote Portrait Alive）」が注目を集めています。1枚の画像とボーカル音声を入力することで、驚くほどリアルで表情豊かなアバター動画を生成することが可能です。

引用元：EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

動画生成AIシステム「EMO」とは

動画生成AIシステム「EMO」の特徴は、顔の特徴や動きを捉えるフレームエンコーディングと音声を分析する音声エンコーダーの統合です。ノイズ除去処理を容易にするためにバックボーンネットワークも使用されており、音声に合わせた自然な表情による動画が生成されます。

さらに、バックボーンネットワーク内では、リファレンス・アテンションとオーディオ・アテンションが適用されており、キャラクターの特徴を生かした自然な動きになるよう調整されているそうです。

引用元：EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

多言語対応も可能

音声の特徴や変化を捉えることができるEMOは、1枚の画像とボーカル音声を登録することで、自然な歌声としてアウトプットすることができます。それ以外にも、音声出力のひとつとして、様々な言語に対応し話をさせることも可能です。

動画プレーヤー

Media error: Format(s) not supported or source(s) not found

ファイルをダウンロード: https://otonal.co.jp/wp-content/uploads/2024/03/main_page.mp4?_=1

00:00

ボリューム調節には上下矢印キーを使ってください。

公式サイトでは、オードリー・ヘプバーンが流暢に歌ったり、油彩画の「モナ・リザ」が実際に喋っていたりしている動画が紹介されていました。それ以外にも、AI生成された肖像画やキャラクターが、歌ったり話したりしている生成動画が多数紹介されています。

アニメーションやポートレート分野への新たな可能性に

今回の発表では、EMOは学術研究と効果実証を目的としているとされています。しかし、米国のOpenAIが発表した「Sora」に続き、EMOは今後のアニメーションやポートレートの分野において大きな可能性をはらむものといえるでしょう。

異なる言語やスタイルでのモノローグやパフォーマンスを実現し、映画の登場人物のポートレートを生成するなど、EMOがクロスアクター・パフォーマンス（アクターが異なるメディアやプラットフォームで複数の役割を果たす能力のこと）の新たな領域を切り拓くことが期待されます。

アリババグループとは

アリババグループ（Alibaba Group）は、中国に本社を置く世界最大のインターネット企業のひとつです。電子商取引プラットフォームのAlibaba.comや小売業のTmall.com、クラウドコンピューティングのAlibaba Cloudといった多岐にわたる事業を展開しています。決済サービスやデジタルメディア、エンターテイメント、AI、ロボティクスなどの分野にも進出しています。

参照/引用元：EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions