中国アリババグループのIntelligent Computing Research Instituteが発表した、動画生成AIシステム「EMO(Emote Portrait Alive)」が注目を集めています。1枚の画像とボーカル音声を入力することで、驚くほどリアルで表情豊かなアバター動画を生成することが可能です。
動画生成AIシステム「EMO」とは
動画生成AIシステム「EMO」の特徴は、顔の特徴や動きを捉えるフレームエンコーディングと音声を分析する音声エンコーダーの統合です。ノイズ除去処理を容易にするためにバックボーンネットワークも使用されており、音声に合わせた自然な表情による動画が生成されます。
さらに、バックボーンネットワーク内では、リファレンス・アテンションとオーディオ・アテンションが適用されており、キャラクターの特徴を生かした自然な動きになるよう調整されているそうです。
多言語対応も可能
音声の特徴や変化を捉えることができるEMOは、1枚の画像とボーカル音声を登録することで、自然な歌声としてアウトプットすることができます。それ以外にも、音声出力のひとつとして、様々な言語に対応し話をさせることも可能です。
公式サイトでは、オードリー・ヘプバーンが流暢に歌ったり、油彩画の「モナ・リザ」が実際に喋っていたりしている動画が紹介されていました。それ以外にも、AI生成された肖像画やキャラクターが、歌ったり話したりしている生成動画が多数紹介されています。
アニメーションやポートレート分野への新たな可能性に
今回の発表では、EMOは学術研究と効果実証を目的としているとされています。しかし、米国のOpenAIが発表した「Sora」に続き、EMOは今後のアニメーションやポートレートの分野において大きな可能性をはらむものといえるでしょう。
異なる言語やスタイルでのモノローグやパフォーマンスを実現し、映画の登場人物のポートレートを生成するなど、EMOがクロスアクター・パフォーマンス(アクターが異なるメディアやプラットフォームで複数の役割を果たす能力のこと)の新たな領域を切り拓くことが期待されます。
アリババグループとは
アリババグループ(Alibaba Group)は、中国に本社を置く世界最大のインターネット企業のひとつです。電子商取引プラットフォームのAlibaba.comや小売業のTmall.com、クラウドコンピューティングのAlibaba Cloudといった多岐にわたる事業を展開しています。決済サービスやデジタルメディア、エンターテイメント、AI、ロボティクスなどの分野にも進出しています。
モナリザが話してる動画がとても好き。親近感がめっちゃ湧く。