写真が歌い出す?動画生成AIシステム「EMO」をアリババグループが発表


中国アリババグループのIntelligent Computing Research Instituteが発表した、動画生成AIシステム「EMO(Emote Portrait Alive)」が注目を集めています。1枚の画像とボーカル音声を入力することで、驚くほどリアルで表情豊かなアバター動画を生成することが可能です。

写真が歌い出す?アリババグループ、動画生成AIシステム「EMO」を発表

引用元:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

動画生成AIシステム「EMO」とは

動画生成AIシステム「EMO」の特徴は、顔の特徴や動きを捉えるフレームエンコーディングと音声を分析する音声エンコーダーの統合です。ノイズ除去処理を容易にするためにバックボーンネットワークも使用されており、音声に合わせた自然な表情による動画が生成されます。

さらに、バックボーンネットワーク内では、リファレンス・アテンションとオーディオ・アテンションが適用されており、キャラクターの特徴を生かした自然な動きになるよう調整されているそうです。

写真が歌い出す?アリババグループ、動画生成AIシステム「EMO」を発表

引用元:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

多言語対応も可能

音声の特徴や変化を捉えることができるEMOは、1枚の画像とボーカル音声を登録することで、自然な歌声としてアウトプットすることができます。それ以外にも、音声出力のひとつとして、様々な言語に対応し話をさせることも可能です。

公式サイトでは、オードリー・ヘプバーンが流暢に歌ったり、油彩画の「モナ・リザ」が実際に喋っていたりしている動画が紹介されていました。それ以外にも、AI生成された肖像画やキャラクターが、歌ったり話したりしている生成動画が多数紹介されています。

アニメーションやポートレート分野への新たな可能性に

今回の発表では、EMOは学術研究と効果実証を目的としているとされています。しかし、米国のOpenAIが発表した「Sora」に続き、EMOは今後のアニメーションやポートレートの分野において大きな可能性をはらむものといえるでしょう。

異なる言語やスタイルでのモノローグやパフォーマンスを実現し、映画の登場人物のポートレートを生成するなど、EMOがクロスアクター・パフォーマンス(アクターが異なるメディアやプラットフォームで複数の役割を果たす能力のこと)の新たな領域を切り拓くことが期待されます。

アリババグループとは

アリババグループ(Alibaba Group)は、中国に本社を置く世界最大のインターネット企業のひとつです。電子商取引プラットフォームのAlibaba.comや小売業のTmall.com、クラウドコンピューティングのAlibaba Cloudといった多岐にわたる事業を展開しています。決済サービスやデジタルメディア、エンターテイメント、AI、ロボティクスなどの分野にも進出しています。

参照/引用元:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions


AMI(エイミー)

モナリザが話してる動画がとても好き。親近感がめっちゃ湧く。

マーケター必見。国内外のデジタル音声市場の最新レポート
『音声マーケティング最前線2023』をチェック!

音声マーケティング最前線2023 音声マーケティング最前線2023 音声マーケティング最前線2023

世界の企業による音声コンテンツの活用状況から
音声マーケのトレンドまで、
全29ページの資料にまとめています。

無料で資料をダウンロードダウンロード アイコン
このエントリーをはてなブックマークに追加

このエントリーをはてなブックマークに追加