OpenAIが新技術「Sora」を発表。現実世界の動きを理解しシミュレートする動画生成AIモデル

2024.02.20

Marika Kawano

AI研究・開発企業であるOpenAI が、新たな技術として、シンプルなテキストから動画への変換を行う新しいAI生成モデル「Sora」を発表しました。Soraは、視覚的な品質とユーザーのプロンプトに忠実でありながら、最大1分までのビデオを生成することが可能であるということです。

OpenAIが新技術「Sora」を発表。現実世界の動きを理解しシミュレートする動画生成AIモデル

引用元：https://openai.com/sora

Xを通じて「Sora」の現在の開発状況が発表される

OpenAIは、Soraで生成した数種類の動画とともに、XにてSoraについて発表しました。

OpenAIは、下記のように述べています。

私たちは、OpenAIの外部の人々と協力し、フィードバックを得るために、また、どのようなAI機能が地平線上にあるのかを一般の人々に感じてもらうために、私たちの研究の進捗状況を早期に共有している。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

OpenAIの「Sora」とは

Soraは、複数のキャラクターや特定の種類の動き、被写体や背景の正確なディテールを持つ複雑なシーンを生成できる点で注目されています。このモデルは、プロンプトに基づく要求だけでなく、それらが物理的な世界でどのように実現されるかも理解しているといいます。

しかし、現行のモデルにはいくつかの弱点も挙げられており、複雑なシーンの物理的な挙動を正確にシミュレートすることや、特定の事象の原因と結果を正確に理解することなど、まだ表現が難しいシチュエーションもあるようです。

「Sora」による制作事例

動画プレーヤー

Media error: Format(s) not supported or source(s) not found

ファイルをダウンロード: https://otonal.co.jp/wp-content/uploads/2024/02/tokyo-walk.mp4?_=1

00:00

ボリューム調節には上下矢印キーを使ってください。

プロンプト: スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。多くの歩行者が歩き回っています。

現在、多くのビジュアルアーティストや映画制作者にもアクセスを許可しており、クリエイティブな専門家からのフィードバックを受けながら、モデルの進化に努めています。

現在は製品化に向けて、安全性をチェック

OpenAIは、安全性についてもSoraを製品として利用可能にする前に必要な対策を講じる予定であるとしています。セキュリティやリスク管理の分野で活動する専門家であるレッドチームとの協力や検出分類器の開発など、誤解を招くコンテンツの検出に力を入れているとのことです。

Soraは現実世界を理解しシミュレートできるモデルの重要なマイルストーンであり、AGI（汎用人工知能）を実現するための一歩として期待されています。まだ一般向けの公開日については発表されていませんが、今後のAIの進化において重要な役割を果たす可能性が高いと注目を集めています。

AGI（Artificial General Intelligence）とは

AGI（Artificial General Intelligence）は、人間の知能と同等またはそれ以上の能力を持つ汎用的な人工知能を指します。これは、あらゆる領域で知識やスキルを適用し、新しい問題に柔軟に対応できるAIを表します。AGIの開発は、AIの進化の最終段階と考えられており、倫理的・安全性の問題も含めて深く検討されています。

参照/引用元：SORA：Creating video from text