2024年5月13日、OpenAIは新AIモデル「GPT-4o」を発表しました。応答の高速化を実現し、リアルタイムでのテキストや音声、画像の生成が可能になっています。
テキスト、音声、画像をリアルタイムで生成
GPT-4oはテキストや音声、画像、映像の入力に対して、リアルタイムでテキスト、音声、画像を生成します。視覚情報と音声情報の理解に優れており、音声の入力に対しては平均320ミリ秒で応答し、人間の会話とほぼ同じ応答時間を実現しています。
これまでChatGPTで用いられてきたGPT-3.5やGPT-4などのAIモデルでは、入力された音声をまずテキストに変換して入力し、応答するテキストを生成してから、そのテキストを音声に変換していました。それに対してGPT-4oは、入力と出力が同じニューラルネットワークで処理されるようになり、応答の高速化を実現しています。ただしOpenAIは、GPT-4oはまだ初期のモデルであるため、可能なことにはまだ限りがあるとしています。
安全性に配慮するため、音声出力にはいくつかの制限をかけています。今後も安全性を担保する観点でシステム開発を続け、社会の懸念を軽減していくよう努めるとしています。
2024年も音声AIが飛躍する年になるか
OpenAIはChatGPTのほかにも、テキストと15秒の音声サンプルから音声合成を行う「Voice Engine」のテストを様々な分野で実施しており、開発競争が進む音声AIのなかで存在感を現しています。OpenAI以外にも、年始には音声AI企業ElevenLabsが大規模な資金調達を行っており、2024年も音声AIが飛躍する年になりそうです。
ChatGPTとは
ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。
参照元:Hello GPT-4o
音声AIを相方にしてポッドキャストをする人も現れたりして。