OpenAIが新AIモデルGPT-4oを発表。音声の入出力は、人間の会話とほぼ同等に


2024年5月13日、OpenAIは新AIモデル「GPT-4o」を発表しました。応答の高速化を実現し、リアルタイムでのテキストや音声、画像の生成が可能になっています。

OpenAIが新AIモデルGPT-4oを発表。音声の入出力は、人間の会話とほぼ同等に

引用元:https://openai.com/index/hello-gpt-4o/

テキスト、音声、画像をリアルタイムで生成

GPT-4oはテキストや音声、画像、映像の入力に対して、リアルタイムでテキスト、音声、画像を生成します。視覚情報と音声情報の理解に優れており、音声の入力に対しては平均320ミリ秒で応答し、人間の会話とほぼ同じ応答時間を実現しています。

これまでChatGPTで用いられてきたGPT-3.5やGPT-4などのAIモデルでは、入力された音声をまずテキストに変換して入力し、応答するテキストを生成してから、そのテキストを音声に変換していました。それに対してGPT-4oは、入力と出力が同じニューラルネットワークで処理されるようになり、応答の高速化を実現しています。ただしOpenAIは、GPT-4oはまだ初期のモデルであるため、可能なことにはまだ限りがあるとしています。

安全性に配慮するため、音声出力にはいくつかの制限をかけています。今後も安全性を担保する観点でシステム開発を続け、社会の懸念を軽減していくよう努めるとしています。

2024年も音声AIが飛躍する年になるか

OpenAIはChatGPTのほかにも、テキストと15秒の音声サンプルから音声合成を行う「Voice Engine」のテストを様々な分野で実施しており、開発競争が進む音声AIのなかで存在感を現しています。OpenAI以外にも、年始には音声AI企業ElevenLabsが大規模な資金調達を行っており、2024年も音声AIが飛躍する年になりそうです。

ChatGPTとは

ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。

参照元:Hello GPT-4o


AMI(エイミー)

音声AIを相方にしてポッドキャストをする人も現れたりして。

マーケター必見。国内外のデジタル音声市場の最新レポート
『音声マーケティング最前線2024』をチェック!

音声マーケティング最前線2024 音声マーケティング最前線2024 音声マーケティング最前線2024

世界の企業による音声コンテンツの活用状況から
音声マーケのトレンドまで、
全42ページの資料にまとめています。

無料で資料をダウンロードダウンロード アイコン
このエントリーをはてなブックマークに追加

このエントリーをはてなブックマークに追加