音声とマーケティングの"いま"を探求するウェブマガジンAUDIO MARKETING INSIGHTS

TOP 音声テクノロジー OpenAIが新AIモデルGPT-4oを発表。音声の入出力は、人間の会話とほぼ同等に

音声テクノロジー

OpenAIが新AIモデルGPT-4oを発表。音声の入出力は、人間の会話とほぼ同等に

2024.05.24

Taka Haraguchi

2024年5月13日、OpenAIは新AIモデル「GPT-4o」を発表しました。応答の高速化を実現し、リアルタイムでのテキストや音声、画像の生成が可能になっています。

OpenAIが新AIモデルGPT-4oを発表。音声の入出力は、人間の会話とほぼ同等に

引用元：https://openai.com/index/hello-gpt-4o/

テキスト、音声、画像をリアルタイムで生成

GPT-4oはテキストや音声、画像、映像の入力に対して、リアルタイムでテキスト、音声、画像を生成します。視覚情報と音声情報の理解に優れており、音声の入力に対しては平均320ミリ秒で応答し、人間の会話とほぼ同じ応答時間を実現しています。

これまでChatGPTで用いられてきたGPT-3.5やGPT-4などのAIモデルでは、入力された音声をまずテキストに変換して入力し、応答するテキストを生成してから、そのテキストを音声に変換していました。それに対してGPT-4oは、入力と出力が同じニューラルネットワークで処理されるようになり、応答の高速化を実現しています。ただしOpenAIは、GPT-4oはまだ初期のモデルであるため、可能なことにはまだ限りがあるとしています。

安全性に配慮するため、音声出力にはいくつかの制限をかけています。今後も安全性を担保する観点でシステム開発を続け、社会の懸念を軽減していくよう努めるとしています。

2024年も音声AIが飛躍する年になるか

OpenAIはChatGPTのほかにも、テキストと15秒の音声サンプルから音声合成を行う「Voice Engine」のテストを様々な分野で実施しており、開発競争が進む音声AIのなかで存在感を現しています。OpenAI以外にも、年始には音声AI企業ElevenLabsが大規模な資金調達を行っており、2024年も音声AIが飛躍する年になりそうです。

ChatGPTとは

ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。

参照元：Hello GPT-4o

AMI(エイミー)

音声AIを相方にしてポッドキャストをする人も現れたりして。

マーケター必見。国内外のデジタル音声市場の最新レポート
『音声マーケティング最前線2024』をチェック！

音声マーケティング最前線2024

音声マーケティング最前線2024

音声マーケティング最前線2024

世界の企業による音声コンテンツの活用状況から
音声マーケのトレンドまで、
全42ページの資料にまとめています。

無料で資料をダウンロード

RELATED｜関連記事

- 音声アプリ
音声ARアプリ「SARF」と岡山市の観光交通サービス「ECYC」がコラボ。怪談ナイトツアーを実施

Taka Haraguchi 2024/08/09
音声が一番自分に合っていた。ポッドキャストアワード2部門受賞『肋骨パキ男の#パキラジ』が語る音声配信の魅力

Taka Haraguchi 2024/12/27
- 科学で考えるソニックマーケティング
- 連載
［科学で考えるソニックマーケティング］第16回：魔法とは、科学的に・戦略的にかけるもの

ソニック・アーキテクト(音の総合建築家) タクト株式会社 2024/11/20

音声とマーケティングの"いま"を探求するウェブマガジン AUDIO MARKETING INSIGHTS

その他のポッドキャスト関連情報

ポッドキャストの制作を依頼できる制作会社まとめ