音声とマーケティングの"いま"を探求するウェブマガジンAUDIO MARKETING INSIGHTS

TOP 音声テクノロジー OpenAIが音声認識・音声合成に特化した新音声AIモデルを発表。日本語にも対応

音声テクノロジー

OpenAIが音声認識・音声合成に特化した新音声AIモデルを発表。日本語にも対応

2025.04.13

Taka Haraguchi

OpenAIは3月に音声認識や音声合成に特化した複数の新音声AIモデルを発表しました。それぞれ「gpt-4o-transcribe」や「gpt-4o-mini-transcribe」、「gpt-4o-mini-tts」と呼ばれます。

OpenAIが音声認識・音声合成に特化した新音声AIモデルを発表。日本語にも対応

日本語含む100以上の言語に対応

今回発表された新音声AIモデルのうち、音声認識を担うのが「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」となっています。これらは音声からテキストに変換を行うモデルで、2024年に発表されたGPT-4oの音声認識から学習を重ねてさらに精度が高まったとされています

また、「gpt-4o-mini-tts」と呼ばれる音声合成モデルも発表されました。このモデルでは、何を発話するかだけでなく、どのような声や雰囲気の音声を生成するのかまで指示可能となっています。

いずれのモデルも日本語を含む100以上の言語に対応しています。一方で、リアルタイム性が損なわれているとの指摘もあり、今後の音声AIの進展に注目されます。

ChatGPTとは

ChatGPTは、OpenAIによって開発された言語生成AIで、自然な会話やテキストを生成できます。大量のテキストデータから学習し、質問応答、文章作成など多岐にわたるタスクに対応。対話形式で流暢なテキストを提供し、教育、ビジネス、エンターテイメントなど様々な分野で応用されています。。

参照元：GPT-4o Transcribe

AMI(エイミー)

音声AIはリアルタイム性を重視するかカスタマイズ性を重視するかの戦いになってるっぽい。

高いブランド認知性能をもつデジタル音声広告事例4選を紹介
『Z世代・若年ターゲティング出稿事例』をチェック！

Z世代・若年ターゲティング出稿事例

Z世代・若年ターゲティング出稿事例

Z世代・若年ターゲティング出稿事例

デジタル音声広告とは〜具体的な出稿事例など、
全20ページにまとめています。

無料で資料をダウンロード

RELATED｜関連記事

- ポッドキャスト
- ラジオ
音声広告の強みは？米Audacyが音声市場に関するレポートを公開

Taka Haraguchi 2024/12/25
- ラジオ
民間AMラジオ事業者、13社が一時休止へ。FM転換への検討が進む

Marika Kawano 2024/02/01
Spotify Audience Network、日本やインドを含む新市場への進出を発表。さらなる音声広告市場の拡大へ

AMI編集部 2023/11/20

音声とマーケティングの"いま"を探求するウェブマガジン AUDIO MARKETING INSIGHTS

その他のポッドキャスト関連情報

ポッドキャストの制作を依頼できる制作会社まとめ