お問い合わせ
AIニュース

OpenAI、APIにリアルタイム音声3モデルを追加 ── 70言語の同時通訳が1分約5円、電話接客・多言語対応・議事録の自動化が中小企業に届く価格へ

この記事の監修者 株式会社デジタルゴリラ

OpenAIは2026年5月7日、API向けにリアルタイム音声モデルを3種類追加した。70言語超の同時音声翻訳が1分0.034ドル(1ドル150円換算で約5円・概算)から試せる価格設定だ。電話接客・多言語対応・議事録の自動化といった業務が、従量課金で動かせるようになった。

発表の概要

今回追加されたのは以下の3モデルだ。

GPT-Realtime-2 は、GPT-5級の推論を持つ会話音声モデル。料金は音声入力100万トークンあたり32ドル(キャッシュ時0.40ドル)、音声出力100万トークンあたり64ドル。

GPT-Realtime-Translate は、70言語超を入力として受け付け、13言語で音声出力する同時音声翻訳モデル。料金は1分あたり0.034ドル(1ドル150円換算で約5円・概算)。英語・中国語・スペイン語などを話す顧客や外国人スタッフとのコミュニケーションを、会話の流れを止めずに処理できる。

GPT-Realtime-Whisper は、発話と同時に文字起こしを行うストリーミング音声認識モデル。料金は1分あたり0.017ドル(同換算で約2.6円・概算)。会議の議事録や電話応対記録のリアルタイム生成に活用できる。

インバウンド客への対応に課題を抱える宿泊・飲食・小売は、専任スタッフや高額システムに頼らずに済む選択肢が増えた。外国人スタッフを抱える製造・建設、議事録作成に工数を取られているバックオフィスも同様だ。なお日本語対応の詳細やGA(一般提供)時期は、本稿時点で公式から明示されていない。

“These models are aimed at voice agents that can listen, reason, translate, transcribe, use tools, and take action while the conversation is still unfolding.”

(筆者意訳:会話が進行している最中に、聞く・考える・翻訳する・文字起こしする・ツールを使う・行動する、までをこなす音声エージェントに向けたモデル、という趣旨)

── OpenAI公式発表(2026-05-07)


出典: OpenAI「Advancing voice intelligence with new models in the API」(2026-05-07)

株式会社デジタルゴリラ