AIニュース

OpenAI、APIにリアルタイム音声3モデルを追加 ── 70言語の同時通訳が1分約5円、電話接客・多言語対応・議事録の自動化が中小企業に届く価格へ

公開：2026年6月9日

この記事の監修者株式会社デジタルゴリラ

OpenAIは2026年5月7日、API向けにリアルタイム音声モデルを3種類追加した。70言語超の同時音声翻訳が1分0.034ドル（1ドル150円換算で約5円・概算）から試せる価格設定だ。電話接客・多言語対応・議事録の自動化といった業務が、従量課金で動かせるようになった。

発表の概要

今回追加されたのは以下の3モデルだ。

GPT-Realtime-2 は、GPT-5級の推論を持つ会話音声モデル。料金は音声入力100万トークンあたり32ドル（キャッシュ時0.40ドル）、音声出力100万トークンあたり64ドル。

GPT-Realtime-Translate は、70言語超を入力として受け付け、13言語で音声出力する同時音声翻訳モデル。料金は1分あたり0.034ドル（1ドル150円換算で約5円・概算）。英語・中国語・スペイン語などを話す顧客や外国人スタッフとのコミュニケーションを、会話の流れを止めずに処理できる。

GPT-Realtime-Whisper は、発話と同時に文字起こしを行うストリーミング音声認識モデル。料金は1分あたり0.017ドル（同換算で約2.6円・概算）。会議の議事録や電話応対記録のリアルタイム生成に活用できる。

インバウンド客への対応に課題を抱える宿泊・飲食・小売は、専任スタッフや高額システムに頼らずに済む選択肢が増えた。外国人スタッフを抱える製造・建設、議事録作成に工数を取られているバックオフィスも同様だ。なお日本語対応の詳細やGA（一般提供）時期は、本稿時点で公式から明示されていない。

“These models are aimed at voice agents that can listen, reason, translate, transcribe, use tools, and take action while the conversation is still unfolding.”

（筆者意訳：会話が進行している最中に、聞く・考える・翻訳する・文字起こしする・ツールを使う・行動する、までをこなす音声エージェントに向けたモデル、という趣旨）

── OpenAI公式発表（2026-05-07）

出典: OpenAI「Advancing voice intelligence with new models in the API」（2026-05-07）

株式会社デジタルゴリラ

OpenAI、APIにリアルタイム音声3モデルを追加 ── 70言語の同時通訳が1分約5円、電話接客・多言語対応・議事録の自動化が中小企業に届く価格へ

発表の概要

関連記事

Google、Gemini 3.5 Flashを発表 ── 「安くて速い」でAIエージェント時代を狙う

Anthropic、中小企業専用「Claude for Small Business」を発表 ── QuickBooksやHubSpotの中でバックオフィス業務を肩代わり

Microsoft、初の自社推論モデル「MAI-Thinking-1」を公開 ── 数学AIMEで97.0%、外部モデルへの蒸留なしで自前構築