北京时间8月29日凌晨,OpenAI通过直播发布其迄今最先进的端对端语音模型(Speech-to-Speech)GPT-Realtime,并宣布Realtime ...
智东西5月8日报道,5月7日,OpenAI在Realtime API中推出三款音频模型—— GPT‑Realtime‑2 (首个具备GPT‑5级推理的语音模型)、 GPT‑Realtime‑Translate (实时翻译)和 GPT‑Realtime‑Whisper (流式转录),分别面向 复杂推理、实时翻译和流式转录场景 ...
机场延误广播瞬间被手机 App 用母语解释并给出改签建议;会议中边说边看到中英字幕并自动生成要点。是什么技术让这些场景成为可能?答案是 OpenAI 于 2026 年 5 月在 Realtime API 中上线的三款实时语音模型:GPT‑Realtime‑2(深度推理的语音对话)、GPT‑Realtime‑Translate(实时翻译)和 GPT‑Realtime‑Whisper(流式语音转写), ...
系统到语音:软件将上下文转化为实时语音指引。比如旅行应用可以主动告知旅客:你的进港航班延误了,但你仍能赶上转机。我已找到新登机口,规划了最快穿越航站楼的路线,你的行李预计也能转运成功。 语音到语音:AI帮助跨语言、跨任务、跨变化场景的实时对话。比如德国电信正在构建语音支持体验,客户可以用自己最习惯的语言交流,模型实时完成对话翻译。
GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。
The new features could be handy for customer service systems, but OpenAI says they have applications that work across a variety of other fields, including education and creator platforms.
【导读】绝杀!OpenAI发布GPT-Realtime-2:首个GPT-5级推理音频模型,OpenAI正式接管人类耳朵人类与机器的最后一道「防火墙」——键盘,正在彻底消失。 今天凌晨,OpenAI又给世界带来一次震撼。 这一次,他们不卷文字,不卷视频,而是要把那个曾让无数人惊艳、又让无数人遗憾的Samantha——电影《Her》中的AI——彻底带进现实。 OpenAI正式宣布,推出GPT-Real ...
GPT-Realtime-2 brings GPT-5-class reasoning to live voice. A separate translation model covers 70+ input languages. A streaming Whisper variant handles transcription. The pricing is aggressive enough ...
OpenAI开放三大实时音频模型:告别纯文本,AI智能体进入“实时听与做”时代,智能体,openai,翻译,工作流,realtime ...
据彭博社报道,苹果正在研发的内置摄像头 AirPods 已进入开发后期阶段,原型机目前处于 DVT(设计验证测试)环节,这是量产前的最后一个主要开发阶段,预计最快于 9 月随 AI Siri 一同发布。 记者 Mark Gurman 称,该款耳机的左右两侧耳塞均内置摄像头,用于采集用户周围环境的低分辨率视觉信息,供 Siri 处理并提供相关回应。摄像头并不具备拍照或录像功能,主要作为 Siri 的 ...
AI voice agents are getting closer to doing more than waiting their turn to speak. OpenAI announced Thursday that it is expanding its Realtime API with GPT-Realtime-2, a new voice ...