OpenAI正式推出Realtime語音對話API,支持多語言切換與情感感知
8月29日,OpenAI宣布其“Realtime API”正式結(jié)束測試階段,進(jìn)入生產(chǎn)環(huán)境,面向企業(yè)和開發(fā)者全面開放。該API的核心是基于端到端語音架構(gòu)的“gpt-realtime”模型,旨在幫助開發(fā)者構(gòu)建更自然、高效的多模態(tài)語音助手,應(yīng)用于客服、教育、個人效率等多個實際場景。
gpt-realtime模型采用創(chuàng)新的Speech-to-Speech技術(shù),無需中間文本轉(zhuǎn)換即可直接生成和處理語音,顯著降低延遲并提升交互流暢度。該模型不僅能識別笑聲等非語言信號,還支持在對話中無縫切換語言,并允許開發(fā)者定制語音風(fēng)格,如“帶法國口音的友好語調(diào)”或“語速較快的專業(yè)語氣”。此外,OpenAI新增了“Cedar”和“Marin”兩種語音選項,并對現(xiàn)有8種語音進(jìn)行了全面優(yōu)化。
在多項基準(zhǔn)測試中,gpt-realtime表現(xiàn)出顯著性能提升:Big Bench Audio準(zhǔn)確率從65.6%提升至82.8%,MultiChallenge從20.6%升至30.5%,ComplexFuncBench則從49.7%提高到66.5%,顯示出其在復(fù)雜指令理解和語音處理方面的強勁能力。
此次更新還增強了工具調(diào)用與外部服務(wù)集成能力。該模型可更精準(zhǔn)地選擇和使用外部工具,并通過會話初始協(xié)議(SIP)與遠(yuǎn)程媒體控制協(xié)議(MCP)連接第三方服務(wù)。可復(fù)用提示詞功能支持開發(fā)者保存不同場景的配置,大幅提升開發(fā)效率。
Realtime API現(xiàn)已支持圖像輸入。用戶可發(fā)送截圖或照片,模型能夠識別圖中文字并回答與圖像相關(guān)的問題,開發(fā)者可靈活控制模型對圖像內(nèi)容的訪問權(quán)限。為優(yōu)化成本控制,API新增了token使用上限設(shè)置和多輪對話精簡處理功能,有效幫助管理長會話開銷。
價格方面,gpt-realtime模型的音頻輸入token定價為每百萬個32美元,輸出為每百萬個64美元,緩存輸入token每百萬個0.40美元,整體成本較此前降低約20%。
OpenAI強調(diào),該API內(nèi)置安全機制可自動終止違反政策的對話,但仍建議開發(fā)者根據(jù)自身需求強化安全措施。針對歐盟用戶,API提供數(shù)據(jù)本地化存儲選項,并制定特殊隱私規(guī)則以符合GDPR等法規(guī)要求。