欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

OpenAI正式推出Realtime語音對話API，支持多語言切換與情感感知

2025-08-29 09:55:44 | 微觀獵人 | 353

8月29日，OpenAI宣布其“Realtime API”正式結(jié)束測試階段，進(jìn)入生產(chǎn)環(huán)境，面向企業(yè)和開發(fā)者全面開放。該API的核心是基于端到端語音架構(gòu)的“gpt-realtime”模型，旨在幫助開發(fā)者構(gòu)建更自然、高效的多模態(tài)語音助手，應(yīng)用于客服、教育、個人效率等多個實際場景。

gpt-realtime模型采用創(chuàng)新的Speech-to-Speech技術(shù)，無需中間文本轉(zhuǎn)換即可直接生成和處理語音，顯著降低延遲并提升交互流暢度。該模型不僅能識別笑聲等非語言信號，還支持在對話中無縫切換語言，并允許開發(fā)者定制語音風(fēng)格，如“帶法國口音的友好語調(diào)”或“語速較快的專業(yè)語氣”。此外，OpenAI新增了“Cedar”和“Marin”兩種語音選項，并對現(xiàn)有8種語音進(jìn)行了全面優(yōu)化。

在多項基準(zhǔn)測試中，gpt-realtime表現(xiàn)出顯著性能提升：Big Bench Audio準(zhǔn)確率從65.6%提升至82.8%，MultiChallenge從20.6%升至30.5%，ComplexFuncBench則從49.7%提高到66.5%，顯示出其在復(fù)雜指令理解和語音處理方面的強勁能力。

此次更新還增強了工具調(diào)用與外部服務(wù)集成能力。該模型可更精準(zhǔn)地選擇和使用外部工具，并通過會話初始協(xié)議（SIP）與遠(yuǎn)程媒體控制協(xié)議（MCP）連接第三方服務(wù)。可復(fù)用提示詞功能支持開發(fā)者保存不同場景的配置，大幅提升開發(fā)效率。

Realtime API現(xiàn)已支持圖像輸入。用戶可發(fā)送截圖或照片，模型能夠識別圖中文字并回答與圖像相關(guān)的問題，開發(fā)者可靈活控制模型對圖像內(nèi)容的訪問權(quán)限。為優(yōu)化成本控制，API新增了token使用上限設(shè)置和多輪對話精簡處理功能，有效幫助管理長會話開銷。

價格方面，gpt-realtime模型的音頻輸入token定價為每百萬個32美元，輸出為每百萬個64美元，緩存輸入token每百萬個0.40美元，整體成本較此前降低約20%。

OpenAI強調(diào)，該API內(nèi)置安全機制可自動終止違反政策的對話，但仍建議開發(fā)者根據(jù)自身需求強化安全措施。針對歐盟用戶，API提供數(shù)據(jù)本地化存儲選項，并制定特殊隱私規(guī)則以符合GDPR等法規(guī)要求。

特別提醒：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實性、完整性、及時性本站不作任何保證或承諾，請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時發(fā)送相關(guān)信息至bireading@163.com，本站將會在48小時內(nèi)處理完畢。

OpenAI正式推出Realtime語音對話API，支持多語言切換與情感感知

2025-08-29 09:55:44 瀏覽量： 353 作者：微觀獵人

價格方面，gpt-realtime模型的音頻輸入token定價為每百萬個32美元，輸出為每百萬個64美元，緩存輸入token每百萬個0.40美元，整體成本較此前降低約20%。