欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

OpenAI正式推出Realtime語音對話API,支持多語言切換與情感感知

2025-08-29 09:55:44   |   微觀獵人   |   353

8月29日,OpenAI宣布其“Realtime API”正式結(jié)束測試階段,進(jìn)入生產(chǎn)環(huán)境,面向企業(yè)和開發(fā)者全面開放。該API的核心是基于端到端語音架構(gòu)的“gpt-realtime”模型,旨在幫助開發(fā)者構(gòu)建更自然、高效的多模態(tài)語音助手,應(yīng)用于客服、教育、個人效率等多個實際場景。

gpt-realtime模型采用創(chuàng)新的Speech-to-Speech技術(shù),無需中間文本轉(zhuǎn)換即可直接生成和處理語音,顯著降低延遲并提升交互流暢度。該模型不僅能識別笑聲等非語言信號,還支持在對話中無縫切換語言,并允許開發(fā)者定制語音風(fēng)格,如“帶法國口音的友好語調(diào)”或“語速較快的專業(yè)語氣”。此外,OpenAI新增了“Cedar”和“Marin”兩種語音選項,并對現(xiàn)有8種語音進(jìn)行了全面優(yōu)化。

在多項基準(zhǔn)測試中,gpt-realtime表現(xiàn)出顯著性能提升:Big Bench Audio準(zhǔn)確率從65.6%提升至82.8%,MultiChallenge從20.6%升至30.5%,ComplexFuncBench則從49.7%提高到66.5%,顯示出其在復(fù)雜指令理解和語音處理方面的強勁能力。

此次更新還增強了工具調(diào)用與外部服務(wù)集成能力。該模型可更精準(zhǔn)地選擇和使用外部工具,并通過會話初始協(xié)議(SIP)與遠(yuǎn)程媒體控制協(xié)議(MCP)連接第三方服務(wù)。可復(fù)用提示詞功能支持開發(fā)者保存不同場景的配置,大幅提升開發(fā)效率。

Realtime API現(xiàn)已支持圖像輸入。用戶可發(fā)送截圖或照片,模型能夠識別圖中文字并回答與圖像相關(guān)的問題,開發(fā)者可靈活控制模型對圖像內(nèi)容的訪問權(quán)限。為優(yōu)化成本控制,API新增了token使用上限設(shè)置和多輪對話精簡處理功能,有效幫助管理長會話開銷。

價格方面,gpt-realtime模型的音頻輸入token定價為每百萬個32美元,輸出為每百萬個64美元,緩存輸入token每百萬個0.40美元,整體成本較此前降低約20%。

OpenAI強調(diào),該API內(nèi)置安全機制可自動終止違反政策的對話,但仍建議開發(fā)者根據(jù)自身需求強化安全措施。針對歐盟用戶,API提供數(shù)據(jù)本地化存儲選項,并制定特殊隱私規(guī)則以符合GDPR等法規(guī)要求。


特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時發(fā)送相關(guān)信息至bireading@163.com,本站將會在48小時內(nèi)處理完畢。

OpenAI正式推出Realtime語音對話API,支持多語言切換與情感感知

2025-08-29 09:55:44 瀏覽量: 353 作者: 微觀獵人

8月29日,OpenAI宣布其“Realtime API”正式結(jié)束測試階段,進(jìn)入生產(chǎn)環(huán)境,面向企業(yè)和開發(fā)者全面開放。該API的核心是基于端到端語音架構(gòu)的“gpt-realtime”模型,旨在幫助開發(fā)者構(gòu)建更自然、高效的多模態(tài)語音助手,應(yīng)用于客服、教育、個人效率等多個實際場景。

gpt-realtime模型采用創(chuàng)新的Speech-to-Speech技術(shù),無需中間文本轉(zhuǎn)換即可直接生成和處理語音,顯著降低延遲并提升交互流暢度。該模型不僅能識別笑聲等非語言信號,還支持在對話中無縫切換語言,并允許開發(fā)者定制語音風(fēng)格,如“帶法國口音的友好語調(diào)”或“語速較快的專業(yè)語氣”。此外,OpenAI新增了“Cedar”和“Marin”兩種語音選項,并對現(xiàn)有8種語音進(jìn)行了全面優(yōu)化。

在多項基準(zhǔn)測試中,gpt-realtime表現(xiàn)出顯著性能提升:Big Bench Audio準(zhǔn)確率從65.6%提升至82.8%,MultiChallenge從20.6%升至30.5%,ComplexFuncBench則從49.7%提高到66.5%,顯示出其在復(fù)雜指令理解和語音處理方面的強勁能力。

此次更新還增強了工具調(diào)用與外部服務(wù)集成能力。該模型可更精準(zhǔn)地選擇和使用外部工具,并通過會話初始協(xié)議(SIP)與遠(yuǎn)程媒體控制協(xié)議(MCP)連接第三方服務(wù)。可復(fù)用提示詞功能支持開發(fā)者保存不同場景的配置,大幅提升開發(fā)效率。

Realtime API現(xiàn)已支持圖像輸入。用戶可發(fā)送截圖或照片,模型能夠識別圖中文字并回答與圖像相關(guān)的問題,開發(fā)者可靈活控制模型對圖像內(nèi)容的訪問權(quán)限。為優(yōu)化成本控制,API新增了token使用上限設(shè)置和多輪對話精簡處理功能,有效幫助管理長會話開銷。

價格方面,gpt-realtime模型的音頻輸入token定價為每百萬個32美元,輸出為每百萬個64美元,緩存輸入token每百萬個0.40美元,整體成本較此前降低約20%。

OpenAI強調(diào),該API內(nèi)置安全機制可自動終止違反政策的對話,但仍建議開發(fā)者根據(jù)自身需求強化安全措施。針對歐盟用戶,API提供數(shù)據(jù)本地化存儲選項,并制定特殊隱私規(guī)則以符合GDPR等法規(guī)要求。


,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號

京公網(wǎng)安備 11011302001633號