OpenAI啟動(dòng)”先鋒計(jì)劃" 重塑AI評(píng)估標(biāo)準(zhǔn)
4月10日,OpenAI正式宣布推出"先鋒計(jì)劃"(OpenAI Pioneers Program),旨在建立新一代AI模型評(píng)估體系,解決當(dāng)前基準(zhǔn)測(cè)試與真實(shí)應(yīng)用場(chǎng)景脫節(jié)的問(wèn)題。該計(jì)劃將聯(lián)合行業(yè)合作伙伴開(kāi)發(fā)定制化評(píng)測(cè)標(biāo)準(zhǔn),重點(diǎn)關(guān)注法律、金融、醫(yī)療等高價(jià)值領(lǐng)域,標(biāo)志著AI評(píng)測(cè)從"學(xué)術(shù)刷榜"向"實(shí)用價(jià)值"的重要轉(zhuǎn)變。
當(dāng)前AI行業(yè)的評(píng)測(cè)標(biāo)準(zhǔn)正面臨嚴(yán)峻挑戰(zhàn)。OpenAI在官方博客中指出,主流基準(zhǔn)測(cè)試普遍存在三大缺陷:過(guò)度側(cè)重解決博士級(jí)數(shù)學(xué)題等學(xué)術(shù)性任務(wù)、存在可操縱性漏洞、與大眾實(shí)際需求嚴(yán)重脫節(jié)。這些問(wèn)題在近期LM Arena眾包平臺(tái)與Meta Maverick模型的爭(zhēng)議中暴露無(wú)遺,使得業(yè)界越來(lái)越難以準(zhǔn)確評(píng)估不同AI模型的真實(shí)能力。OpenAI技術(shù)團(tuán)隊(duì)表示,當(dāng)所有廠商都在針對(duì)特定榜單優(yōu)化模型時(shí),建立反映真實(shí)應(yīng)用價(jià)值的評(píng)測(cè)標(biāo)準(zhǔn)勢(shì)在必行。
"先鋒計(jì)劃"將采取分階段推進(jìn)策略。首批合作將聚焦法律、金融、保險(xiǎn)、醫(yī)療和會(huì)計(jì)五大關(guān)鍵領(lǐng)域,與精選的初創(chuàng)公司共同開(kāi)發(fā)定制化評(píng)測(cè)方案。這些合作伙伴不僅能參與標(biāo)準(zhǔn)制定,還將獲得OpenAI提供的強(qiáng)化微調(diào)技術(shù)支持,針對(duì)具體場(chǎng)景優(yōu)化模型性能。OpenAI強(qiáng)調(diào),最終形成的評(píng)測(cè)標(biāo)準(zhǔn)將完全公開(kāi),并特別突出"行業(yè)特定"的評(píng)估維度,幫助企業(yè)在實(shí)際業(yè)務(wù)中做出更精準(zhǔn)的AI采購(gòu)決策。
這并非OpenAI首次涉足評(píng)測(cè)體系建設(shè)。該公司此前已資助多項(xiàng)基準(zhǔn)測(cè)試研究,開(kāi)發(fā)專有評(píng)估方法,并發(fā)布行業(yè)白皮書(shū)。但此次直接與企業(yè)共建標(biāo)準(zhǔn)的做法,在業(yè)內(nèi)引發(fā)關(guān)于"利益沖突"的討論。多位業(yè)內(nèi)人士擔(dān)憂,當(dāng)主要參賽者同時(shí)擔(dān)任裁判角色時(shí),可能影響評(píng)測(cè)體系的公正性。對(duì)此OpenAI回應(yīng)稱,將建立多方監(jiān)督機(jī)制,確保標(biāo)準(zhǔn)的客觀性。