欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

谷歌發布開源 LMEval 框架 打破 AI 模型比較壁壘

2025-05-27 18:47:46   |   棠糖   |   74

5月25日,有報道稱谷歌推出開源框架 LMEval,為大語言模型和多模態模型提供標準化的評測工具。評測新型 AI 模型一直是個難題。不同供應商使用各自的 API、數據格式和基準設置,導致跨模型比較耗時且復雜。

LMEval 通過 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平臺之間的接口差異,確保測試跨平臺無縫運行。LMEval 不僅支持文本評測,還涵蓋圖像和代碼等領域的基準測試,且新輸入格式可輕松擴展,框架支持是非題、多選題和自由文本生成等多種評估類型。同時,該框架能識別模型采用的“規避策略”,即故意給出模糊回答以避免生成有風險內容。

Google 還引入了 Giskard 安全評分,展示模型規避有害內容的表現,百分比越高代表安全性越強。測試結果存儲在自加密的 SQLite 數據庫中,確保數據本地化且不會被搜索引擎索引,兼顧了隱私與便捷。

LMEval 具備增量評估功能,無需在新增模型或問題時重新運行整個測試,僅執行必要的新增測試即可,并采用多線程引擎并行處理多項計算,有效降低了計算成本和時間消耗。

谷歌還開發了 LMEvalboard 可視化工具,通過雷達圖展示模型在不同類別中的表現。用戶可深入查看具體任務,精準定位模型錯誤,并直接比較多個模型在特定問題上的差異,圖形化展示一目了然。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字、圖片等內容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時發送相關信息至bireading@163.com,本站將會在48小時內處理完畢。

谷歌發布開源 LMEval 框架 打破 AI 模型比較壁壘

2025-05-27 18:47:46 瀏覽量: 74 作者: 棠糖

5月25日,有報道稱谷歌推出開源框架 LMEval,為大語言模型和多模態模型提供標準化的評測工具。評測新型 AI 模型一直是個難題。不同供應商使用各自的 API、數據格式和基準設置,導致跨模型比較耗時且復雜。

LMEval 通過 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平臺之間的接口差異,確保測試跨平臺無縫運行。LMEval 不僅支持文本評測,還涵蓋圖像和代碼等領域的基準測試,且新輸入格式可輕松擴展,框架支持是非題、多選題和自由文本生成等多種評估類型。同時,該框架能識別模型采用的“規避策略”,即故意給出模糊回答以避免生成有風險內容。

Google 還引入了 Giskard 安全評分,展示模型規避有害內容的表現,百分比越高代表安全性越強。測試結果存儲在自加密的 SQLite 數據庫中,確保數據本地化且不會被搜索引擎索引,兼顧了隱私與便捷。

LMEval 具備增量評估功能,無需在新增模型或問題時重新運行整個測試,僅執行必要的新增測試即可,并采用多線程引擎并行處理多項計算,有效降低了計算成本和時間消耗。

谷歌還開發了 LMEvalboard 可視化工具,通過雷達圖展示模型在不同類別中的表現。用戶可深入查看具體任務,精準定位模型錯誤,并直接比較多個模型在特定問題上的差異,圖形化展示一目了然。

,

Copyright ©2018 鉍讀網 All Rights Reserved.

京ICP備18051707號

京公網安備 11011302001633號