欧美三级不卡/成人97视频/四虎成人精品永久免费av九九 /国产一区二区精品91 - 成人三级在线播放

Meta發(fā)布WebSSL視覺大模型系列 純圖像訓練突破多模態(tài)學習瓶頸

2025-04-25 17:19:58   |   唐薇   |   1752

4月25日,Meta公司在Hugging Face平臺正式發(fā)布了WebSSL系列視覺大模型,參數(shù)規(guī)模覆蓋3億至70億,開創(chuàng)性地采用純圖像數(shù)據(jù)進行訓練,旨在探索無語言監(jiān)督的視覺自監(jiān)督學習(SSL)技術(shù)邊界。這一突破性研究對當前依賴文本-圖像對齊的主流多模態(tài)學習范式提出了全新挑戰(zhàn)。

WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架構(gòu)的多個模型,僅使用MetaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像進行訓練。研究團隊采用兩種創(chuàng)新范式:聯(lián)合嵌入學習(DINOv2);掩碼建模(MAE);所有模型統(tǒng)一使用224×224分辨率輸入,并凍結(jié)視覺編碼器以確保實驗可比性。

在Cambrian-1基準測試的16個VQA任務(wù)中,WebSSL展現(xiàn)出三大核心優(yōu)勢:

1. 規(guī)模效應(yīng):參數(shù)增至70億時,性能保持對數(shù)級提升,而CLIP在30億參數(shù)后即現(xiàn)飽和

2. 專項突破:OCRBench和ChartQA任務(wù)中性能超越CLIP達13.6%,僅需1.3%的富文本訓練數(shù)據(jù)

3. 分辨率適應(yīng):518px微調(diào)后在文檔任務(wù)中媲美SigLIP等專業(yè)高分辨率模型。

此次發(fā)布揭示了三大關(guān)鍵發(fā)現(xiàn):視覺模型能隱式學習文本語義特征,與LLaMA-3等語言模型天然對齊;在ImageNet-1k分類等傳統(tǒng)任務(wù)上保持SOTA水平,部分指標超越MetaCLIP和DINOv2;為數(shù)據(jù)稀缺領(lǐng)域(如醫(yī)療影像)提供了去語言依賴的新研究范式。

Meta強調(diào),WebSSL并非旨在取代CLIP,而是通過控制變量實驗證明:當擺脫語言監(jiān)督限制后,純視覺模型在參數(shù)量級突破后仍能保持線性增長。該系列模型已集成至Hugging Face transformers庫,方便開發(fā)者直接調(diào)用。

特別提醒:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字、圖片等內(nèi)容的真實性、完整性、及時性本站不作任何保證或承諾,請自行核實相關(guān)內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時發(fā)送相關(guān)信息至bireading@163.com,本站將會在48小時內(nèi)處理完畢。

Meta發(fā)布WebSSL視覺大模型系列 純圖像訓練突破多模態(tài)學習瓶頸

2025-04-25 17:19:58 瀏覽量: 1752 作者: 唐薇

4月25日,Meta公司在Hugging Face平臺正式發(fā)布了WebSSL系列視覺大模型,參數(shù)規(guī)模覆蓋3億至70億,開創(chuàng)性地采用純圖像數(shù)據(jù)進行訓練,旨在探索無語言監(jiān)督的視覺自監(jiān)督學習(SSL)技術(shù)邊界。這一突破性研究對當前依賴文本-圖像對齊的主流多模態(tài)學習范式提出了全新挑戰(zhàn)。

WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架構(gòu)的多個模型,僅使用MetaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像進行訓練。研究團隊采用兩種創(chuàng)新范式:聯(lián)合嵌入學習(DINOv2);掩碼建模(MAE);所有模型統(tǒng)一使用224×224分辨率輸入,并凍結(jié)視覺編碼器以確保實驗可比性。

在Cambrian-1基準測試的16個VQA任務(wù)中,WebSSL展現(xiàn)出三大核心優(yōu)勢:

1. 規(guī)模效應(yīng):參數(shù)增至70億時,性能保持對數(shù)級提升,而CLIP在30億參數(shù)后即現(xiàn)飽和

2. 專項突破:OCRBench和ChartQA任務(wù)中性能超越CLIP達13.6%,僅需1.3%的富文本訓練數(shù)據(jù)

3. 分辨率適應(yīng):518px微調(diào)后在文檔任務(wù)中媲美SigLIP等專業(yè)高分辨率模型。

此次發(fā)布揭示了三大關(guān)鍵發(fā)現(xiàn):視覺模型能隱式學習文本語義特征,與LLaMA-3等語言模型天然對齊;在ImageNet-1k分類等傳統(tǒng)任務(wù)上保持SOTA水平,部分指標超越MetaCLIP和DINOv2;為數(shù)據(jù)稀缺領(lǐng)域(如醫(yī)療影像)提供了去語言依賴的新研究范式。

Meta強調(diào),WebSSL并非旨在取代CLIP,而是通過控制變量實驗證明:當擺脫語言監(jiān)督限制后,純視覺模型在參數(shù)量級突破后仍能保持線性增長。該系列模型已集成至Hugging Face transformers庫,方便開發(fā)者直接調(diào)用。

,

Copyright ©2018 鉍讀網(wǎng) All Rights Reserved.

京ICP備18051707號

京公網(wǎng)安備 11011302001633號