Meta發(fā)布WebSSL視覺大模型系列 純圖像訓練突破多模態(tài)學習瓶頸
4月25日,Meta公司在Hugging Face平臺正式發(fā)布了WebSSL系列視覺大模型,參數(shù)規(guī)模覆蓋3億至70億,開創(chuàng)性地采用純圖像數(shù)據(jù)進行訓練,旨在探索無語言監(jiān)督的視覺自監(jiān)督學習(SSL)技術(shù)邊界。這一突破性研究對當前依賴文本-圖像對齊的主流多模態(tài)學習范式提出了全新挑戰(zhàn)。
WebSSL系列包含基于DINOv2和Vision Transformer(ViT)架構(gòu)的多個模型,僅使用MetaCLIP數(shù)據(jù)集(MC-2B)中的20億張圖像進行訓練。研究團隊采用兩種創(chuàng)新范式:聯(lián)合嵌入學習(DINOv2);掩碼建模(MAE);所有模型統(tǒng)一使用224×224分辨率輸入,并凍結(jié)視覺編碼器以確保實驗可比性。
在Cambrian-1基準測試的16個VQA任務(wù)中,WebSSL展現(xiàn)出三大核心優(yōu)勢:
1. 規(guī)模效應(yīng):參數(shù)增至70億時,性能保持對數(shù)級提升,而CLIP在30億參數(shù)后即現(xiàn)飽和
2. 專項突破:OCRBench和ChartQA任務(wù)中性能超越CLIP達13.6%,僅需1.3%的富文本訓練數(shù)據(jù)
3. 分辨率適應(yīng):518px微調(diào)后在文檔任務(wù)中媲美SigLIP等專業(yè)高分辨率模型。
此次發(fā)布揭示了三大關(guān)鍵發(fā)現(xiàn):視覺模型能隱式學習文本語義特征,與LLaMA-3等語言模型天然對齊;在ImageNet-1k分類等傳統(tǒng)任務(wù)上保持SOTA水平,部分指標超越MetaCLIP和DINOv2;為數(shù)據(jù)稀缺領(lǐng)域(如醫(yī)療影像)提供了去語言依賴的新研究范式。
Meta強調(diào),WebSSL并非旨在取代CLIP,而是通過控制變量實驗證明:當擺脫語言監(jiān)督限制后,純視覺模型在參數(shù)量級突破后仍能保持線性增長。該系列模型已集成至Hugging Face transformers庫,方便開發(fā)者直接調(diào)用。