谷歌推出Gemini 2.5 Flash圖像編輯模型 AI修圖精度與角色一致性顯著提升
8月27日,谷歌DeepMind于8月26日正式發(fā)布新一代圖像生成與編輯模型Gemini 2.5 Flash。該模型在Gemini應(yīng)用中實(shí)現(xiàn)了更精準(zhǔn)的文字指令驅(qū)動(dòng)圖像編輯能力,能夠在修改圖片時(shí)保持人物、動(dòng)物或物體的外觀一致性,并在多項(xiàng)任務(wù)中表現(xiàn)優(yōu)于OpenAI的GPT-4o,顯示出谷歌在多模態(tài)AI生成領(lǐng)域的持續(xù)進(jìn)步。
與此前圖像生成工具相比,Gemini 2.5 Flash在根據(jù)復(fù)雜文本修改圖像方面展現(xiàn)出更高準(zhǔn)確率。其最大亮點(diǎn)為“角色一致性”功能——在生成多張圖像時(shí),即使背景、光線或主體姿態(tài)發(fā)生變化,模型仍能保持同一角色或物體的外觀統(tǒng)一。這一能力特別適合品牌宣傳、產(chǎn)品多角度展示和系列化視覺內(nèi)容的批量制作。
該模型支持高精度的局部圖像編輯,用戶無需手動(dòng)選擇區(qū)域即可通過文字指令實(shí)現(xiàn)背景虛化、物體移除、瑕疵修復(fù)和色彩調(diào)整等操作。此外,Gemini 2.5 Flash還具備多圖像融合能力,可一次性合并最多三張圖像,例如將產(chǎn)品圖像自然嵌入室內(nèi)場(chǎng)景中,生成高度逼真的合成畫面。
“風(fēng)格遷移”也是此次升級(jí)的重要功能,用戶可將某種紋理、色彩或圖案應(yīng)用到目標(biāo)對(duì)象上,同時(shí)保持其原有形狀與結(jié)構(gòu)細(xì)節(jié)。更引人注目的是,模型還展現(xiàn)出初步的“現(xiàn)實(shí)推理”能力,能夠模擬簡(jiǎn)單因果關(guān)系,例如生成“氣球飛向仙人掌并被刺破”的連貫畫面。
目前,Gemini 2.5 Flash的圖像編輯功能已在Gemini應(yīng)用中上線,用戶需手動(dòng)切換至“Flash”模型方可使用。生成圖像均帶有可見水印和不可見的SynthID數(shù)字水印,以聲明其AI生成屬性。開發(fā)者現(xiàn)可通過Gemini API、Google AI Studio和Vertex AI平臺(tái)接入該模型,其定價(jià)為每百萬輸出token 30美元,單張圖像處理成本約0.039美元。