| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
在視頻生成模型稱霸多個榜單之后 ,谷歌終于將戰(zhàn)火引至圖像領域 。當?shù)貢r間8月26日,谷歌發(fā)布了其最新的圖像生成和編輯模型Gemini 2.5 Flash Image,并迅速登頂多個主流圖像排行榜 ,成為新晉性能冠軍。
第一財經(jīng)記者實測后發(fā)現(xiàn),確實如眾多網(wǎng)友所體驗的那樣,模型各方面表現(xiàn)堪稱優(yōu)秀 ,無論是角色的一致性、提示詞的跟隨 、物理邏輯的真實性還是畫面審美方面都保持了水準。但對中國用戶的一大限制在于不支持中文輸入 。即使用戶使用英文提示,若生成內(nèi)容涉及中文,效果仍會顯著下降。測試中還發(fā)現(xiàn),模型偶爾會出現(xiàn)多肢體等結(jié)構錯誤。
盡管如此 ,Gemini 2.5 Flash Image 仍被廣泛認為是當前市場上最強的圖像編輯和生成模型之一 。谷歌官方演示顯示,該模型已具備替代部分人工修圖的能力,可幫助設計師一鍵完成圖像修改與創(chuàng)意生成 ,也適用于電商產(chǎn)品圖的制作。更值得注意的是,其單張圖像生成成本不到3毛錢,極具性價比 ,有望大幅推進AI圖像生成的商業(yè)化進程。
登頂雙榜單
實際上,在正式發(fā)布之前,市場已經(jīng)有一些風聲。上周一款名為“nano-banana ”的模型出現(xiàn)在大模型競技場中 ,開始接受用戶的匿名體驗和打分,目前投票數(shù)超過250萬 。如今謎底揭曉,“nano-banana”正是Gemini 2.5 Flash Image。
在大模型競技場LMArena的文生圖與圖像編輯兩個場景 ,谷歌的圖像模型均拿下全球第一,在圖像編輯榜單上模型表現(xiàn)尤為出色,獲得1362的高分,以171分的差距領先第二名flux-1-knotext-max。
知名AI基準測試機構Artificial Analysis同樣獲得了早期訪問權限 ,并在過去一周以“rex”的化名在競技場中進行了測試 。目前谷歌的模型在圖像編輯方面排名第一,超過了OpenAI的GPT-4o和國內(nèi)阿里的Qwen-Image-Edit,在文生圖方面則略遜于字節(jié)Seedream 3.0和GPT-4o ,排名第三。
Artificial Analysis還做了一個對比測試,給出了一張圖,讓谷歌、阿里通義和OpenAI三家的模型生成新的照片:在自行車后座上加一名乘客 ,并將地點更改為內(nèi)蒙古的草原。
從輸出結(jié)果看,千問的圖像模型未能準確進行指令跟隨,在畫面真實度上 ,谷歌的模型表現(xiàn)則比GPT-4o更為突出 。
谷歌稱,Gemini 2.5 Flash Image的核心亮點是圖像編輯能力,這一模型可將多個圖像混合到一幅圖像中 ,保持高度的角色一致性,還能使用自然語言進行有針對性修改,并充分利用Gemini的世界知識來生成和編輯圖像。
一直以來,圖像生成中的一個根本挑戰(zhàn)是如何在多個提示和編輯中保持角色或物體的外觀。“我們知道 ,當你編輯自己或熟悉的人時,哪怕是細微的差別都會顯得刺眼 。 ”谷歌官方表示,“差一點但不完全一樣”的效果就是感覺不對 ,模型的最新更新專門針對這一點,讓朋友、家人,甚至寵物始終看起來像他們自己。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)和谷歌DeepMind CEO戴密斯·哈薩比斯(DemisHassabis)在發(fā)布時親自下場帶貨。
皮查伊借助最新模型生成了家里愛犬沖浪 、做大廚的照片 ,畫面質(zhì)感相當不錯 。哈薩比斯則給自己生成了一個肖像照,將照片背景做了修改,切換為古典風格 ,但是人物的容貌沒有出現(xiàn)改變。
從畫面來看,谷歌這一模型可做到在不同的姿勢、光線和環(huán)境中保持人物或角色的相似性,甚至可以將相同的角色應用到新的風格和表面上。
現(xiàn)在用戶使用Gemini App可以免費體驗 ,但面向開發(fā)者的版本,算下來每張生圖成本也不到3毛錢。Gemini 2.5 Flash Image的定價為30美元/100萬個輸出token,每張圖像為1290個輸出token,每張圖像價格約為0.039美元(約合人民幣0.28元) ,這遠低于OpenAI的0.19美元/張的價格 。
實測表現(xiàn):中文是短板,一致性出眾
根據(jù)官方的發(fā)文,Gemini 2.5 Flash Image除了角色一致性方面 ,在渲染文本方面也表現(xiàn)出色。模型可以準確生成包含清晰易讀且位置合理的文本的圖片,非常適合用于徽標、圖表和海報。
在商業(yè)化場景中,例如廣告制作方面 ,主體特點 、主角容貌不變,文字不變形這些都非常重要 。在這一基礎上,谷歌認為 ,他們的模型已經(jīng)能適應產(chǎn)品模型和商業(yè)攝影,為電子商務、廣告或品牌宣傳制作清晰專業(yè)的商品照片。
具體模型在這些方面的表現(xiàn)如何?第一財經(jīng)基于哈薩比斯的肖像照進行了測試。加上一張家里貓咪的照片,讓Gemini融合生成哈薩比斯抱著貓坐在沙發(fā)上的圖像 ,并且更換家居服 。
從第一次輸出結(jié)果來看基本上找不出瑕疵,AI此前容易犯的錯包括手指變形、虛化的背景形態(tài)錯誤、人物容貌細微變化等等都沒有發(fā)生,甚至連哈薩比斯左手的手表細節(jié)都保持了一致。唯一不夠滿意的是,畫面雖然是高清圖 ,但分辨率并不高。
接下來,第一財經(jīng)記者加大難度,讓貓坐在沙發(fā)上 ,而哈薩比斯手里拿一本漢語大詞典正在翻閱,沙發(fā)換成深綠色 。
可以看到,第二次生成時 ,模型在涉及中文場景的畫面時開始出現(xiàn)錯誤,哈薩比斯拿著的并不是漢語大詞典,甚至很難對應上正確的中文字體 ,但顏色和形狀上保持了合理性。
第一財經(jīng)記者進一步更改提示詞,讓模型發(fā)揮想象力,將貓換成主角 ,坐在沙發(fā)翻閱牛津詞典,并讓哈薩比斯在旁邊給貓按摩。
在這一步,模型開始出現(xiàn)明顯的錯誤,指令并沒有完全跟隨 ,甚至貓多出了一條腿 。不過,確實如官方所說,在英文場景下 ,文字的渲染沒有出現(xiàn)差錯,哈薩比斯手中牛津詞典的書名拼寫完全正確。
綜上,該模型在面貌一致性 、文本準確性方面表現(xiàn)優(yōu)異 ,尤其擅長英文環(huán)境;而在中文理解與復雜構圖指令方面仍存在明顯缺陷。
在商業(yè)應用上,基于模型性能的提升,或許將重塑設計、廣告與電商行業(yè)。
官方表示 ,模型支持用自然語言進行針對性地變換和精準局部編輯 。例如,可以模糊圖像背景、去除T恤上的污漬 、從照片中移除整個人物、改變拍攝對象的姿勢、為黑白照片添加顏色。這很大程度上已經(jīng)能替代圖像領域的王者Adobe的PS,可見的未來 ,修圖師的地位也岌岌可危。
在設計領域,一些圖形風格更改也可以一鍵完成了 。谷歌提到,模型現(xiàn)在可以輕松地將其從一張圖像轉(zhuǎn)移到另一張圖像,同時保留前一個主題的形式和細節(jié) ,這種一致性可用于專業(yè)設計場景。例如,模型能在不改變形狀和細節(jié)的前提下,完成紋理的更換。
在物理知識方面 ,模型表現(xiàn)也較為出色 。根據(jù)谷歌的案例,給模型一個氣球飄向仙人掌的視覺圖像后,提示其想象生成下一個可能的情況。從畫面來看 ,模型能夠預判氣球爆炸后的物理特征。
在電商場景中,已有海外用戶嘗試用該模型生成商品展示圖 。如將人物手中的涂抹區(qū)域替換為香奈兒手袋,效果逼真 ,幾乎看不出合成痕跡。
可以預見,隨著生成效果不斷優(yōu)化與使用成本持續(xù)降低,Gemini 2.5 Flash Image 有望加速AI在電商 、廣告、設計乃至專業(yè)攝影領域的影響和替代效應 ,修圖師與部分視覺設計師的工作內(nèi)容,或?qū)⒈恢匦露x。
(文章來源:第一財經(jīng))
線上股票配資軟件:在線配資服務-華為昇騰、寒武紀、海光信息適配DeepSeek最新模型
在線配資炒股開戶服務:股票配資網(wǎng)站排行-工業(yè)下半年穩(wěn)增長部署:傳統(tǒng)行業(yè)和未來產(chǎn)業(yè)并進
最新實盤配資服務:在線股票炒股配資門戶-暴跌!芯片巨頭突傳利空 美國銀行下調(diào)多只芯片股評級
在線配資服務:十大股票網(wǎng)站-新材料產(chǎn)業(yè)或首破10萬億!正迎來前所未有的發(fā)展機遇
配資股服務:在線配資交易·加杠網(wǎng)-418只個股流通市值不足20億元
在線配資服務:恒指配資開戶-“超級牛散”屠文斌被重罰!因操縱股票被證監(jiān)會罰沒近7700萬元
配資專業(yè)在線配資炒股:國內(nèi)十大配資平臺-華為宣布!旗下新款鴻蒙平板電腦華為MatePad Pro 12.2英寸今日10:08正式開售
在線配資開戶網(wǎng)站:短線配資網(wǎng)站-谷歌發(fā)布Pixel 10系列手機:AI全面加持,直面蘋果挑戰(zhàn)
還沒有評論,快來說點什么吧~