| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
DeepSeek昨晚通過微信交流群通知 ,其DeepSeek R1模型完成小版本升級,并在今日凌晨開源了最新版本模型DeepSeek-R1-0528 。
代碼測試平臺Live CodeBench中顯示,DeepSeek-R1-0528性能可以媲美OpenAI最新的o3(High)模型。
小K今日以一名普通用戶的身份,參考AI基準測試xbench的例題 ,在DeepSeek和OpenAI官網分別對它們最新的R1模型和o3模型進行了對比測試。
第1題小K請DeepSeek和OpenAI模型分別寫了一個可以在網頁上運行的“三國殺 ”游戲。測試維度包括代碼生成 、可運行性、模塊化能力和交互設計 。
DeepSeek的回答直接輸出了完整的網頁游戲源碼,并且點擊能直接運行。前端界面美觀,具備基礎美術元素 ,能完成簡單對戰邏輯。
相比之下,OpenAI給出的解決方案則將前端、腳本和邏輯分別輸出在3個獨立代碼塊中,用戶需自行保存為多個文件 ,運行時還伴有報錯,需要手動調試,不能完成對戰 。而且界面粗糙、無UI美化。
這道題DeepSeek勝出。DeepSeek模型在“代碼工程化”能力上已有顯著優勢 ,表現出對前端框架的更好理解 。
第2題是一道典型的函數構造與嵌套函數推導題:已知f(f(x))=x211x+36f(f(x))=x^2-11x+36,求f(5)。測試維度包括函數反演 、代數推理能力和數學邏輯清晰度。
DeepSeek耗時351秒推導出解法,思考過程非常長 ,進行了反復演算和驗算,過程詳細且邏輯縝密,從代入法到固定點分析再到反設求解,最后合理排除矛盾值 ,最終得出f(5)=6的唯一解答 。
OpenAI則用時僅41秒,給出了同樣正確的答案,而且邏輯清晰、推理精煉。推出固定點、構造反函數思路合理 ,無冗余步驟。
這一題盡管DeepSeek和OpenAI最終均給出了正確答案,但DeepSeek推理時間長,在數學題場景仍待優化 。
第3題是:黑龍江 、吉林、遼寧 ,共有多少個地市級行政單位與外國接壤?測試維度包括地理常識、事實檢索和數據整合能力。
這道題的正確答案是12個。而DeepSeek僅回答了5個。
DeepSeek推理過程中錯誤理解了“地市級單位”是否一定擁有邊境口岸 。例如將黑龍江部分地市(如伊春 、鶴崗)忽略,導致其推理思路存在漏算。
反觀OpenAI正確地點名了12個地市。
第4題是:有一個被剪做鞋樣的歷史文物,對研究唐代均田制起到了重要的作用 ,這個文物中記載的年份,有一位唐朝的一代名相去世,請問這位名相有幾個兒子?測試維度包括歷史考據、細節辨析能力和文獻準確性 。
DeepSeek在此題中出現了幻覺 ,造成誤判,DeepSeek錯將有“一個被剪做鞋樣的歷史文物”關聯至"唐代田界磚",雖最后回答出“有4子 ”,但純屬偶合。
OpenAI正確識別文物“趙懷滿夏田契”署于貞觀十七年(643年) ,對應去世人物為魏徵,并指出魏徵有四子:魏叔玉、魏叔琬 、魏叔璘、魏叔瑜。識別精準,邏輯鏈條完整無誤 。引用舊唐書、新唐書等文獻 ,考證準確。
第5題是:《樂隊的夏天》各季top5樂隊中一共有多少名女性成員?測試維度包括多維信息提取 、成員歸屬辨析、數據整合能力。
DeepSeek依次列舉了三季節目中的Top5樂隊,并從中篩選女性成員(如新褲子的趙夢、刺猬的石璐、安達組合的其其格瑪等),統計結果為5位女性成員 ,并對女性在樂隊中所扮演的角色進行了總結(主唱 、貝斯手、鼓手等) 。用時不到1分鐘即完成高質量統計+表格整理,效率高。
OpenAI也給出了相同的數量,考證細致 ,但花費近6分鐘,在交互場景中顯得拖沓。
通過以上實測可以看出,DeepSeek R1的表現非常接近甚至在部分任務上超過了OpenAI最新O3模型 。在代碼生成、復雜函數推理 、統計等方面 ,DeepSeek展現出全面且穩定的進步,正快速縮小與頂級閉源模型的差距。
(文章來源:科創板日報)
股票杠桿網站:如何炒股配資配資平臺-OpenAI進軍AI視頻社交賽道:Sora模型迎來重磅升級
個人炒股如何加杠桿投資:我要配資平臺-三家官網已變黑白!中金黃金市值蒸發超50億 6名學生遇難最新細節披露
最新股票配資平臺:普通人如何加杠桿炒股-多只醫藥基金今年以來凈值漲逾30% 公募深挖醫藥板塊投資機會
配資平臺正規:最新實盤配資服務-DeepSeek官宣!新模型、新突破、新價格
配資平臺app:配資炒股平臺有哪些-國產創新藥火了!行業是否迎來了“DeepSeek時刻”?
配資股公司官網:10大配資公司最新排名-OpenAI進入新品發布周期 開源模型GPT-OSS打頭陣
還沒有評論,快來說點什么吧~