| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
DeepSeek開源新模型:用視覺模式實現上下文壓縮。
10月20日 ,DeepSeek宣布開源最新大模型DeepSeek-OCR 。所謂的OCR,據DeepSeek在論文中解釋稱,是通過光學2D映射壓縮長上下文可行性的初步研究。DeepSeek-OCR由兩部分組成:DeepEncoder和作為解碼器的DeepSeek3B-MoE-A570M。DeepEncoder作為核心引擎 ,設計為在高分辨率輸入下保持低激活,同時實現高壓縮比,以確保視覺tokens數量優化且可管理 。
通俗而言 ,這是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內容,以此降低大模型的計算開銷。
據公布的論文名單顯示,該項目由DeepSeek三位研究員Haoran Wei、Yaofeng Sun 、Yukun Li共同完成 ,但這三位核心作者都頗為低調,其中一作作者Haoran Wei曾在階躍星辰工作過,曾主導開發旨在實現“第二代 OCR ”的GOT-OCR2.0系統。
DeepSeek-OCR的架構分為兩部分 。一是DeepEncoder ,一個專為高壓縮、高分辨率文檔處理設計的視覺編碼器;二是DeepSeek3B-MoE,一個輕量級混合專家語言解碼器。這款剛開源不久的新模型,發布后就得到海外科技媒體廣泛贊美 ,有網友盛贊:“這是AI的JPEG時刻。”
前特斯拉AI總監、OpenAI創始成員安德烈·卡帕西(Andrej Karpathy)在社交媒體高度評價DeepSeek的新模型,他表示,自己相當喜歡新的DeepSeek-OCR論文 ,“它是一個很好的OCR模型(可能比dots稍微差一點),是的,數據收集等等 ,但無論如何都不重要。對我來說更有趣的部分(尤其是作為一個以計算機視覺為核心,暫時偽裝成自然語言的人)是像素是否比文本更適合作為LLM的輸入 。作為輸入,文本標記是否浪費且糟糕。”
根據他的設想,或許所有LLM的輸入都只應該是圖像。即便是純文本內容 ,也應該先渲染成圖片再輸入給模型,其中理由包括:信息壓縮效率更高 、像素更通用、支持雙向注意力、可淘汰存在安全隱患的分詞器(Tokenizer) 。
特斯拉創始人馬斯克(Elon Musk)也現身評論區,并表示:“從長遠來看 ,AI模型超過99%的輸入和輸出都將是光子,沒有其他任何東西可以規模化。 ”
知名科技媒體《麻省理工科技評論》解釋稱,DeepEncoder是整個系統的關鍵所在。它的設計目標在于 ,在處理高分辨率輸入圖像的同時,保持較低的激活內存,并實現極高的壓縮比 。為達到這一目的 ,DeepEncoder融合兩種成熟的視覺模型架構:SAM(Segment Anything Model)和 CLIP(Contrastive Language–Image Pre-training)。前者以窗口注意力機制(window attention)見長,擅長處理局部細節,構成編碼器的前半部分;后者則依賴密集的全局注意力機制(global attention) ,能夠捕獲整體知識信息。
《麻省理工科技評論》表示,除了文本識別性能,DeepSeek-OCR還具備較強的“深度解析”能力 。這得益于其訓練數據中包含了圖表 、化學分子式、幾何圖形等多樣化的視覺內容。因此,模型不僅能識別標準文本 ,還能對文檔中嵌入的復雜元素進行結構化解析。例如,它可以將報告中的圖表轉換為表格數據,將化學文獻中的分子式輸出為SMILES格式 ,或解析幾何圖形中的線段關系 。這種超越傳統文本識別的能力,拓展了其在金融、科研、教育等專業領域的應用空間。
DeepSeek介紹,實驗表明 ,當文本tokens數量在視覺tokens的10倍以內(即壓縮比<10×)時,模型可達到97%的OCR精度。即使在20×壓縮比下,OCR精度仍保持在約60%。這為歷史長上下文壓縮和LLM中的記憶遺忘機制等研究領域展示可觀前景 。
DeepSeek-OCR還初步驗證上下文光學壓縮的可行性 ,證明模型可以從少量視覺tokens中有效解碼超過10倍數量的文本tokens。DeepSeek-OCR也是一個高度實用的模型,可大規模生產預訓練數據,“未來 ,我們將進行數字-光學文本交錯預訓練 、大海撈針測試等進一步評估,繼續推動這一有前景的研究方向。”
據海外科技媒體分析,研究團隊表示,在基準測試中 ,DeepSeek-OCR優于多個主流模型,且使用的視覺tokens數量少得多 。此外,單張A100-40G GPU每天可生成超過20萬頁的訓練數據 ,可為大型語言模型和視覺-語言模型的開發提供支持。
前網易副總裁、杭州研究院執行院長汪源發文表示,DeepSeek-OCR模型是一個專門能“讀懂 ”圖片里文字的AI模型。但厲害的地方不是簡單“識字”,是采用了一種非常新穎的思路:把文字當成圖片來處理和壓縮 。
汪源認為 ,可以把它想象成一個超級高效的“視覺壓縮器”,傳統的AI模型是直接“讀”文本,但 DeepSeek-OCR 是先“看 ”文本的圖像 ,然后把一頁文檔的圖片信息高度壓縮成很少的視覺tokens。DeepSeek-OCR的能力強在能把一篇1000字的文章,壓縮成100個視覺tokens。在十倍的壓縮下,識別準確率可以達到96.5% 。
在線炒股配資服務網:配資證券開戶-醫藥股表現活躍 康泰醫學等漲停 機構建議關注兩類標的
恒指配資開戶:券商按月配資-兩市成交額不足萬億元 A股又到重要時刻!午后化工板塊為何持續拉升?
在線配資查詢服務:配資網官網入口-國產AI軟硬協同加速:DeepSeek新模型上線 一眾芯片廠商官宣Day 0適配
正規在線炒股配資知識門戶:配資開戶平臺找加杠網-中央匯金新動向披露!加倉白酒ETF 機構關注白酒機會
線上股票配資軟件:在線配資服務-華為昇騰、寒武紀、海光信息適配DeepSeek最新模型
配資開戶大全:在線配資論壇-科沃斯目標漲幅超46% 瑞納智能獲“增持”評級丨券商評級觀察
還沒有評論,快來說點什么吧~