| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
8月12日,華為發布了AI推理創新技術UCM(推理記憶數據管理器 ,Unified Cache Manager)。
簡單來說,這是專門面向大模型推理過程的“緩存管理技術”,目的是為了優化推理速度 、效率和成本 。
具體來看,UCM是一款以KV Cache為中心的推理加速套件 ,其融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口 ,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。
現場,華為公司副總裁、數據存儲產品線總裁周躍峰表示 ,UCM推理記憶數據管理器旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。同時 ,華為聯手中國銀聯率先在金融典型場景開展UCM技術試點應用,并聯合發布智慧金融AI推理加速方案應用成果。
UCM是什么
對于上述頗多術語的介紹,我們來拆解一下 。
首先 ,什么是KV Cache?
據了解,KV Cache是一種用于優化Transformer等模型推理速度的技術,它的核心思想就是把歷史 token的Key和Value(矩陣)緩存下來,下次生成時直接用 ,避免重新算,從而提升推理速度、降低計算成本。代價是會占用更多內存,所以它是一種“用內存換計算 ”的工程優化手段。
換言之 ,KV Cache是一種存儲機制,打個比方,就像是“模型推理過程中的記憶本” ,用來臨時保存計算中間結果,讓后續步驟少做重復工作 。
那么為什么要推出UCM?因為推理過程中仍存在不少痛點。
隨著AI產業已從“追求模型能力的極限” 轉向“追求推理體驗的最優化”,推理體驗直接關聯用戶滿意度 、商業可行性等。推理體驗直接關系到用戶與AI交互時的感受 ,包括回答問題的時延、答案的準確度以及復雜上下文的推理能力等方面 。
資料顯示,國外主流模型的單用戶輸出速度已進入 200 Tokens/s區間(時延 5 ms),而我國普遍小于60 Tokens/s(時延50 – 100 ms) ,因此,如何解決推理效率與用戶體驗的難題迫在眉睫。目前,包括華為在內,各大科技企業都會在調度KV Cache基礎上 ,研發優化推理過程的技術。
華為最新的UCM就引入融合了更多的算法工具,可以對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator) 、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協同 ,實現AI推理“更優體驗 、更低成本 ” 。
比如,華為介紹道,依托UCM層級化自適應的全局前綴緩存技術 ,系統能直接調用KV緩存數據,避免重復計算,使首Token時延最大降低90%。
據悉 ,在華為與中國銀聯的聯合創新技術試點中,中國銀聯“客戶之聲”業務場景下,借助UCM技術及工程化手段 ,大模型推理速度提升125倍,僅需10秒即可精準識別客戶高頻問題,促進服務質量提升。
為何率先在金融行業應用?金融業天然有數字化屬性,也是數字化最早的領域之一 ,因此金融行業率先落地有數據基礎和技術需求,尤其是生成式AI浪潮中,如何用好大模型服務業務是重要課題 。同時金融對速度、效率、安全 、可靠性等要求高 ,也是驗證技術的標桿場景。
未來,中國銀聯將依托國家人工智能應用中試基地,聯合華為等生態伙伴共建“AI+金融”示范應用 ,推動技術成果從“實驗室驗證 ”走向“規模化應用”。
華為的差異化路徑
談及UCM的差異化,華為數據存儲產品線AI存儲首席架構師向21世紀經濟報道記者表示,當前 ,業界在分級緩存管理方面已有許多探索與實踐,華為UCM在這一領域的最大優勢在于將專業存儲能力引入其中,引入后在軟硬件協同與卸載方面做了大量工作 ,例如直通加速、KV檢索索引與底層文件系統元數據的融合等。同時,在KV Cache生命周期管理方面,UCM具備預熱、分級 、淘汰等一整套機制,這是UCM在N級緩存管理上的差異化能力之一 。
其次 ,上述專家提到,在算法加速庫方面,業界現有方案普遍只停留在Prefix Cache這一層面 ,并未像華為一樣,將稀疏全流程算法、后綴檢索算法等投入商用,也缺乏多樣化的技術手段。相比之下 ,UCM在這一層貢獻了更多、更豐富、更可靠的算法,算法庫還在不斷擴展完善。
此外,UCM的體系更加完整 ,專家談道,推理場景多種多樣,請求的輸入輸出變化極大 ,而目前業界缺乏一套在各種場景下都能普適適用的框架 、加速機制與算法 。UCM能夠在各種長短序列、不同請求條件下,實現自動切換與自適應的平滑優化。
“華為希望通過將部分成果開放,促進框架廠商、存儲廠商以及算力廠商共同加速這一框架機制的成熟,最終解決當前AI行業落地過程中的效率與成本問題。”專家說道 。
今天 ,華為還正式公布了UCM開源計劃。UCM通過開放統一的南北向接口,可適配多類型推理引擎框架 、算力及存儲系統。今年9月,UCM將正式開源 ,后續逐步貢獻給業界主流推理引擎社區,和全產業共同推動AI推理生態的繁榮發展 。
整體而言,一方面是華為在AI推理技術層面持續進行研發 ,UCM也是結合華為存儲技術的積累進行創新;另一方面,在AI的布局上,華為繼續在產業鏈的各個環節進行升級 ,實現系統性的提升。
業內人士指出,國外領先芯片廠商通過硬件迭代、軟件優化、生態綁定構建了推理時代的“鐵三角 ”,短期內難以被代替。中國單點硬件技術 ,如芯片設計上有所突破,但國產軟件及生態適配還有差距,華為等科技廠商也在不斷補上生態短板 。
正如華為專家所言:“大家一定要關注網絡 、存儲、端到端的系統性、成本降低,才能有效的去加速AI的落地。從單點的算力模組轉向系統性優化 ,這是大趨勢。”
(文章來源:21世紀經濟報道)
正規在線配資知識門戶:炒股配資平臺股票配資門戶-華為將發布AI應用新成果 杠桿資金潛伏多只滯漲概念股
股票配資網站:國內正規配資平臺有哪些-華為將發布AI推理創新技術UCM 實現高吞吐、低時延體驗
正規杠桿炒股平臺:股票配資門戶推薦-挑戰維基百科!馬斯克推出AI百科全書Grokipedia
中國十大正規炒股平臺:免費杠桿配資門戶網-李強:持續激發消費潛力 系統清理消費領域限制性措施
配資操盤推薦網:河北配資平臺-華為將發布AI推理領域突破性成果 完善中國AI推理生態關鍵部分
配資:配資炒股哪個平臺正規-共創AI新應用,匯付支付智慧支付中臺打造零售&餐飲增長“新引擎”
還沒有評論,快來說點什么吧~