| 代碼 | 名稱 | 當前價 | 漲跌幅 | 最高價 | 最低價 | 成交量(萬) |
|---|
8月12日下午,華為正式發布AI推理“黑科技”UCM(推理記憶數據管理器) ,助力解決AI推理效率與用戶體驗的難題。
來源:中國基金報記者拍攝
AI推理是AI產業在下一階段的發展重心 。AI產業已從“追求模型能力極限 ”轉向“追求推理體驗最優化”,推理體驗直接關聯用戶滿意度、商業可行性等核心需求,成為衡量AI模型價值的黃金標尺。
據悉 ,華為計劃在9月開源UCM。屆時,華為將在魔擎社區首發,后續逐步貢獻給業界主流推理引擎社區,并共享給所有Share Everything(共享架構)的存儲廠商和生態伙伴 。
UCM將提升推理系統效率和性能
UCM是一款以KV Cache(鍵值緩存)為中心的推理加速套件 ,融合多類型緩存加速算法工具,可以分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口 ,以實現高吞吐 、低時延的推理體驗,從而降低每個Token(詞元)的推理成本。
來源:中國基金報記者拍攝
KV Cache是一種用于優化計算效率、減少重復運算的關鍵技術,但是需要占用GPU(圖形處理器)的顯存存儲歷史KV(鍵值)向量 ,生成的文本越長,緩存的數據量越大。
隨著AI產業的發展邁入代理式人工智能時代,模型規模化擴張、長序列需求激增 ,以及推理任務并發量增長,導致AI推理的KV Cache容量增長,超出了顯存的承載能力。
目前 ,國外領先芯片廠商通過從硬件迭代到軟件優化,再到生態綁定,構建起AI推理時代的“鐵三角”,短期內難以被代替 。中國企業在單點硬件技術上有所突破 ,但國產軟件及生態適配仍有較大差距。
隨著信息技術應用創新產業的國產化改造提速,各行業逐步意識到需要加速構建國產推理生態。UCM的核心價值在于提供更快的推理響應 、更長的推理序列等 。
以提供更長的推理序列為例,UCM通過動態KV逐層卸載、位置編碼擴展等組合技術 ,將超長序列的Cache(緩存)分層卸載至外置專業存儲,利用算法突破模型和資源限制,實現10倍級推理上下文窗口擴展。
UCM提供更低推理成本
華為聯手中國銀聯落地三大場景
據悉 ,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2至22倍 ,從而降低每個Token的推理成本。
Token是AI模型中的基本數據單位 。在訓練過程中,AI大模型會學習標記Token之間的關系,從而執行推理并生成準確 、相關的輸出。
數據顯示 ,國外主流AI大模型的單用戶輸出速度已進入200 Tokens/s區間(時延5ms),而我國主流AI大模型的單用戶輸出速度普遍小于60 Tokens/s(時延50至100ms)。
同時,隨著AI應用向各類實際場景深度滲透,用戶規模和請求量急劇攀升 ,模型分析和生成的Token數呈現指數級增長態勢 。
巨大的Token處理量意味著高昂的運營成本,包括服務器維護、電力消耗持續攀升等,而保障流暢推理體驗需要加大算力投入。
最大化的單Token智能承載力和優化成本 ,成為眾多廠商的核心目標,并且Token經濟時代來臨,訓練、推理效率與體驗量綱都以Token為表征。
目前 ,華為AI推理加速方案結合UCM與華為AI存儲(OceanStor A系列)技術,與中國銀聯開展智慧金融AI推理加速應用試點,三大落地業務場景分別是客戶之聲 、營銷策劃、辦公助手 。
來源:中國基金報記者拍攝
以辦公助手場景為例 ,通過應用華為AI推理加速方案,可支持用戶輸入超過17萬Tokens的超長序列推理,避免超長序列模型推不動的問題。
(文章來源:中國基金報)
股票配資網站:國內正規配資平臺有哪些-華為將發布AI推理創新技術UCM 實現高吞吐、低時延體驗
正規在線配資知識門戶:炒股配資平臺股票配資門戶-華為將發布AI應用新成果 杠桿資金潛伏多只滯漲概念股
股票加杠桿具體步驟:配資門戶平臺-如何打破“玩具”標簽與同質化困局?劉慶峰:四大關鍵核心破解AI落地難題
網上股票杠桿平臺:股票配資怎么賺錢-多家私募看好AI產業鏈投資!科技板塊有望迎來修復行情
股票杠桿第三方平臺:實盤配資平臺查詢-美股三大指數集體下跌 納指跌超1% 大型科技股普遍走弱
最安全的杠桿炒股平臺有哪些:股票配資鏈接-特朗普擬舉辦AI晚宴 科技大佬齊聚白宮 馬斯克未列受邀名單
還沒有評論,快來說點什么吧~