2025年8月12日,在“2025金融AI推理應(yīng)用落地與發(fā)展論壇”上,華為發(fā)布了AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),并計(jì)劃于9月開(kāi)源。
UCM是一款以KV Cache為中心的推理加速套件,它融合多類(lèi)型緩存加速算法工具,對(duì)推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù)進(jìn)行分級(jí)管理。通過(guò)層級(jí)化自適應(yīng)的全局前綴緩存技術(shù),將推理過(guò)程中產(chǎn)生的KV數(shù)據(jù)按熱度分級(jí)存儲(chǔ)在HBM、DRAM和SSD中。同時(shí),通過(guò)動(dòng)態(tài)KV分層卸載和位置編碼擴(kuò)展技術(shù),將超長(zhǎng)序列的KV Cache從GPU顯存轉(zhuǎn)移至外置專(zhuān)業(yè)存儲(chǔ),突破硬件顯存容量限制。
首Token時(shí)延降低90%:UCM在多輪對(duì)話(huà)、知識(shí)檢索等場(chǎng)景中可直接復(fù)用歷史KV數(shù)據(jù),避免重復(fù)計(jì)算。如在實(shí)時(shí)客服對(duì)話(huà)中,首Token響應(yīng)時(shí)間可從50-100ms縮短至5ms以?xún)?nèi)。
長(zhǎng)序列處理效率提升2-22倍:在金融、科研等處理超長(zhǎng)文本場(chǎng)景中,UCM通過(guò)稀疏注意力算法和分級(jí)緩存策略,使每秒處理Token數(shù)(TPS)顯著優(yōu)于傳統(tǒng)方案。
推理成本降低:分級(jí)緩存策略使單Token處理能耗降低28%,減少了對(duì)HBM的依賴(lài),硬件采購(gòu)成本顯著降低。同時(shí),在保持算力基礎(chǔ)設(shè)施不變的前提下,將每Token推理成本降低30%以上。
華為將于2025年9月在魔擎社區(qū)首發(fā)開(kāi)源UCM,后續(xù)逐步貢獻(xiàn)給Hugging Face、TensorRT等主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。