日韩国产高清在线观看,黄色av免费电影,欧美69式视频

黄大色黄大片女爽一次,丁香一区二区三区,精品一区日韩,www.国产网站,日韩欧美视频在线播放,性视频久久,欧美日日日日bbbbb视频

　　3月24日，據(jù)證券時報報道，近日，螞蟻集團 Ling 團隊在預印版 Arxiv 平臺發(fā)表技術(shù)成果論文《每一個 FLOP 都至關(guān)重要：無需高級 GPU 即可擴展 3000 億參數(shù)混合專家 LING 大模型》，宣布推出兩款不同規(guī)模的 MoE （混合專家）大語言模型 —— 百靈輕量版（Ling-Lite）與百靈增強版（Ling-Plus），并提出一系列創(chuàng)新方法，實現(xiàn)在低性能硬件上高效訓練大模型，顯著降低成本。

　　據(jù)IT之家了解，百靈輕量版參數(shù)規(guī)模為 168 億（激活參數(shù) 27.5 億），增強版基座模型參數(shù)規(guī)模高達 2900 億（激活參數(shù) 288 億），性能均達行業(yè)領(lǐng)先水平。實驗表明，其 3000 億參數(shù)的 MoE 大模型可在使用國產(chǎn) GPU 的低性能設(shè)備上完成高效訓練，性能與完全使用英偉達芯片、同規(guī)模的稠密模型及 MoE 模型相當。

　　當前，MoE 模型訓練通常依賴英偉達 H100 / H800 等高性能 GPU，成本高昂且芯片短缺，限制了其在資源受限環(huán)境中的應(yīng)用。螞蟻集團 Ling 團隊提出“不使用高級 GPU”擴展模型的目標，通過創(chuàng)新訓練策略，突破資源與預算限制。具體策略包括：架構(gòu)與訓練策略革新，采用動態(tài)參數(shù)分配與混合精度調(diào)度技術(shù)；升級訓練異常處理機制，自適應(yīng)容錯恢復系統(tǒng)縮短中斷響應(yīng)時間；優(yōu)化模型評估流程，自動化評測框架壓縮驗證周期超 50%；突破工具調(diào)用能力，基于知識圖譜的指令微調(diào)提升復雜任務(wù)執(zhí)行精度。

　　在五種不同硬件配置下，Ling 團隊對 9 萬億個 token 進行 Ling-Plus 預訓練。結(jié)果顯示，使用高性能硬件配置訓練 1 萬億 token 的預訓練成本約 635 萬元人民幣，而采用螞蟻優(yōu)化方法后，低規(guī)格硬件訓練成本降至 508 萬元左右，節(jié)省近 20%，且性能與阿里通義 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相當。

　　此前，DeepSeek 通過算法創(chuàng)新及工程優(yōu)化，使用英偉達 H800 訓練出性能頂尖的 V3 與 R1 模型，為降低成本、提高效率開辟新道路。螞蟻集團的技術(shù)成果若得到驗證推廣，將助力國產(chǎn)大模型尋找成本更低、效率更高的國產(chǎn)芯片或其他替代方案，進一步降低對英偉達芯片的依賴。

專題