知名科學(xué)雜志《Nature》此前發(fā)表了一篇關(guān)于大模型未來發(fā)展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。爭(zhēng)議的出現(xiàn),意味著AI發(fā)展方向出現(xiàn)了分歧。
“現(xiàn)實(shí)的算力是有限的,我們一再反復(fù)強(qiáng)調(diào)模算效率,試圖針對(duì)當(dāng)前算力情況闖出一條自己覺得比較好的路子。在固定每個(gè)Token算力不變的情況下,通過擴(kuò)展專家數(shù)量可以獲得更大參數(shù)量的模型,進(jìn)而獲得更高精度?!眳巧厝A說。
博鱼电子注册有業(yè)界技術(shù)團(tuán)隊(duì)測(cè)算,若要對(duì)一個(gè)5000億參數(shù)規(guī)模的單體大模型進(jìn)行充分訓(xùn)練,所需算力基礎(chǔ)設(shè)施約在10億美元規(guī)模,每年消耗的電費(fèi)在5.3億元人民幣。無論對(duì)于哪個(gè)機(jī)構(gòu)、企業(yè),這都是天文數(shù)字和巨大代價(jià),中國也不例外。
他進(jìn)一步稱,整體來看,盡管當(dāng)前模型的能力提升非常之快,但之前大家更多關(guān)注單個(gè)維度問題,即平均精度的提升。但大模型進(jìn)入快速落地時(shí)代,就不得不考慮更多維度的問題,包括模算效率、精度、算力開銷等。
浪潮信息人工智能首席科學(xué)家吳韶華在接受中新網(wǎng)記者采訪時(shí)說,我們一直在想如何以更低的算力消耗,提高整個(gè)大模型的應(yīng)用效果,能讓企業(yè)、機(jī)構(gòu)以更小的算力代價(jià)去獲得更高的模型能力?!斑@可能是中國發(fā)展自己的AI大模型比較行之有效的路徑?!?/p>
從浪潮信息發(fā)布的“源2.0-M32”開源大模型來看,其基于“源2.0”系列大模型已有工作基礎(chǔ),創(chuàng)新提出和采用了“基于注意力機(jī)制的門控網(wǎng)絡(luò)”技術(shù),構(gòu)建包含32個(gè)專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運(yùn)行時(shí)激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評(píng)測(cè)中性能全面對(duì)標(biāo)700億參數(shù)的LLaMA3開源大模型。
他直言,大模型推進(jìn)速度越來越快,必須強(qiáng)調(diào)模型算力效率?!按蠹铱梢韵胂?,效率越高就意味著在單位算力投入相等的情況下獲得的精度回報(bào)越高,它對(duì)于訓(xùn)練和應(yīng)用都非常有利?!?/p>
鄭緯民表示,現(xiàn)有14個(gè)國家掛牌的超算系統(tǒng),每臺(tái)機(jī)器的建設(shè)成本都很高,成本在10億元至20億元,甚至更高。這些超算系統(tǒng)已經(jīng)為中國的國民經(jīng)濟(jì)發(fā)展作出巨大貢獻(xiàn),但有些系統(tǒng)還有空余算力,這些空余算力也可被用來做大模型訓(xùn)練,且經(jīng)過優(yōu)化甚至可降低大模型訓(xùn)練成本。
MoE大模型的盛行,實(shí)際上對(duì)應(yīng)的正是模型能力和算力開銷兩大問題的解決。這也是為何眾多大模型廠商如OpenAI、谷歌、Mistral AI、浪潮信息等陸續(xù)基于MoE架構(gòu)升級(jí)自家大模型產(chǎn)品的原因。
中國工程院院士鄭緯民曾做過這樣的計(jì)算,在大模型訓(xùn)練過程中,70%開銷要花在算力上;推理過程中95%的花費(fèi)也是在算力上。
對(duì)大模型推理成本的優(yōu)化,可通過很多技術(shù)手段實(shí)現(xiàn)。首先是模型本身,模型結(jié)構(gòu)、訓(xùn)練方法都可以持續(xù)改進(jìn),包括業(yè)界很關(guān)注的MoE(混合專家模型),就是優(yōu)化推理成本很好的解決方案。其次是工程上的優(yōu)化。大模型的調(diào)用量越大,優(yōu)化推理成本的空間也越大。以前的模型都是單機(jī)推理,大模型用的是分布式推理。所以如果能把各種各樣底層算力用得更好,推理成本就會(huì)大大降低。
338.88MB
查看615.33MB
查看33.6MB
查看247.83MB
查看
網(wǎng)友評(píng)論更多
57新泰x
被南方電網(wǎng)供應(yīng)鏈拉黑 長(zhǎng)城汽車道歉🤹🤽
2024-09-22 07:17:26 推薦
187****2911 回復(fù) 184****3375:2024年8月22日漲停板早知道:七大利好有望發(fā)酵🤾來自肥城
187****3163 回復(fù) 184****2341:468億資金爭(zhēng)奪20股:主力資金重點(diǎn)出擊13股🧑來自鄒平
157****8905:按最下面的歷史版本🧒🧓來自鄭州
82開封798
天奇股份兩大主業(yè)承壓中期虧7851萬 擬1.48億剝離虧損資產(chǎn)優(yōu)化結(jié)構(gòu)減壓🧔🧕
2024-09-24 17:09:22 推薦
永久VIP:暴跌可能重演!德銀:五大危險(xiǎn)信號(hào)尚未解除🧖來自洛陽
158****1841:境外債務(wù)重組有進(jìn)展佳兆業(yè)危機(jī)尚懸🧗來自平頂山
158****5914 回復(fù) 666🧘:“818理財(cái)節(jié)”過后 券商財(cái)富管理如何保持“后勁”🧙來自安陽
18鶴壁vt
黃金變現(xiàn),攻略來了!應(yīng)該去哪賣?哪個(gè)渠道更靠譜?🧚🧜
2024-09-23 05:52:22 不推薦
新鄉(xiāng)wb:130億美元債務(wù)懸頂! 美銀、大摩等投行成馬斯克推特收購案最慘“背鍋俠”🧝
186****7720 回復(fù) 159****8467:開盤:美股周三小幅高開 市場(chǎng)等待美聯(lián)儲(chǔ)會(huì)議紀(jì)要😀