在訓(xùn)練人工智能大模型的過程中,采購超級(jí)計(jì)算服務(wù)或存儲(chǔ)器,也正在成為有效緩解算力焦慮的新途徑。
近日,中國工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民在與新浪科技溝通中指出,“過去訓(xùn)練一個(gè)大模型要投入幾十億,但如果把大模型訓(xùn)練拿到超算上去做,價(jià)錢只需要用到英偉達(dá)的六分之一。”
此外,鄭緯民還指出了一種全新的AI推理發(fā)展新趨勢(shì)——“以存換算”。他以清華大學(xué)與AI獨(dú)角獸企業(yè)月之暗面共同開發(fā)的Mooncake技術(shù)框架為例,介紹了該技術(shù)基于“以存換算”思路,幫助月之暗面kimi智能助手緩解算力緊張需求的原理,從而避免服務(wù)器宕機(jī)。
“把大模型訓(xùn)練搬到超算上,價(jià)錢只需英偉達(dá)1/6”
鄭緯民看到,在經(jīng)過ChatGPT發(fā)布后全球各科技企業(yè)快速追趕后,今年大模型有兩個(gè)特點(diǎn):第一,基礎(chǔ)大模型進(jìn)入多模態(tài)狀態(tài),不只有文本,還有圖像、視頻等;第二,真的用起來了,大模型正與各行業(yè)實(shí)際的結(jié)合,比如大模型+金融,大模型+醫(yī)療、大模型+汽車、大模型+智能制造等。
“大模型真的在與國民經(jīng)濟(jì)GDP、跟人們的生活水平密切結(jié)合,我一直認(rèn)為基礎(chǔ)大模型我們的水平跟美國比還是差一點(diǎn),但‘大模型+’這件事,我們還是有希望超過美國的。”鄭緯民表示。
然而,大模型真實(shí)的應(yīng)用過程中,在涉及數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型微調(diào)、模型推理等五個(gè)環(huán)節(jié)在內(nèi)的全生命周期中,卻需要大量的算力資源。如何以更低的成本獲取更加高效、更高可靠的AI大模型算力資源,成為每家企業(yè)都在思考的問題。
迫于海外高端芯片獲取的困難,目前國內(nèi)為滿足AI大模型訓(xùn)練帶來的海量算力需求,主要發(fā)展出的一種解決思路是:通過搭建千卡、萬卡集群,通過海量芯片半導(dǎo)體堆疊,采購多家廠商的芯片進(jìn)行異構(gòu)卡聯(lián)合訓(xùn)練,來滿足自己大模型產(chǎn)品訓(xùn)練的海量算力需求。但在鄭緯民看來,這種方式雖能解決算力緊缺問題,但也存在一些弊端。
首先,對(duì)于構(gòu)建國產(chǎn)萬卡系統(tǒng),建成固然重要,但用好卻很難。鄭緯民以自己做高性能計(jì)算的親身經(jīng)歷現(xiàn)身說法道:“建一個(gè)2000卡的系統(tǒng),其中1000塊用英偉達(dá)芯片,另外1000塊用其他廠家的,系統(tǒng)建成也運(yùn)轉(zhuǎn)起來了,但最終發(fā)現(xiàn)這些芯片性能不一,有的本事小一點(diǎn),有的本事大一點(diǎn),一個(gè)任務(wù)下來分成2000份,還要給其中1000個(gè)芯片分小一點(diǎn)的任務(wù),另外1000個(gè)分大一點(diǎn)的任務(wù),這還是靜態(tài)的,如果是動(dòng)態(tài)的,則直接分成了2000份最小的進(jìn)行處理,性能很低。”
鄭緯民指出,大規(guī)模算力集群建設(shè)過程中存在木桶效應(yīng),有的計(jì)算卡能力強(qiáng),有的則弱,就像整個(gè)桶裝多少水最終是由短板決定的,板子再長也沒有用。“所以1000個(gè)老GPU和1000個(gè)新GPU合起來,性能比2000個(gè)老GPU性能還低一點(diǎn),做大規(guī)模算力集群的成本也挺大。”
在鄭緯民看來,進(jìn)行大規(guī)模異構(gòu)卡聯(lián)合訓(xùn)練,在靜態(tài)環(huán)境下想要實(shí)現(xiàn)最高的性能很難,并不劃算,如果再涉及異地卡,就會(huì)更難,數(shù)據(jù)從北京傳到貴州,貴州做出來結(jié)果再送到上海,這中間涉及的時(shí)間成本極高。“錢少的人不需要做,錢多的人可以試試。”
鄭緯民建議企業(yè)嘗試采用超算來進(jìn)行AI大模型訓(xùn)練。“我國有14億超算系統(tǒng),錢都是國家付的,有的機(jī)器還有一點(diǎn)富余,因?yàn)閲鴥?nèi)超算機(jī)器收費(fèi)便宜,不像英偉達(dá)要把機(jī)器成本收回來還要賺錢,所以大家做大模型訓(xùn)練到青島神威超算上做,六分之一的價(jià)格就夠了。”鄭緯民表示。
“以存換算,能夠有效降低AI推理成本”
事實(shí)上,大模型真實(shí)的應(yīng)用過程中,在涉及數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型微調(diào)、模型推理等五個(gè)環(huán)節(jié)在內(nèi)的全生命周期中,需要大量算力資源的同時(shí),也需要有著大量的存儲(chǔ)資源,用于存儲(chǔ)海量計(jì)算結(jié)果。尤其在模型推理過程中,如何存得多、傳得快、性價(jià)比高,成為整個(gè)行業(yè)都在共同思考的問題。
此前,鄭緯民曾公開提及,“AI存儲(chǔ)是人工智能大模型的關(guān)鍵基座,存儲(chǔ)系統(tǒng)存在于大模型生命周期的每一環(huán),是大模型的關(guān)鍵基座,通過以存強(qiáng)算、以存換算,先進(jìn)的AI存儲(chǔ)能夠提升訓(xùn)練集群可用度,降低推理成本,提升用戶體驗(yàn)。”
在與新浪科技溝通中,鄭緯民分享了“以存換算”的基本原理。他指出,“大模型不管是訓(xùn)練還是推理,都需要很大的算力,同時(shí)也需要很多存儲(chǔ),用來存儲(chǔ)大模型訓(xùn)練出來的海量參數(shù),以及推理過程中產(chǎn)生的一些過程數(shù)據(jù)。”然而,如果整個(gè)訓(xùn)練或推理過程中需要存儲(chǔ)的數(shù)據(jù)越來越多,這會(huì)導(dǎo)致存儲(chǔ)器資源緊缺,最終反而又會(huì)成為大模型性能提升的“負(fù)擔(dān)”。
據(jù)鄭緯民介紹,為解決上述問題,清華大學(xué)想了兩個(gè)辦法:第一,在推理過程當(dāng)中,目前主要是推理卡工作,主機(jī)CPU跟主機(jī)存儲(chǔ)器是不用的,因此,可以想辦法把主機(jī)上的存儲(chǔ)器用到推理過程中,提升了存儲(chǔ)器利用率,性能提升的同時(shí),也節(jié)省了不斷購買推理卡的資金成本;第二,將推理過程中產(chǎn)生的共性的、用戶共用的內(nèi)容存儲(chǔ)起來,通過存儲(chǔ)必要推理過程中產(chǎn)生的數(shù)據(jù),當(dāng)后續(xù)遇到類似問題的時(shí)候直接調(diào)用,直接省去了每次遇到類似問題時(shí)推理過程,提升了效率,同時(shí)節(jié)省了資源。
鄭緯民以清華大學(xué)與月之暗面共同研發(fā)的Mooncake技術(shù)框架為例介紹指出,“通過將不同用戶與Kimi對(duì)話的公共內(nèi)容提煉出來,存儲(chǔ)下來,這不僅減少了每次用戶提問都要重新生成的過程,節(jié)省了許多算力卡,也減少了kimi因訪問過大導(dǎo)致的‘訪問延遲’或‘宕機(jī)’等問題。”