研究人員通過(guò)整合全球分布的GPU集群,成功融合私有與公開(kāi)數(shù)據(jù),訓(xùn)練出一種新型大語(yǔ)言模型(LLM),這一突破性進(jìn)展可能徹底顛覆當(dāng)前人工智能的主流構(gòu)建范式。兩家采用非傳統(tǒng)路徑的AI初創(chuàng)公司Flower AI與Vana聯(lián)手打造了名為Collective-1的新模型。Flower AI開(kāi)發(fā)出允許訓(xùn)練任務(wù)分散至數(shù)百臺(tái)聯(lián)網(wǎng)計(jì)算機(jī)的技術(shù),其方案已被多家企業(yè)用于無(wú)需集中算力或數(shù)據(jù)的AI模型訓(xùn)練。Vana則提供了包含X平臺(tái)、Reddit及Telegram隱私消息在內(nèi)的多元化數(shù)據(jù)源。
按現(xiàn)代標(biāo)準(zhǔn)衡量,Collective-1規(guī)模較小,其70億參數(shù)量與當(dāng)今最先進(jìn)模型(如支撐ChatGPT、Claude和Gemini的模型)動(dòng)輒數(shù)千億的參數(shù)規(guī)模相去甚遠(yuǎn)。劍橋大學(xué)計(jì)算機(jī)科學(xué)家、Flower AI聯(lián)合創(chuàng)始人Nic Lane指出,這種分布式方法有望突破Collective-1的規(guī)模限制。他透露Flower AI正在用傳統(tǒng)數(shù)據(jù)訓(xùn)練300億參數(shù)模型,并計(jì)劃今年晚些時(shí)候開(kāi)發(fā)千億參數(shù)模型——接近行業(yè)領(lǐng)軍者的水平。”這或?qū)氐赘淖內(nèi)藗儗?duì)AI的認(rèn)知,我們正全力推進(jìn),”Lane表示。這家初創(chuàng)公司還將圖像與音頻納入訓(xùn)練,以創(chuàng)建多模態(tài)模型。
分布式建模還可能重塑AI行業(yè)的權(quán)力格局。當(dāng)前AI公司構(gòu)建模型依賴(lài)兩大支柱:海量訓(xùn)練數(shù)據(jù)與集中在數(shù)據(jù)中心的龐大算力——這些數(shù)據(jù)中心通過(guò)超高速光纖網(wǎng)絡(luò)連接先進(jìn)GPU集群。它們還嚴(yán)重依賴(lài)網(wǎng)絡(luò)抓取的公開(kāi)數(shù)據(jù)集(盡管部分涉及版權(quán)材料),包括網(wǎng)頁(yè)和圖書(shū)內(nèi)容。這種模式意味著,只有財(cái)力雄厚的企業(yè)及能獲取大量高端芯片的國(guó)家,才可能開(kāi)發(fā)最具價(jià)值的尖端模型。即便是Meta的Llama和深度求索的R1等開(kāi)源模型,也出自擁有大型數(shù)據(jù)中心的企業(yè)之手。而分布式方法讓中小企業(yè)和高校能通過(guò)整合分散資源開(kāi)發(fā)生態(tài)AI,或使缺乏傳統(tǒng)基礎(chǔ)設(shè)施的國(guó)家通過(guò)聯(lián)網(wǎng)多個(gè)數(shù)據(jù)中心構(gòu)建更強(qiáng)模型。
Lane認(rèn)為AI產(chǎn)業(yè)將日益青睞突破單一數(shù)據(jù)中心局限的新方法。”相比數(shù)據(jù)中心模式,分布式方案能更優(yōu)雅地?cái)U(kuò)展算力,”他解釋道。安全與新興技術(shù)中心AI治理專(zhuān)家Helen Toner評(píng)價(jià)Flower AI的方案”對(duì)AI競(jìng)爭(zhēng)與治理具有潛在重大意義”。她指出:”雖可能仍難匹敵最前沿技術(shù),但作為快速跟隨策略頗具價(jià)值。”
分而治之分布式AI訓(xùn)練的核心在于重構(gòu)算力分配邏輯。構(gòu)建大語(yǔ)言模型需向系統(tǒng)輸入海量文本,通過(guò)調(diào)整參數(shù)使其生成有效響應(yīng)。傳統(tǒng)數(shù)據(jù)中心會(huì)將訓(xùn)練任務(wù)分割到不同GPU執(zhí)行,再定期整合為統(tǒng)一主模型。新技術(shù)使得原本需在大型數(shù)據(jù)中心完成的工作,可分散到相隔數(shù)英里、僅靠普通網(wǎng)絡(luò)連接的硬件設(shè)備上執(zhí)行。行業(yè)巨頭也在探索分布式學(xué)習(xí)。去年谷歌研究人員提出的”分布式路徑組合”(DiPaCo)新框架,提升了分布式訓(xùn)練效率。而為構(gòu)建Collective-1等模型,Lane與中英學(xué)者聯(lián)合開(kāi)發(fā)了名為Photon的新工具,其采用更高效的數(shù)據(jù)表征方式和訓(xùn)練共享整合方案。
Lane坦言該過(guò)程雖比傳統(tǒng)訓(xùn)練慢,但靈活性更強(qiáng),可隨時(shí)添加硬件加速訓(xùn)練。Photon由北京郵電大學(xué)和浙江大學(xué)研究人員參與開(kāi)發(fā),上月已開(kāi)源。Flower AI的合作方Vana則致力于讓用戶(hù)以新方式向AI構(gòu)建者共享個(gè)人數(shù)據(jù)——其軟件支持用戶(hù)貢獻(xiàn)來(lái)自X和Reddit等平臺(tái)的私有數(shù)據(jù),并可規(guī)定使用范圍甚至獲得經(jīng)濟(jì)回報(bào)。Vana聯(lián)合創(chuàng)始人Anna Kazlauskas表示,此舉旨在挖掘未開(kāi)發(fā)數(shù)據(jù)潛力,同時(shí)賦予用戶(hù)更多控制權(quán)。”這些通常無(wú)法進(jìn)入AI模型的非公開(kāi)數(shù)據(jù),首次被用于基礎(chǔ)模型訓(xùn)練,且用戶(hù)可擁有其數(shù)據(jù)所創(chuàng)模型的權(quán)益,”她強(qiáng)調(diào)。
倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)家Mirco Musolesi指出,分布式訓(xùn)練的關(guān)鍵價(jià)值在于解鎖新型數(shù)據(jù):”將其應(yīng)用于前沿模型,可讓AI產(chǎn)業(yè)利用醫(yī)療、金融等領(lǐng)域的分散敏感數(shù)據(jù)訓(xùn)練,同時(shí)規(guī)避數(shù)據(jù)集中化風(fēng)險(xiǎn)。”
本文網(wǎng)址:http://iy168.cn/news/3805.html