原文來(lái)源:Wired
原文作者:Will Knight
研究人員利用分布在全球各地的 GPU 集群,同時(shí)融合私有與公開(kāi)數(shù)據(jù),成功訓(xùn)練出一類(lèi)新型大語(yǔ)言模型(LLM)——這一突破可能顛覆當(dāng)前人工智能的主流構(gòu)建范式。
兩家采用非傳統(tǒng)路徑的 AI 初創(chuàng)公司 Flower AI 與 Vana 聯(lián)手打造了這個(gè)名為 Collective-1 的新模型。Flower AI 開(kāi)發(fā)出允許訓(xùn)練任務(wù)分散至數(shù)百臺(tái)聯(lián)網(wǎng)計(jì)算機(jī)的技術(shù),其方案已被多家企業(yè)用于無(wú)需集中算力或數(shù)據(jù)的 AI 模型訓(xùn)練。Vana 則提供了包含 X 平臺(tái)、Reddit 及 Telegram 隱私消息在內(nèi)的多元化數(shù)據(jù)源。
按現(xiàn)代標(biāo)準(zhǔn)衡量,Collective-1 規(guī)模較小——其 70 億參數(shù)量(這些數(shù)值共同決定了模型能力)與當(dāng)今最先進(jìn)模型(如支撐 ChatGPT、Claude 和 Gemini 的模型)動(dòng)輒數(shù)千億的參數(shù)規(guī)模相去甚遠(yuǎn)。
劍橋大學(xué)計(jì)算機(jī)科學(xué)家、Flower AI 聯(lián)合創(chuàng)始人 Nic Lane 指出,這種分布式方法有望突破 Collective-1 的規(guī)模限制。他透露 Flower AI 正在用傳統(tǒng)數(shù)據(jù)訓(xùn)練 300 億參數(shù)模型,并計(jì)劃今年晚些時(shí)候開(kāi)發(fā)千億參數(shù)模型——接近行業(yè)領(lǐng)軍者的水平。”這或?qū)氐赘淖內(nèi)藗儗?duì) AI 的認(rèn)知,我們正全力推進(jìn),”Lane 表示。這家初創(chuàng)公司還將圖像與音頻納入訓(xùn)練,以創(chuàng)建多模態(tài)模型。
分布式建模還可能重塑 AI 行業(yè)的權(quán)力格局。
當(dāng)前 AI 公司構(gòu)建模型依賴(lài)兩大支柱:海量訓(xùn)練數(shù)據(jù)與集中在數(shù)據(jù)中心的龐大算力——這些數(shù)據(jù)中心通過(guò)超高速光纖網(wǎng)絡(luò)連接先進(jìn) GPU 集群。它們還嚴(yán)重依賴(lài)網(wǎng)絡(luò)抓取的公開(kāi)數(shù)據(jù)集(盡管部分涉及版權(quán)材料),包括網(wǎng)頁(yè)和圖書(shū)內(nèi)容。
這種模式意味著,只有財(cái)力雄厚的企業(yè)及能獲取大量高端芯片的國(guó)家,才可能開(kāi)發(fā)最具價(jià)值的尖端模型。即便是 Meta 的 Llama 和深度求索的 R1 等開(kāi)源模型,也出自擁有大型數(shù)據(jù)中心的企業(yè)之手。而分布式方法讓中小企業(yè)和高校能通過(guò)整合分散資源開(kāi)發(fā)生態(tài) AI,或使缺乏傳統(tǒng)基礎(chǔ)設(shè)施的國(guó)家通過(guò)聯(lián)網(wǎng)多個(gè)數(shù)據(jù)中心構(gòu)建更強(qiáng)模型。
Lane 認(rèn)為 AI 產(chǎn)業(yè)將日益青睞突破單一數(shù)據(jù)中心局限的新方法。”相比數(shù)據(jù)中心模式,分布式方案能更優(yōu)雅地?cái)U(kuò)展算力,”他解釋道。
安全與新興技術(shù)中心 AI 治理專(zhuān)家 Helen Toner 評(píng)價(jià) Flower AI 的方案”對(duì) AI 競(jìng)爭(zhēng)與治理具有潛在重大意義”。她指出:”雖可能仍難匹敵最前沿技術(shù),但作為快速跟隨策略頗具價(jià)值。”
分而治之
分布式 AI 訓(xùn)練的核心在于重構(gòu)算力分配邏輯。構(gòu)建大語(yǔ)言模型需向系統(tǒng)輸入海量文本,通過(guò)調(diào)整參數(shù)使其生成有效響應(yīng)。傳統(tǒng)數(shù)據(jù)中心會(huì)將訓(xùn)練任務(wù)分割到不同 GPU 執(zhí)行,再定期整合為統(tǒng)一主模型。
新技術(shù)使得原本需在大型數(shù)據(jù)中心完成的工作,可分散到相隔數(shù)英里、僅靠普通網(wǎng)絡(luò)連接的硬件設(shè)備上執(zhí)行。
行業(yè)巨頭也在探索分布式學(xué)習(xí)。去年谷歌研究人員提出的”分布式路徑組合”(DiPaCo)新框架,提升了分布式訓(xùn)練效率。而為構(gòu)建 Collective-1 等模型,Lane 與中英學(xué)者聯(lián)合開(kāi)發(fā)了名為 Photon 的新工具,其采用更高效的數(shù)據(jù)表征方式和訓(xùn)練共享整合方案。Lane 坦言該過(guò)程雖比傳統(tǒng)訓(xùn)練慢,但靈活性更強(qiáng),可隨時(shí)添加硬件加速訓(xùn)練。
Photon 由北京郵電大學(xué)和浙江大學(xué)研究人員參與開(kāi)發(fā),上月已開(kāi)源。Flower AI 的合作方 Vana 則致力于讓用戶以新方式向 AI 構(gòu)建者共享個(gè)人數(shù)據(jù)——其軟件支持用戶貢獻(xiàn)來(lái)自 X 和 Reddit 等平臺(tái)的私有數(shù)據(jù),并可規(guī)定使用范圍甚至獲得經(jīng)濟(jì)回報(bào)。
Vana 聯(lián)合創(chuàng)始人 Anna Kazlauskas 表示,此舉旨在挖掘未開(kāi)發(fā)數(shù)據(jù)潛力,同時(shí)賦予用戶更多控制權(quán)。”這些通常無(wú)法進(jìn)入 AI 模型的非公開(kāi)數(shù)據(jù),首次被用于基礎(chǔ)模型訓(xùn)練,且用戶可擁有其數(shù)據(jù)所創(chuàng)模型的權(quán)益,”她強(qiáng)調(diào)。
倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)家 Mirco Musolesi 指出,分布式訓(xùn)練的關(guān)鍵價(jià)值在于解鎖新型數(shù)據(jù):”將其應(yīng)用于前沿模型,可讓 AI 產(chǎn)業(yè)利用醫(yī)療、金融等領(lǐng)域的分散敏感數(shù)據(jù)訓(xùn)練,同時(shí)規(guī)避數(shù)據(jù)集中化風(fēng)險(xiǎn)。”
原文鏈接
歡迎加入idea2003 BlockBeats 官方社群:
Telegram 訂閱群:http://iy168.cn/theblockbeats
Telegram 交流群:http://iy168.cn/BlockBeats_App
Twitter 官方賬號(hào):http://iy168.cn/BlockBeatsAsia
本文網(wǎng)址:http://iy168.cn/news/3805.html