国产偷亚洲偷欧美偷精品,国产午夜福利亚洲第一,国产精品亚洲五月天高清 ,国产无遮挡18禁网站免费,国产亚洲精久久久久久无码苍井空

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

曾經(jīng)奠定人工智能基礎(chǔ),如今卻成為「反 AI」的先鋒。

1947 年,艾倫·圖靈在一次演講中提出了一個前瞻性的設想:「我們想要的是一臺能夠從經(jīng)驗中學習的機器。」78 年后,以圖靈命名的「計算機界諾貝爾獎」——圖靈獎,將這一愿景變?yōu)楝F(xiàn)實,授予了兩位畢生致力于解決圖靈這一問題的科學家。安德魯·巴托(Andrew Barto)與理查德·薩頓(Richard Sutton)共同獲得了 2024 年度圖靈獎,他們不僅是相差九歲的師徒,更是 AlphaGo 和 ChatGPT 技術(shù)上的奠基人,以及機器學習領(lǐng)域的技術(shù)先驅(qū)。

圖靈獎獲獎者安德魯·巴托(Andrew Barto)與理查德·薩頓(Richard Sutton)
圖片來源:圖靈獎官網(wǎng)

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

谷歌首席科學家 Jeff Dean 在頒獎詞中高度評價了巴托和薩頓的貢獻:「由巴托和薩頓開創(chuàng)的強化學習技術(shù),直接回答了圖靈的問題。他們的工作是過去幾十年 AI 進步的關(guān)鍵。他們開發(fā)的工具仍是 AI 繁榮的核心支柱……谷歌很榮幸贊助 ACM A.M.圖靈獎。」圖靈獎的 100 萬美元獎金唯一贊助方正是谷歌。然而,在聚光燈下,兩位科學家卻劍指 AI 大公司,他們對媒體表示:「現(xiàn)在的 AI 公司在『受到商業(yè)激勵』而非專注于技術(shù)研究,在社會上『架起一座未經(jīng)測試的橋梁,讓人們過橋來測試』?!?

無獨有偶,圖靈獎上一次頒發(fā)給人工智能領(lǐng)域的科學家是在 2018 屆,約書亞·本希奧、杰弗里·辛頓、楊立昆三位因在深度學習領(lǐng)域的貢獻而獲獎。其中,約書亞·本希奧和杰弗里·辛頓(亦是 2024 年諾貝爾物理學獎獲獎者)在近年來的 AI 浪潮中頻繁呼吁全球社會和科學界警惕大公司對人工智能的濫用。杰弗里·辛頓更是直接從谷歌辭職,以便「暢所欲言」,而這次獲獎的桑頓,在 2017 – 2023 年也曾任 DeepMind 的研究科學家。

當計算機界的最高榮譽一次次被授予給 AI 核心技術(shù)的奠基者時,一個耐人尋味的現(xiàn)象逐漸浮現(xiàn):為何這些站上巔峰的科學家,總會在聚光燈下轉(zhuǎn)身敲響 AI 的警鐘?

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

人工智能的「造橋者」

如果說艾倫·圖靈是人工智能的引路人,那安德魯·巴托和理查德·薩頓就是這條道路上的「造橋者」。在人工智能飛馳之時,在被授予禮贊之后,他們在重新審視自己搭建的橋梁,能否承載人類安全通行?或許答案正藏在他們跨越半個世紀的學術(shù)生涯中——唯有回溯他們?nèi)绾螛?gòu)建了「機器的學習」,才能理解他們?yōu)楹尉琛讣夹g(shù)的失控」。

圖片來源:卡耐基梅隆大學

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

1950 年,艾倫·圖靈在其著名論文《計算機器與智能》中,開篇就提出一個哲學和技術(shù)問題:「機器能思考嗎?」由此,圖靈設計出了「模仿游戲」,即后世廣為人知的「圖靈測試」。同時,他提出機器智能可以通過學習獲得,而非僅依賴事先編程。他設想了「兒童機器(Child Machine)」的概念,即通過訓練和經(jīng)驗,讓機器像孩子一樣逐步學習。

人工智能的核心目標是構(gòu)建出能感知、并采取更好行動的智能體,而衡量智能的標準,即智能體有判斷「某些行動比其他行動更好」的能力。機器學習的目的就在于此,給予機器行動后相應的反饋,并且能讓機器自主地在反饋經(jīng)驗中學習。換言之,圖靈構(gòu)思出基于獎勵和懲罰的機器學習方法與巴普洛夫訓狗無異。

我在游戲里越玩越敗越強,也是一種「強化學習」
圖片來源:zequance.ai

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

由圖靈引出的機器學習之路,在三十年后,才由一對師徒建出了橋——強化學習(Reinforcement Learning,RL)。1977 年,安德魯·巴托受到心理學和神經(jīng)科學的啟發(fā),開始探索一種人類智能的新理論:神經(jīng)元就像「享樂主義者」,人類大腦內(nèi)數(shù)十億個神經(jīng)元細胞,每個都試圖最大化快樂(獎勵)并最小化痛苦(懲罰)。而且神經(jīng)元并不是機械地接收信號和傳遞信號,如果某個神經(jīng)元的活動模式導致了正反饋,它就會傾向于重復這個模式,由此共同驅(qū)動了人類的學習過程。

到了 1980 年代,巴托帶上了他的博士生理查德·薩頓,想把這套「不斷嘗試、根據(jù)反饋調(diào)整連接,找到最優(yōu)的行為模式」的神經(jīng)元理論應用在人工智能上,強化學習就此誕生。《強化學習:導論》成為經(jīng)典教材,已被引用近 80000 次。

圖片來源:IEEE

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

師徒二人利用馬爾可夫決策過程的數(shù)學基礎(chǔ),開發(fā)并編寫出了許多強化學習的核心算法,系統(tǒng)地構(gòu)建出了強化學習的理論框架,還編寫了《強化學習:導論》教科書,讓數(shù)萬名研究人員得以進入強化學習領(lǐng)域,二者堪稱強化學習之父。而他們研究強化學習的目的,是為了探尋出高效準確、回報最大化、行動最佳的機器學習方法。

強化學習的「神之一手」

如果說機器學習是「填鴨式」學習,那強化學習就是「放養(yǎng)式」學習。傳統(tǒng)的機器學習,就是給模型被喂大量標注好的數(shù)據(jù),建立輸入和輸出之間固定的映射關(guān)系。最經(jīng)典的場景就是給電腦看一堆貓和狗的照片,告訴它哪張是貓、哪張是狗,只要投喂足夠多的圖,電腦就會辨認出貓狗。而強化學習,是在沒有明確指導的情況下,機器通過不斷試錯和獎懲機制,逐漸調(diào)整行為來優(yōu)化結(jié)果。就像一個機器人學走路,不需要人類一直告訴它「這步對,那步錯」,它只要嘗試、摔倒、調(diào)整,最終自己就會走路了,甚至走出自己獨特的步態(tài)。

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

顯而易見,強化學習的原理更接近人類的智能,就像每個幼童在跌倒里學會走路,在摸索中學會抓取,在咿呀里捕捉音節(jié),學會語言。

爆火的「回旋踢機器人」背后也是強化學習的訓練
圖片來源:宇樹科技

強化學習的「高光時刻」,正是 2016 年 AlphaGo 的「神之一手」。當時 AlphaGo 在與李世石的比賽中,第 37 手落下了一步令所有人類驚訝的白棋,一步棋逆轉(zhuǎn)敗勢,一舉贏下李世石。圍棋界的頂級高手和解說員們,都沒有預料到 AlphaGo 會在該位落子,因為在人類棋手的經(jīng)驗里,這步棋下的「莫名其妙」,賽后李世石也承認,自己完全沒有考慮過這個走法。AlphaGo 不是靠背棋譜背出來的「神之一手」,而是在無數(shù)次自我對弈中,試錯、長遠規(guī)劃、優(yōu)化策略后自主探索出來,這既是強化學習的本質(zhì)。

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

被 AlphaGo 「神之一手」打亂節(jié)奏的李世石
圖片來源:AP

強化學習甚至反客為主影響人類智能,就像 AlphaGo 露出「神之一手」后,棋手開始學習和研究 AI 下圍棋的走法??茖W家們也在利用強化學習的算法和原理,試圖理解人類大腦的學習機制,巴托和桑托的研究成果之一,即建立了一種計算模型,來解釋多巴胺在人類決策和學習中的作用。而且強化學習特別擅長處理規(guī)則復雜、狀態(tài)多變的環(huán)境,并在其中找到最優(yōu)解,比如圍棋、自動駕駛、機器人控制、與語焉不詳?shù)娜祟愓勑︼L生。

這些正是當下最前沿,最熱門的 AI 應用領(lǐng)域,尤其是在大語言模型上,幾乎所有領(lǐng)先的大語言模型都使用了 RLHF(從人類反饋中強化學習)的訓練方法,即讓人類對模型的回答進行評分,模型根據(jù)反饋改進。但這正是巴托的擔憂所在:大公司建好橋后,用讓人們在橋上來回走的方法,來測試橋的安全性。

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

「在沒有任何保障措施的情況下,把軟件直接推給數(shù)百萬用戶,并不是負責任的做法,」巴托在獲獎后的采訪里說道?!讣夹g(shù)的發(fā)展本該伴隨著對潛在負面影響的控制和規(guī)避,但我并沒有看到這些 AI 公司真正做到這一點。」他補充道。

AI 頂流到底在擔心什么?

AI 威脅論沒完沒了,因為科學家最害怕親手締造的未來失控。巴托和桑頓的「獲獎感言」里,并無對當前 AI 技術(shù)的苛責,而是充斥著對 AI 公司的不滿。他們在采訪里都警告表示,目前人工智能的發(fā)展,是靠大公司爭相推出功能強大但容易犯錯的模型,他們借此籌集了大量資金,再繼續(xù)投入數(shù)十億美元,展開芯片和數(shù)據(jù)的軍備競賽。

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

的確如此,根據(jù)德意志銀行的研究,當前科技巨頭在 AI 領(lǐng)域的總投資約為 3400 億美元,這一規(guī)模已經(jīng)超過希臘的年度 GDP。行業(yè)領(lǐng)頭羊 OpenAI,公司估值達到 2600 億美元,正準備展開新一輪 400 億美元的新融資。

實際上,許多 AI 專家都和巴托和桑頓的觀點不謀而合。此前,微軟前高管史蒂芬·辛諾夫斯基就曾表示,AI 行業(yè)陷入了規(guī)模化的困境,靠燒錢換技術(shù)進步,這不符合技術(shù)發(fā)展史中,成本會逐漸下降而不是上升的趨勢。就在 3 月 7 日,前谷歌 CEO 埃里克·施密特、Scale AI 創(chuàng)始人 Alex Wang、AI 安全中心主任丹·亨德里克斯三人聯(lián)名發(fā)表了一篇警示性論文。三位科技圈頂流認為,如今人工智能前沿領(lǐng)域的發(fā)展形勢,與催生曼哈頓計劃的核武器競賽相似,AI 公司都在悄悄進行自己的「曼哈頓計劃」,過去近十年里,他們對 AI 的投資每年都在翻倍,如不再介入監(jiān)管,AI 可能成為自核彈以來最不穩(wěn)定的技術(shù)。

《超級智能戰(zhàn)略》及合著者
圖片來源:nationalsecurity.ai

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

因深度學習在 2019 年獲得圖靈獎的約書亞·本希奧,也在博客中發(fā)長文警告,如今 AI 產(chǎn)業(yè)有數(shù)萬億美元的價值供資本追逐和搶奪,還有著足以嚴重破壞當前世界秩序的影響力。諸多技術(shù)出身的科技人士,認為如今的 AI 行業(yè),已經(jīng)偏離了對技術(shù)的鉆研,對智能的審視,對科技濫用的警惕,而走向了一種砸錢堆芯片的大資本逐利模式。

「建起龐大的數(shù)據(jù)中心,收用戶的錢還讓他們用不一定安全的軟件,這不是我認同的動機?!拱屯性讷@獎后的采訪里說道。而由 30 個國家,75 位 AI 專家共撰的第一版《先進人工智能安全國際科學報告》中寫道:「管理通用人工智能風險的方法往往基于這樣一種假設:人工智能開發(fā)者和政策制定者,可以正確評估 AGI 模型和系統(tǒng)的能力和潛在影響。但是,對 AGI 的內(nèi)部運作、能力和社會影響,科學理解其實非常有限?!?

約書亞·本希奧的警示長文
圖片來源:Yoshua Bengio

圖靈獎得主擔憂AI失控:奠基者敲響技術(shù)警鐘

不難看出,如今的「AI 威脅論」,已經(jīng)把矛頭從技術(shù)轉(zhuǎn)向了大公司。專家們在警告大公司:你們燒錢,堆料,卷參數(shù),但你們真正了解你們開發(fā)的產(chǎn)品嗎?這亦是巴托和桑頓借用「造橋」比喻的由來,因為科技屬于全人類,但資本只屬于大公司。何況巴托和桑頓一直以來的研究領(lǐng)域:強化學習。它的原理更貼合人類智能,且具有「黑箱」特色,尤其是在深度強化學習中,AI 行為模式會變得復雜且難以解釋。這也是人類科學家的擔憂所在:助力和見證了人工智能的成長,卻難以解讀它的意圖。

而開創(chuàng)了深度學習和強化學習技術(shù)的圖靈獎獲獎者們,也并不是在擔心 AGI(通用人工智能)的發(fā)展,而是擔心大公司之間的軍備競賽,在 AGI 領(lǐng)域造成了「智能爆炸」,一不小心制造出了 ASI(超級人工智能),兩者的分野不僅是技術(shù)問題,更關(guān)乎人類文明的未來命運。

超越人類智能的 ASI,掌握的信息量、決策速度、自我進化的水平,將遠超人類的理解范圍,如果不對 ASI 進行極為謹慎的設計和治理,它可能成為人類歷史上最后一個,也是最無法抗衡的技術(shù)奇點。

在 AI 狂熱的當下,這些科學家或許是最有資格「潑冷水」的人。畢竟五十年前,在電腦還是個龐然大物時,他們就已經(jīng)開啟了人工智能領(lǐng)域的研究,他們從過去塑造了當下,也有立場去懷疑未來。

AI 領(lǐng)導者會迎來奧本海默式的結(jié)局嗎?
圖片來源:經(jīng)濟學人

在 2 月《經(jīng)濟學人》的采訪里,DeepMind 和 Anthropic 的 CEO 表示:會因擔心自己成為下一個奧本海默,而徹夜難眠。

本文網(wǎng)址:http://iy168.cn/news/1050.html

發(fā)表回復

您的郵箱地址不會被公開。 必填項已用 * 標注