国产偷亚洲偷欧美偷精品,国产午夜福利亚洲第一,国产精品亚洲五月天高清 ,国产无遮挡18禁网站免费,国产亚洲精久久久久久无码苍井空

完整復(fù)盤:Manus 是怎么誕生的?

「Agent 可能是『對齊』的問題,而不是基礎(chǔ)模型能力的問題」

作者:宛辰

完整復(fù)盤:Manus 是怎么誕生的?

去年獲得最多精神養(yǎng)分的創(chuàng)業(yè)故事,來自 Dify 創(chuàng)始人張路宇。

第一次見到他是在 2023 年「西溪論道」活動上,現(xiàn)場一眾星光熠熠的名字中,張路宇三個(gè)字并不起眼。2024 年再次見到,Dify 已經(jīng)是另一個(gè)故事了——一位沒有光鮮背景的創(chuàng)業(yè)者,愣是在所有人都問商業(yè)模式的質(zhì)疑聲中,做出了全球最成功的 AI 開源產(chǎn)品之一。

一年的時(shí)間里在這家公司上發(fā)生的,比如意外在「因循守舊、易守難攻」的日本市場大受歡迎等故事,讓我進(jìn)一步理解「創(chuàng)業(yè)」。多的是意外,更需要運(yùn)氣,最終是要有本事在持續(xù)變化與事與愿違中摸出一條道路。

現(xiàn)在,相似的故事發(fā)生在另一位備受關(guān)注的創(chuàng)業(yè)者——Manus.im 肖弘和他的團(tuán)隊(duì)身上。

4 個(gè)月前,肖弘提過一個(gè)困惑,「團(tuán)隊(duì)擅長從 0 到 1,抓機(jī)會的能力很強(qiáng),一旦開始 1 到 N,狀態(tài)就沒有那么好」。

在他過往的經(jīng)歷中,創(chuàng)業(yè)項(xiàng)目大都獲得了相對穩(wěn)定、可觀的營收,上一家公司也被成功收購。2023 年,他的新公司「蝴蝶效應(yīng)」更是以一款瀏覽器插件 Monica.im,在百模大戰(zhàn)的 AI 敘事中錯(cuò)位競爭,成為增長最快、產(chǎn)品體驗(yàn)極佳的 AI 應(yīng)用之一??瓷先?,他是一路很順的創(chuàng)業(yè)者。做到這些事情,也才 32 歲。

但實(shí)際上,他并沒有太多爽感。在肖弘看來,所謂「連續(xù)退出創(chuàng)業(yè)者」、所謂不斷從 0 到 1 的爽感,像是圍城——從 0 到 1 抓機(jī)會的能力很強(qiáng)、很爽,但是反過來,也擔(dān)心會不會又需要再來一次。

2024 年,行業(yè)人士認(rèn)為,像 Monica.im 這樣帶有記憶功能的 AI 助手,會面臨來自比如豆包這樣的強(qiáng)勁對手的壓力,做起來并不會像 2023 年那樣容易。Monica.im 有一個(gè)很好的從 0 到 1,但未必能沖擊 1 到 N。

而他之所以會困惑,也是因?yàn)椤笀F(tuán)隊(duì)接下來真的要做更難的事情、天花板更高的事情」,探索能夠跨越 1 到 N 的事情。

更早之前,很多關(guān)注 Monica.im 的聲音都假定這件「更難、天花板更高的事」是指傳了很久、但團(tuán)隊(duì)遲遲未發(fā)布的 AI 瀏覽器。

現(xiàn)在看,確實(shí),猜錯(cuò)了。

這段更難的探索其實(shí)是:放棄已經(jīng)達(dá)到發(fā)布狀態(tài)的AI瀏覽器、尋找下一個(gè)「ChatGPT 時(shí)刻」的 AI 產(chǎn)品、找到了通用型 agent 這個(gè)目標(biāo)、做出了最新發(fā)布的 Manus.im。

Manus 是什么程度的創(chuàng)新、未來能做到什么水平,現(xiàn)在已經(jīng)是一聊就炸了的話題。但值得看的,依舊是在「事與愿違」中找到的方向和找到方向的過程。Manus.im 未必就能讓這支團(tuán)隊(duì)做成 1 到 N 的事情,甚至未必會復(fù)刻 Monica.im 的勢頭,但就像這家公司的名字——「蝴蝶效應(yīng)」,許多小的動作和決定無意間對未來竟有深遠(yuǎn)的影響,「Connect the Dots」,明天的路會藏在今天的經(jīng)歷里。

01 Manus 的獨(dú)特產(chǎn)品體驗(yàn),源自做「AI 瀏覽器」的教訓(xùn)

去年中下旬以來,「蝴蝶效應(yīng)」團(tuán)隊(duì)做 AI 瀏覽器成為行業(yè)「半公開」的秘密。正式對外亮相的產(chǎn)品,是引發(fā)失控般關(guān)注度的 Manus。

如果你親自上手體驗(yàn)過 Manus,或者看過演示視頻,你會感覺到它和聊天機(jī)器人或一些類 agent 應(yīng)用相比,有一個(gè)明顯的不同:Manus 可以異步、并行執(zhí)行任務(wù)。

當(dāng)你打開比如豆包、Kimi 或者類 Computer Use 等應(yīng)用,向它發(fā)一個(gè)問題,你要等它回復(fù)完。否則在它回復(fù)或者做任務(wù)的過程中跟它說話,上一段回復(fù)/任務(wù)就中斷了,你和它只能是 A-B-A-B 接力式的對話。

但是,在 Manus.im 里,盡管看著還是聊天機(jī)器人的產(chǎn)品形態(tài),你卻可以提出比如 20 個(gè)問題讓它同步執(zhí)行任務(wù)。一旁的你可以在電腦上做其他任何事情,看視頻、寫文檔、打游戲等等,都不耽誤它工作。一旦這些任務(wù)有完成的或者執(zhí)行過程遇到問題,Manus 可以通知你。如果在執(zhí)行任務(wù)中途,你看到它的思考出現(xiàn)了偏差,也可以隨時(shí)在對話框補(bǔ)充提示詞,它會帶著新的上下文接著思考和執(zhí)行任務(wù)。

體驗(yàn)是異步的、可以并行的,確實(shí)像有了一支可以幫你干活的真人實(shí)習(xí)生團(tuán)隊(duì)。

事實(shí)上,Manus 對異步體驗(yàn)的產(chǎn)品架構(gòu)設(shè)計(jì),源自團(tuán)隊(duì)在上一個(gè)未公開的產(chǎn)品——AI 瀏覽器中學(xué)到的一課。同時(shí)這也是團(tuán)隊(duì)投入了很大精力、但在去年 10 月決定終止做瀏覽器的原因。

完整復(fù)盤:Manus 是怎么誕生的?

The Browser Company 于 2024 年 10 月 25 日宣布停止對 Arc 瀏覽器的新功能開發(fā),決定將資源轉(zhuǎn)移到一款新瀏覽器 Dia 上,旨在打造一個(gè)更簡潔、更易用的 AI 瀏覽器。|來源:Arc 官網(wǎng)

「在 AI 瀏覽器里,AI 在不斷打斷用戶。」因?yàn)樗菫閱斡脩粼O(shè)計(jì)的場景,AI 用了,你就用不了了,當(dāng) AI 開始工作,你只能看著 AI 工作,很難上手??粗?AI 搶走了你的鼠標(biāo)、電腦,你不僅不敢搶過來,而且還怕一不小心碰到鍵盤、鼠標(biāo)導(dǎo)致它的整個(gè)流程崩掉需要再來一次。

這讓團(tuán)隊(duì)做出兩個(gè)判斷:

  1. 直接用電腦去做 Computer Use,短時(shí)間內(nèi)不太可行。

  2. AI應(yīng)該用瀏覽器,但不是在你的瀏覽器里用,它應(yīng)該有自己的瀏覽器,這個(gè)瀏覽器最好在云端,最后把結(jié)果反饋給你。

在和騰訊科技張小珺的采訪對話中,肖弘提到團(tuán)隊(duì)在總結(jié)從 Jasper 到 ChatGPT 到 Monica 到 Cursor 到 Devin 的產(chǎn)品形態(tài)時(shí),發(fā)現(xiàn)「人類程序員」Devin 就很符合這個(gè)異步體驗(yàn)的架構(gòu)。

它不像用 Windsurf 時(shí),有時(shí)要讓你確認(rèn)你的電腦要不要裝這個(gè)庫;或者它執(zhí)行一個(gè)命令行操作,讓你填 yes or no,因?yàn)樗赡苷鏁涯愕碾娔X搞壞,或者是某個(gè)東西沖突——它讓你填「yes」才能到執(zhí)行下一步,但要甩鍋。

所以在 Manus 團(tuán)隊(duì)看來,「Chatbot 應(yīng)該在云上有個(gè)電腦,把它寫的代碼、要通過瀏覽器查的東西都在那臺電腦上執(zhí)行。因?yàn)槭翘摂M服務(wù)器,壞了無所謂,可以再來一臺。它甚至可以在當(dāng)前任務(wù)執(zhí)行完之后釋放掉那個(gè)服務(wù)器?!?/p>

值得注意的是,相比 Devin 選擇了垂直領(lǐng)域、硬核的工程師,Manus 團(tuán)隊(duì)則選擇了通用型、消費(fèi)級的 AI 助手,有 Web,也會有 App。它是一個(gè)可以根據(jù)指令,調(diào)用工具、完成與工作與生活中的各類任務(wù)的一款通用型 AI 助手,未來也會以一個(gè)消費(fèi)級可負(fù)擔(dān)得起的價(jià)格交付任務(wù)結(jié)果。

02 Less Structure,More Intelligence

有了明確的思路和目標(biāo),下一步就是實(shí)現(xiàn)這個(gè)想法。Manus 到底是怎么做到的?

在其產(chǎn)品合伙人張濤看來,這需要給大模型配一臺電腦,同時(shí)也給它配系統(tǒng)權(quán)限(接入代碼倉庫、專業(yè)數(shù)據(jù)查詢網(wǎng)站等私有 API),并給予一定的培訓(xùn)。

這樣一來,AI 可以自己用這臺電腦打開瀏覽器,做動作去調(diào)度工具,再根據(jù)工具產(chǎn)生的反饋觀察它的動作對真實(shí)世界造成的影響,再思考下一步,再做動作,再觀察……這是 AI 在探索和調(diào)研中完成任務(wù)的過程。期間,Manus 也會在你的「調(diào)教」下越來越懂你的要求,未來即便你沒有清晰定義需求,它也可以根據(jù)一個(gè)個(gè)任務(wù)中沉淀下來的知識「揣摩圣意」。

完整復(fù)盤:Manus 是怎么誕生的?

華為天才少年、Logenic AI 創(chuàng)始人李博杰認(rèn)為 Manus 有一眼不同于其他產(chǎn)品的厲害之處:以極客程序員的方式解決問題。|圖片來源:微信截圖

Manus 產(chǎn)品的理念,在其團(tuán)隊(duì)的產(chǎn)品實(shí)踐過程中逐漸明確:即 Less Structure、More Intelligence(更少的結(jié)構(gòu),更多的智能)。

這也是讓 Manus 團(tuán)隊(duì)產(chǎn)生一個(gè)個(gè)「A-Ha,Wait!」(驚呆了)的時(shí)刻。舉個(gè)例子,這是今年 1 月在團(tuán)隊(duì)發(fā)生的一幕:

當(dāng)讓 Manus 試著做 GAIA 測試集上的一個(gè)題目:「在一個(gè)類似國家地理風(fēng)格的 Youtube 視頻鏈接里,各種企鵝們來來回回走出又進(jìn)來畫面,讓 Manus 數(shù)一幀畫面里面同時(shí)出現(xiàn)最多種企鵝時(shí),是有幾種?」

然后,神奇的事情發(fā)生了。

Manus 先是打開這個(gè)視頻鏈接,接著做的第一個(gè)動作是「Press K」,接著挨個(gè)截圖記錄哪一幀出現(xiàn)了哪種企鵝后,最后得出最多的一幀畫面有 3 種企鵝。Manus 接下來要回去檢查,它的下一個(gè)動作是「Press 3」……。最后檢查后給出答案就是 3。

作為建造 Manus 背后的人,理應(yīng)很了解它的能力邊界,但對團(tuán)隊(duì)來說,真實(shí)情況是「總有驚喜發(fā)生」。意外的不僅是 Manus 做對了題目,而且,用了多年電腦和 Youtube 的人類朋友可能都不一定清楚,鍵盤上「K」「3」這些按鍵是什么?

看著有些恍惚的眼前一幕,團(tuán)隊(duì)跟著 Manus 做了一遍,鍵盤上的「K」是暫停鍵,可以讓 Manus 暫停后挨個(gè)截圖記錄哪一幀出現(xiàn)了哪種企鵝后;「3」也是一個(gè)快捷鍵,從 0 到 9 分別代表進(jìn)度條的 0% 到 90%,3 是進(jìn)度條的 30%,可以精確定位到那個(gè)視頻的那一秒鐘,然后告訴人類這個(gè)畫面有幾種企鵝。

「這個(gè)過程跟傳統(tǒng)意義上的 Chatbot 不一樣。第一,它能看 YouTube 的畫面,而不是看字幕。第二,我們甚至發(fā)現(xiàn)它在用 YouTube 快捷鍵,非常震驚,它回答出來了這個(gè)問題?!剐ず朐诖饲膀v訊科技的采訪中也提到了這一幕。

突然就發(fā)現(xiàn),Manus 不僅在編程上比人擅長,就連在人們天天使用的 Web、App 上,Manus 的知識量也遠(yuǎn)超想象,作為一個(gè)全知全能的 AI,它可以在任何工具里了解所有途徑和手段,然后選擇最優(yōu)的方法。

這讓團(tuán)隊(duì)再一次感受到了「Less Structure,More intelligence」——盡量減少人工對 AI 的限制,讓 AI 通過自己的進(jìn)化來發(fā)揮作用,而不是教它怎么做。

完整復(fù)盤:Manus 是怎么誕生的?

在 Manus 官網(wǎng)的最底部,悄悄呈現(xiàn)了 Manus 背后最重要的發(fā)現(xiàn):「Less Structure,More intelligence」。|截圖來源:Manus

這是「蝴蝶效應(yīng)」聯(lián)合創(chuàng)始人、首席科學(xué)家 Peak 在 Manus 產(chǎn)品上線當(dāng)天,對 Manus 產(chǎn)品背后最重要的第一性原理——「Less Structure,More intelligence」作出的闡述和延展思考:

當(dāng)你的數(shù)據(jù)足夠優(yōu)質(zhì)、模型足夠智能、架構(gòu)足夠靈活、工程足夠扎實(shí),那么 Computer Use、Deep Research、Coding Agent 等概念就從產(chǎn)品特性變?yōu)榱俗匀挥楷F(xiàn)的能力。

回歸第一性原理也讓我們對產(chǎn)品形態(tài)有了全新的思考:· AI 瀏覽器不是在瀏覽器里加 AI,而是做給 AI 用的瀏覽器;

· AI 搜索不是從索引召回再總結(jié),而是讓 AI 以用戶的權(quán)限去獲取信息;
· 操作 GUI 不是搶奪用戶設(shè)備的控制權(quán),而是讓 AI 有自己的虛擬機(jī);
· 編寫代碼不是最終目的,而是解決各種問題的通用媒介;
· 生成網(wǎng)站的難點(diǎn)不是搭建框架,而是讓內(nèi)容言之有物;
· Attention 不是 all you need,解放用戶的 attention 才能重新定義 DAU;
· ···

一次次「Less Structure,More intelligence」的發(fā)現(xiàn)與實(shí)踐,Manus 產(chǎn)生了超出期待的效果,包括在 GAIA benchmark 中的 pass@1 分?jǐn)?shù)超過了 OpenAI Deep Research 在 cons@64 下的成績;同時(shí),在內(nèi)部測試中,Manus 也能夠直接覆蓋 Y Combinator W25 中 76% 的專用 agent 產(chǎn)品的場景。

03「Agent 可能是『對齊』的問題,而不是基礎(chǔ)模型能力的問題」

現(xiàn)在,這些洞察的含金量正在更大的范圍內(nèi)引起討論:

完整復(fù)盤:Manus 是怎么誕生的?

Hugging Face 創(chuàng)始人、CEO Clement Delangue 在 X 平臺提出 Peak 的發(fā)現(xiàn)值得思考:智能體的能力不是卡在基座模型上,而是像 GPT-3 與 InstructGPT(ChatGPT)的差別一樣,是對齊的問題。一些開源基礎(chǔ)模型被簡單訓(xùn)練成「無論問題的復(fù)雜程度如何,都能在一個(gè)輪次中回答完所有問題」,但這是聊天機(jī)器人場景中的要求,只需要對智能體的路徑做一些后訓(xùn)練,就能立即帶來巨大的不同。|截圖來源:X

完整復(fù)盤:Manus 是怎么誕生的?

完整復(fù)盤:Manus 是怎么誕生的?

Manus 并未引入 MCP(《模型上下文協(xié)議》),而是讓 AI 能夠自己寫代碼去調(diào)用 API,來勝任各種各樣長尾任務(wù)。|截圖來源:X

在過去幾天對 Manus 的討論中,聽到最多的一個(gè)問題是:「通用的AIAgent」行不行得通,邊界在哪里?

在 Peak 看來,因?yàn)槿伺c世界的交互其實(shí)非常標(biāo)準(zhǔn),有眼睛、手、耳朵,如果把 action space(行動空間)定義好,就應(yīng)該能把一個(gè) agent 嵌入到一個(gè)本來由人來進(jìn)行的一個(gè)環(huán)節(jié)中。

既然人能夠使用各種工具來完成垂直領(lǐng)域很深的操作,那么如果一個(gè) agent 本身具有足夠好的知識,經(jīng)過了適當(dāng)?shù)呐嘤?xùn),又有很好的一個(gè)與世界交互的界面,它應(yīng)該能像人一樣工作,甚至可以讓這個(gè) agent 用某個(gè) SaaS 產(chǎn)品。比如在 Manus.im 官網(wǎng)呈現(xiàn)的一個(gè)找房子的案例,其實(shí)就是讓 AI 用一個(gè)房地產(chǎn)領(lǐng)域?qū)S玫?SaaS 產(chǎn)品工作。

他認(rèn)為,應(yīng)該定義清楚的是 agent 使用工具的邊界,而不是它為哪群人服務(wù)。Manus 不是在模擬一個(gè)干具體事的一個(gè)人,不是比如按照研發(fā)、產(chǎn)品經(jīng)理等劃分的角色智能體;而是在模擬一個(gè)能干事的人、是模擬一個(gè)實(shí)習(xí)生是怎么工作的。

Manus 的多智能體系統(tǒng)(Multi-agent system),指的是規(guī)劃(Planning)和執(zhí)行(Execution)的分離。

在執(zhí)行器(Executor)上,Manus 采用了在編程、以及長程規(guī)劃和逐步解決問題的能力暫時(shí)領(lǐng)先的 Claude,也在用 Qwen 的一系列模型做后訓(xùn)練。

完整復(fù)盤:Manus 是怎么誕生的?

昨天,Manus 也與阿里通義千問達(dá)成戰(zhàn)略合作,致力于在國產(chǎn)模型和算力平臺上實(shí)現(xiàn) Manus 的全部功能。|圖片來源:Manus

在規(guī)劃器(Planner)的部分,Manus 則做了很多工作。

由于目前市面上的貨架 API 或者說模型,本質(zhì)上是為聊天機(jī)器人的場景做對齊的,在訓(xùn)練的時(shí)候,無論用戶提了一個(gè)多么復(fù)雜的問題,其訓(xùn)練的優(yōu)化目標(biāo)都是在一個(gè)回復(fù)里把用戶的問題回答清楚,但這其實(shí)跟 agent 所需要的 planning 完全相反。

所以如果把市面上現(xiàn)有的模型直接用在 agent 場景,并沒有「對齊」,這個(gè)模型永遠(yuǎn)會急功近利地在一輪對話內(nèi)給出一個(gè)「稀里糊涂」的結(jié)果,就像很多 bullet point 總結(jié)。

「對齊方式會應(yīng)該不一樣,我們團(tuán)隊(duì)認(rèn)為,需要不同數(shù)據(jù)去專門做對齊」,肖弘說。

去年 10 月,Peak 在知乎也記錄過一個(gè)嘗試復(fù)現(xiàn) OpenAI o1 興趣項(xiàng)目——Steiner 開源模型的進(jìn)展與失敗,實(shí)際上這個(gè)項(xiàng)目恰是在做 Manus 規(guī)劃器部分 step by step planning(一步步規(guī)劃)的預(yù)研。

總體上,Manus 是在模擬一個(gè)做事的人,這是團(tuán)隊(duì)對 Manus 作為通用型 AI 助手的產(chǎn)品定義。至于對其邊界的思考,團(tuán)隊(duì)大概率也仍在探索中,需要更多的用戶使用案例。

在 Manus 發(fā)布前放出的騰訊科技采訪中,肖弘其實(shí)已經(jīng)提到了對 Manus 通用性所在的初步思考,「一個(gè)很核心問題,或者說產(chǎn)品經(jīng)理很重要的一個(gè)職責(zé),是控制好用戶預(yù)期。假定它能干世界上所有事,比如:我要怎么賺 100 萬美金?這本來就不是應(yīng)該由一個(gè) Agent 去執(zhí)行的事情。但如果我們能夠給出更多更具體的例子,讓大家的預(yù)期更合理,大家會用起來更順暢?!?/p>

04「殼有殼的用」,最懂殼的團(tuán)隊(duì)

2 月 27 號凌晨,Manus 產(chǎn)品合伙人張濤和首席科學(xué)家季逸超(Peak)看到 Manus.im 打榜成績出來的一瞬間,兩位都落淚了。Manus 在 GAIA Benchmark 上的成績超過 OpenAI 的 Deep Research,而且以 OpenAI 打榜時(shí) 1/10 左右的成本(2 美元/任務(wù))做到了這個(gè)意外的成績。

完整復(fù)盤:Manus 是怎么誕生的?

圖片來源:Manus.im

幾十人的團(tuán)隊(duì),在 agent 達(dá)成全行業(yè)共識的競爭態(tài)勢之時(shí),成為第一波做出通用 agent 產(chǎn)品的團(tuán)隊(duì)之一,在產(chǎn)品工程、前端交互體驗(yàn)上,也有獨(dú)特性。

做成事情的正反饋,勝過所有。對創(chuàng)業(yè)團(tuán)隊(duì)來說,沒有比這更好的激勵(lì)了。但在這之前,Manus 是怎么發(fā)生的?為什么是這個(gè)團(tuán)隊(duì)做出來的?

「今天的模型能力是能夠完成一些復(fù)雜、多步才能搞定的任務(wù)。只是沒有這樣的產(chǎn)品,所以大家感受不到?!?/strong>肖弘在此前騰訊科技的采訪中提到的洞察可以用來理解這一問題。

同時(shí),「能有機(jī)會嘗試做 Agent 的產(chǎn)品的團(tuán)隊(duì),并不多。因?yàn)椋枰芏鄰?fù)合能力。他要搞過 Chatbot,搞過一點(diǎn) AI 編程相關(guān),搞過瀏覽器相關(guān),因?yàn)橐{(diào)用瀏覽器,而且對 LLM 的邊界有不錯(cuò)感知——今天發(fā)展到什么水平,接下來會發(fā)展到什么樣的水平。這些能力首先同時(shí)擁有的公司沒那么多,而且有這些能力的公司,可能手頭正在干一個(gè)很具體業(yè)務(wù)。我們恰好有些同學(xué)剛好有時(shí)間一起把這些事做出來?!?/p>

「恰好」。

  • 在恰好的時(shí)間發(fā)現(xiàn)模型能力達(dá)到了可以做 agent 的程度,而不一定非要等一個(gè)像 Operator 一樣的端到端大模型出來;

  • 也恰好發(fā)現(xiàn)了問題出在對齊上;

  • 也恰好做過聊天機(jī)器人延展出來的所有功能和 AI 瀏覽器;

  • 同時(shí)因?yàn)橐恢痹谒^「套殼」做大模型應(yīng)用產(chǎn)品所以對 LLM 有敏銳的感知;

「蝴蝶效應(yīng)」團(tuán)隊(duì)達(dá)成了在當(dāng)下做出這樣一款通用 agent 的全部要素,所以現(xiàn)在有了完成度相對行業(yè)比較高的通用 agent。

在被問及要做 Manus 的決定性瞬間是什么時(shí),Peak 還原了更多的細(xì)節(jié),他表示,「創(chuàng)業(yè)其實(shí)沒有『干凈的』pivot」,這一切是連貫的、沒有明確界限的。

「在做一款產(chǎn)品的時(shí)候,也會頻繁關(guān)注外界的情況?!巩?dāng)時(shí)有幾件事,一是做瀏覽器的時(shí)候,做過端側(cè)模型,后來發(fā)現(xiàn)瀏覽器需要的場景非常非常寬,有不同的 feature,做的過程發(fā)現(xiàn)了基座模型變強(qiáng)的速度在加快,強(qiáng)到它跟 agent 之間的差距可能是一個(gè) alignment 問題。盡管可能外界覺得好像大語言模型已經(jīng)要逐漸收斂、撞墻。

同期,外界也在發(fā)生變化。去年年初 Cursor 開始火,然后是 Windsurf 和 Devin。這背后對應(yīng)同一個(gè)脈絡(luò),agent 在編程領(lǐng)域火了,火的途徑逐級遞進(jìn)。Cursor 是程序員的一個(gè) copilot,提升編程效率,從 Windsurf 開始逐漸有些自動化的流程進(jìn)來,讓你在本機(jī)有更強(qiáng)的自動化能力,Devin 又達(dá)到了自動化新高度。

VC 的動向也是一致的,比如在去年和前年,YC 投了兩類公司,一是云端的 Browser,比如 Browser base;第二類是類似于 e2b 這種輕量級的 AI Sandbox 虛擬機(jī)這些東西。

這說明「模型的基建在迅速成熟,Infra 的基建也在迅速成熟,再加上看見外界產(chǎn)品逐漸有更多的接受度,我們就覺得這是一個(gè)值得 all in 的方向。這是一個(gè)非常漸進(jìn)的、平滑的過程,再加上做瀏覽器時(shí)的積累比如 chromium 那些基建可以無縫遷移過來,這也是為什么我們敢在云端搞瀏覽器」。

總結(jié)來說,在所謂「套殼」中對需求和模型的敏銳感知和經(jīng)驗(yàn)積累,共同造就了 Manus。Monica 的很多場景需要做模型后訓(xùn)練,同時(shí)在AI瀏覽器的實(shí)踐中強(qiáng)化了最重要的一課「less structure、more intelligence」,發(fā)現(xiàn)模型能力達(dá)到了做 agent,問題在于對齊。接著就是 Manus 飛速進(jìn)化的 3 個(gè)月。

此前,「蝴蝶效應(yīng)」團(tuán)隊(duì)一度被質(zhì)疑「套殼」的價(jià)值何在,其在不自研大模型的情況下,通過整合現(xiàn)有大模型做出了 Monica,把聊天、搜索、閱讀、寫作、翻譯等功能整合在一起,也通過一個(gè)個(gè)接 API 的方式集成了很多任務(wù)執(zhí)行的場景,去年底用戶量達(dá)千萬。

現(xiàn)在,當(dāng)豆包、夸克、元寶都大力推廣各自的 Monica 類產(chǎn)品,當(dāng)一個(gè)小團(tuán)隊(duì)又把現(xiàn)有技術(shù)利用起來做出第一個(gè)通用消費(fèi)級 agent 時(shí),是時(shí)候該重新理解「殼」了。

「套殼」以及「殼」究竟是什么?

在肖弘看來,所有突破都是模型帶來的,基本上是模型先驅(qū)動、模型先行。殼是要把模型技術(shù)上的創(chuàng)新點(diǎn),以一個(gè)用戶可感知的方式展示出來,把模型創(chuàng)新能力封裝成用戶最能感知的樣子。

從這個(gè)定義出發(fā),DeepSeek App(包括思維鏈的展示)是 DeepSeek-R1 的殼,Cursor 是 Anthropic Sonnet 3.5 的殼,Perplexity 是 GPT-4 的殼,ChatGPT 是 InstructGPT 的殼。

隨著模型能力在快速進(jìn)化,「那個(gè)殼」也需要進(jìn)化。每一代模型能力進(jìn)化之后,甚至不一定是原廠,是一個(gè)第三方廠商把它的用戶可感知價(jià)值給呈現(xiàn)出來。就像 Cursor 把 Claude 3.5 Sonnet 的用戶可感知的價(jià)值。

3 月 5 日,在 Monica.im 發(fā)布兩周年的時(shí)間點(diǎn),為什么是這幾十個(gè)人做出了超過各類 Deep Research 和 OpenAI Operator 的產(chǎn)品體驗(yàn),答案就在對殼的理解和實(shí)踐里。

如何做出新的、可以做 agent 的模型下最好的殼?

作為 Manus 的建造者,張濤認(rèn)為,「從后臺去看它整個(gè)的架構(gòu),我們看到每個(gè)地方都有大量的未完成的工作要去做,而那些地方每一個(gè)地方都是決勝的關(guān)鍵,都是讓產(chǎn)品面都不一樣的地方?!?/p>

在團(tuán)隊(duì)看來,最重要的優(yōu)勢是創(chuàng)新速度(pace of Innovation),無論是應(yīng)用還是模型,現(xiàn)在都到了一個(gè)相對飽和的狀態(tài),真正到最后的核心能力唯有一個(gè),就是跑得快,盡管「數(shù)據(jù)飛輪」「網(wǎng)絡(luò)效應(yīng)」這些東西還未被驗(yàn)證有沒有。

「在一個(gè)全新的領(lǐng)域里,一切未定,一切未知,最重要的就是創(chuàng)新速度,拼的是在各種各樣的方向上探索、試錯(cuò),快速找到正確的路徑?!苟?Manus 團(tuán)隊(duì)從管理理念、組織架構(gòu)、產(chǎn)業(yè)流程上,足夠靈活。當(dāng)新機(jī)會出現(xiàn)時(shí),能在有限的資源里能夠貫通整個(gè)公司從上下所有的資源,并且極高的決策速度,并適應(yīng)犯錯(cuò)的反饋。

完整復(fù)盤:Manus 是怎么誕生的?

從左至右依次是「蝴蝶效應(yīng)」首席科學(xué)家 Peak、CEO 肖弘、產(chǎn)品合伙人張濤|圖片來源:網(wǎng)絡(luò)

對于 Manus 的預(yù)期,肖弘認(rèn)為「哪怕有窗口期你也值得試一試?!惯^去一年,他的思考也在發(fā)生劇烈變化,比如現(xiàn)在的他認(rèn)為「當(dāng)意識到自己提前的時(shí)候,更激進(jìn),超級激進(jìn)。今天復(fù)盤,覺得 23 年 Monica 不夠激進(jìn)。」「如果你知道你在創(chuàng)新,你在領(lǐng)先,你就應(yīng)該激進(jìn)。」

不知道 Manus 能不能給肖弘和他的團(tuán)隊(duì)帶來從 1 到 N 的體驗(yàn)與跨越,但這個(gè)最懂「殼」的團(tuán)隊(duì)相信心手合一地創(chuàng)造、也相信創(chuàng)造帶來的蝴蝶效應(yīng)——Manus 來源于 MIT 的一個(gè) motto:Mens at manus,強(qiáng)調(diào)心手合一。不能光學(xué),還得做,對現(xiàn)實(shí)世界產(chǎn)生 impact,才是真正的知識。

未來,隨著 Manus 背后更多的沉淀開源出來,更廣范圍的蝴蝶效應(yīng)也會進(jìn)一步釋放。 

歡迎加入深潮TechFlow官方社群

Telegram訂閱群:http://iy168.cn/TechFlowDaily
Twitter官方賬號:http://iy168.cn/TechFlowPost
Twitter英文賬號:http://iy168.cn/DeFlow_Intern

本文網(wǎng)址:http://iy168.cn/news/1205.html

發(fā)表回復(fù)

您的郵箱地址不會被公開。 必填項(xiàng)已用 * 標(biāo)注