2026-05-20 20:45:48
每經(jīng)記者|可楊 每經(jīng)編輯|楊翼
當越來越多AI(人工智能)公司開始將“世界模型”寫入技術路線圖,視頻生成行業(yè)正經(jīng)歷新一輪升溫。
5月19日,在接受包括《每日經(jīng)濟新聞》記者在內(nèi)的媒體記者采訪時,智象未來創(chuàng)始人、CEO(首席執(zhí)行官)梅濤反復強調(diào),當前,行業(yè)距離真正意義上的世界模型還有很長距離,“到今天為止,我們不會宣稱智象未來現(xiàn)在是一家世界模型公司。我認為,市面上所有模型被稱作世界模型,說實話還有點早”。
公開資料顯示,智象未來是一家多模態(tài)生成式人工智能公司,成立于2023年,公司創(chuàng)始人、CEO梅濤是加拿大工程院外籍院士、原京東集團副總裁。近日,智象未來宣布完成新一輪億元級融資,深創(chuàng)投、金浦投資等多家機構參與。
在受訪過程中,梅濤圍繞視頻生成、原生全模態(tài)模型、具身智能與AI商業(yè)化等問題,系統(tǒng)談及了他對行業(yè)技術路徑、創(chuàng)業(yè)公司機會以及AI產(chǎn)業(yè)分層的判斷。
在梅濤看來,多模態(tài)生成技術遠未收斂,而AI公司的競爭,也正在從模型能力轉(zhuǎn)向產(chǎn)品能力與場景化落地。
過去一年,世界模型成為AI行業(yè)高頻詞,但在梅濤看來,行業(yè)對于這一概念存在明顯誤讀。
“我發(fā)現(xiàn)很多人認為世界模型是一個模型,其實這跟我們認知的世界模型不太一樣。世界模型有不同路徑,將來也不是全世界只有一個模型,存在很多可能性?!泵窛赋觯嬲氖澜缒P托枰瑫r具備三類能力:對物理規(guī)律的理解與建模,對長上下文因果關系的處理,以及與物理世界的多模態(tài)感知交互能力,包括觸覺、關節(jié)點運動、三維空間自由度等?!拔覀儽仨殞κ澜缒P偷亩x、世界模型的場景和科學規(guī)律保持一種敬畏之心?!?/p>
梅濤用一個具體場景來說明當前的差距:讓一個機器人走進房間,知道主人喜歡喝茶還是咖啡,然后完成取瓶、擰蓋、倒水、送杯這一系列動作?!敖裉斓臋C器人,離這個還很遙遠?!?/p>
安全性,即在真實場景的穩(wěn)定運營,也是梅濤強調(diào)的現(xiàn)實障礙之一。梅濤認為,機器人如果在工廠或家里運作,目前需要很強的安全保障。如果安全性不是百分之百,就像自動駕駛一樣,“進家里怎么保證人身安全、怎么保證不損壞貴重物品,還需要相當長的時間”。
對于通往世界模型的路徑,梅濤的判斷是,目前世界模型的架構尚不明朗,未來可能并非只有一家公司來承擔,不同公司會在各自的垂直場景中做出相對通用但實際上高度專用化的模型,“會開車的,會撿東西的,會跑步的機器人,應該都是非常垂直的模型”。
“將來通往世界模型的路上,每個公司說自己是世界模型,我也能接受。但每個人不會做特別通用的事情。”梅濤補充道。
對于具身智能領域與視頻模型的關系,梅濤曾公開表示,“很多具身智能公司低估了視頻模型的重要性”。
梅濤指出,當前,具身智能公司普遍采用的模型參數(shù)量“大概幾十億,不超過100億”,而這個量級遠不足以支撐復雜場景下的泛化能力。
“如果真要做到世界模型,你要干很多活,怎么可能是一個小模型就能搞定?怎么可能采一些數(shù)據(jù)就能做到符合要求?”梅濤認為,沒有足夠厚的底座模型,具身智能很難真正實現(xiàn)泛化。
對于當前的技術路徑演進,梅濤認為,多模態(tài)生成領域技術尚未收斂,“這是創(chuàng)業(yè)公司的機會。如果技術完全收斂,統(tǒng)一采用DiT框架,我們也不用做了,因為干不過大廠”。
公開資料顯示,DiT架構,全稱Diffusion Transformer,是一種將Transformer架構作為骨干網(wǎng)絡應用于擴散模型的生成式人工智能架構,主要用于圖像和視頻生成任務。
“算法、數(shù)據(jù)、算力,三個都重要?!痹诿窛磥恚斔惴蚣芄潭ㄖ?,數(shù)據(jù)和算力的重要性才會上升,競爭才會真正變成資源的比拼。但當算法出現(xiàn)新的突破,既有的數(shù)據(jù)積累優(yōu)勢會被部分稀釋。這意味著,只要技術路線尚未確定,就仍然存在以算法創(chuàng)新?lián)Q取相對優(yōu)勢的空間?!叭绻坏┧惴ê图軜嫲l(fā)生了變化,或者有新的架構與新算法出現(xiàn)后,數(shù)據(jù)的重要性會有所降低?!?/p>
對于當前視頻生成領域的競爭格局,梅濤將其分為三層:擁有流量入口的平臺型企業(yè);做底層基座大模型的公司;以及大量做Agent(智能體)和行業(yè)應用的公司。
梅濤表示,智象未來在第二層和第三層之間布局,既打造特色差異化模型,也開展行業(yè)應用,智象未來不與大型模型廠商正面比拼底座模型,該領域投入成本極高?;诋斍绑w量,公司選擇聚焦特色領域,例如基于全新一代原生全模態(tài)架構Unified Transformer(UiT)打造的圖像生成模型HiDream-O1-Image。其次,在視頻生成領域則做與商業(yè)場景緊密相關的內(nèi)容,例如商業(yè)營銷、影視創(chuàng)作等垂類場景應用的視頻生成模型。
梅濤認為,大模型提供的原子能力不等于最終產(chǎn)品體驗。用戶,尤其是非開發(fā)者,無法直接調(diào)用模型接口,中間必須存在一個由API、技能封裝再到智能體構成的中間層。
梅濤進一步將AI公司的商業(yè)價值分為三層:最底層是算力價值(芯片、基建等),中間層是Token(詞元)價值;“大模型的費用,長線來看一定是水電、一定是基建,價格會非常公開、非常透明,也會越來越便宜;最上層是應用落地帶來的商業(yè)價值,這取決于公司的商業(yè)模式?!泵窛J為,創(chuàng)業(yè)公司若只賣平臺或Token,無法與大廠比拼資源與流量,必須把應用層做厚,與客戶共創(chuàng)價值,才能在競爭中建立壁壘。
對于創(chuàng)業(yè)公司與大廠的競爭,梅濤表示,大廠不可能覆蓋每個角落?!艾F(xiàn)在,沒有一家模型公司能夠滿足客戶的所有需求,這是行業(yè)共識?!?/p>
對于智象未來自身的定位,梅濤表示,公司長期目標是探索并構建世界模型,但在當下,智象未來更嚴謹?shù)貙⒆约憾x為一家原生多模態(tài)大模型公司,在邁向世界模型的過程中還是會先聚焦在圖像、視頻、3D交互這些多模態(tài)數(shù)據(jù)的生成、理解與建模上。
梅濤認為,原生多模態(tài)一定會通往世界模型,但中間還有很長的路?!笆澜缒P鸵欢ㄓ星逦x,包括其能力邊界、技術內(nèi)涵和應用目標。否則,相關討論容易停留在概念層面,不加定義的話說得不好聽就是‘耍流氓’,難以指向一個具備統(tǒng)一認知和構建能力的世界模型?!?/p>
封面圖片來源:每經(jīng)媒資庫
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP