0
| 本文作者: 張進(jìn) | 2026-01-08 11:08 |
13 日,第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)世界模型分論壇圓滿成功。
這場(chǎng)的演講嘉賓是在世界模型領(lǐng)域,研究不同方向的五位青年學(xué)者,他們帶來(lái)了五場(chǎng)圍繞世界模型的精彩演講,話題聚焦通用感知、三維技術(shù)、物理模型、世界模型、數(shù)字人重建。通過(guò)他們的演講、我們得以窺見(jiàn)當(dāng)下圍繞著世界模型的研究是多么廣泛與豐富。
目前,世界模型的研究尚處于起步階段,共識(shí)尚未形成,有關(guān)該領(lǐng)域的研究形成了無(wú)數(shù)支流,而這股潮流中,今天到場(chǎng)的幾位嘉賓,用他們的智慧和力量給世界模型領(lǐng)域研究帶來(lái)了不同的啟發(fā)。
在“世界模型”分論壇上,首位演講者是浙江大學(xué)研究員彭思達(dá)。他是浙江大學(xué)軟件學(xué)院“百人計(jì)劃”研究員、博士生導(dǎo)師,研究方向?yàn)槿S計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)。此次他帶來(lái)的主題演講是《面向具身智能的通用空間感知技術(shù)》,介紹了其團(tuán)隊(duì)近期在賦予機(jī)器人通用感知能力方面的多項(xiàng)工作。
團(tuán)隊(duì)主要聚焦于賦予機(jī)器人三項(xiàng)基礎(chǔ)能力:一是相機(jī)定位(Camera Pose Estimation),即讓機(jī)器人知道自己在空間中的位置;二是深度估計(jì)(Depth Estimation),使機(jī)器人了解場(chǎng)景中各物體與自身的距離;三是物體運(yùn)動(dòng)估計(jì)(Object Motion Estimation),讓機(jī)器人感知世界的運(yùn)動(dòng)狀態(tài)。
這些底層空間感知技術(shù)有何作用?首先,它們能為機(jī)器人提供關(guān)鍵的決策信息。例如,無(wú)人機(jī)在空間中需要先知道自身位置、與場(chǎng)景目標(biāo)的距離,才能實(shí)現(xiàn)基礎(chǔ)避障;進(jìn)而還需了解目標(biāo)物體的運(yùn)動(dòng)情況,才能進(jìn)行追蹤?;趶膱?chǎng)景中獲取的三維空間信息,機(jī)器人的行為規(guī)劃便能得到有力支持。
其次,這些技術(shù)可用于生成訓(xùn)練數(shù)據(jù)。當(dāng)前具身智能領(lǐng)域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù),但遙操數(shù)據(jù)雖好卻難以規(guī)?;瘮U(kuò)展,而仿真技術(shù)目前仍與真實(shí)世界存在較大差距。
彭思達(dá)提出,其實(shí)可將人類視作一種特殊形態(tài)的機(jī)器人——具備完整的身體結(jié)構(gòu)與行為模式。若能發(fā)明一種數(shù)據(jù)采集設(shè)備,將人類日常行為完整記錄下來(lái),就相當(dāng)于獲取了機(jī)器人所需的行為數(shù)據(jù),從而可用于訓(xùn)練人形機(jī)器人。這其中便涉及相機(jī)定位、深度估計(jì)與物體運(yùn)動(dòng)估計(jì)等技術(shù)。
相機(jī)定位方面,最傳統(tǒng)經(jīng)典的方法是Colmap。該方法從圖像中提取特征并進(jìn)行兩兩匹配,再通過(guò)增量式運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)得到相機(jī)位置。最終每張圖像對(duì)應(yīng)一個(gè)相機(jī)位置,并共同生成三維點(diǎn)云,形成經(jīng)典的三維重建流程。
然而,該流程目前面臨的挑戰(zhàn)在于圖像匹配。團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳,會(huì)影響后續(xù)相機(jī)位姿估計(jì)的準(zhǔn)確性。
針對(duì)這一問(wèn)題,彭思達(dá)所在實(shí)驗(yàn)室于2021年提出一種新方法:不再依賴傳統(tǒng)匹配方式,而是直接使用Transformer大模型進(jìn)行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區(qū)域也能實(shí)現(xiàn)良好的匹配。
深度估計(jì)是通用空間感知的關(guān)鍵組成部分。去年,彭思達(dá)團(tuán)隊(duì)在提升深度估計(jì)能力方面取得了三項(xiàng)進(jìn)展,其中之一是“Pixel-Perfect-Depth”思路。
具身智能需要深度估計(jì),是因?yàn)闇?zhǔn)確的深度信息能提升機(jī)器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在“飛點(diǎn)”問(wèn)題:判別式模型(如Depth Anything)傾向于預(yù)測(cè)“折中值”以最小化損失,從而導(dǎo)致飛點(diǎn);生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進(jìn)行壓縮,同樣會(huì)產(chǎn)生飛點(diǎn)。
團(tuán)隊(duì)從生成式模型出發(fā),提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進(jìn)行優(yōu)化,以避免VAE帶來(lái)的信息損失。然而,沒(méi)有VAE后模型需要更全局的視野,因此他們將語(yǔ)言特征整合到DiT模型中,發(fā)現(xiàn)這能顯著增強(qiáng)模型對(duì)圖像的整體理解能力。
將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓(xùn)練數(shù)據(jù),是當(dāng)前具身智能發(fā)展的關(guān)鍵。這需要獲取深度信息、相機(jī)運(yùn)動(dòng)以及人類行為語(yǔ)義軌跡,而語(yǔ)義軌跡的獲取又依賴于三維跟蹤。
此前已有方法使用時(shí)序匹配進(jìn)行跟蹤,例如Google的CoTracker:先初始化一組二維像素點(diǎn),再利用Transformer迭代優(yōu)化這些點(diǎn)的軌跡。但該方法僅在二維層面進(jìn)行跟蹤,容易因相鄰區(qū)域的干擾而丟失目標(biāo),效果受限。
彭思達(dá)團(tuán)隊(duì)的思路是將二維圖像反投影至三維空間,做 3D tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對(duì)該軌跡進(jìn)行優(yōu)化,從而實(shí)現(xiàn)更魯棒的跟蹤效果。該方法被命名為SpatialTracker。
接下來(lái),騰訊 ARC Lab 高級(jí)研究員胡文博帶來(lái)了《邁向三維感知的視頻世界模型》(Towards 3D-aware Video World Models )的演講主題。
胡文博表示,2024年初 Sora 震撼面世,雖然 3D 一致性不錯(cuò),但對(duì)于做三維重建的工作者來(lái)說(shuō),視頻細(xì)節(jié)里的垂直性和平整性還有空間。
同時(shí)他意識(shí)到,Video diffusion 有潛力作為世界模型的一種表示,但視頻仍處于 2D 空間,而我們的世界是 3D 的,因此如何實(shí)現(xiàn) 3D 感知的視頻世界模型,非常值得探索。
基于這樣的觀測(cè),胡文博想要實(shí)現(xiàn)以 3D-aware 出發(fā)的 video world models。
胡文博和團(tuán)隊(duì)決定在重建和生成兩方面發(fā)力,重建方面,他展示了包括 2024 年開(kāi)始陸續(xù)做的 video depth (DepthCrafter),從視頻中估計(jì)點(diǎn)云以開(kāi)展 4D 重建任務(wù)(GeometryCrafter),以及從單目視頻中重建 motion 的“Holi4D”等工作。
現(xiàn)場(chǎng),胡文博并未過(guò)多展開(kāi)從開(kāi)放世界 2D 觀測(cè)重建 3D 信息內(nèi)容,而是把分享重點(diǎn)放在了以下部分。
胡文博先分享了靜態(tài)場(chǎng)景探索任務(wù) ViewCrafter,借助重建能力生成 3D 點(diǎn)云,以其為條件控制 video diffusion。胡文博表示,這部分的探索生成的圖像可更新點(diǎn)云實(shí)現(xiàn)更遠(yuǎn)探索,是早期世界模型的 memory 機(jī)制。
這些把 3D 信息用于視頻擴(kuò)散,單圖探索及點(diǎn)云更新應(yīng)用,讓現(xiàn)場(chǎng)觀眾們非常感興趣。
接下來(lái),胡文博還展示了另一部分重要的 work:TrajectoryCrafter。
這是胡文博在 ICCV 25 的 Oral 工作,其核心是讓用戶通過(guò)單目視頻實(shí)現(xiàn)對(duì)背后 4D 世界的探索,延續(xù) 3D-aware 思路,將重建的 3D 信息和原始視頻注入擴(kuò)散過(guò)程,現(xiàn)場(chǎng)展示了指定相機(jī) pose 的動(dòng)態(tài)視頻、子彈時(shí)間特效和復(fù)現(xiàn) Dolly Zoom 特效,還原度非常高。
不僅如此,胡還展示了 VerseCrafter 模型實(shí)現(xiàn)場(chǎng)景交互,在單圖輸入重建幾何基礎(chǔ)上,標(biāo)注可移動(dòng)物體數(shù)據(jù)標(biāo)注流程,可以實(shí)現(xiàn)固定相機(jī)、只動(dòng)物體、相機(jī)物體同動(dòng)等交互結(jié)果,現(xiàn)在展示了生成的非常逼真的觀測(cè)結(jié)果。
最后,還展示了多個(gè)玩家或 agent 進(jìn)行聯(lián)機(jī)探索場(chǎng)景的 demo。
胡文博的分享,展示了對(duì)世界模型交互方式的新思考,更是讓大家的世界模型應(yīng)用場(chǎng)景有了更充足的想象空間。
圍繞數(shù)字人建模,西湖大學(xué)助理教授,遠(yuǎn)兮實(shí)驗(yàn)室負(fù)責(zé)人修宇亮做了主題演講《走出蠟像館,交互新世界:開(kāi)拓三維數(shù)字人研究新疆域》,分享了其關(guān)于高精度數(shù)字人重建的三項(xiàng)最新進(jìn)展。
由于兼具相機(jī)位姿變化和人物動(dòng)作變化的特點(diǎn),以日常圖像作為三維重建任務(wù)素材時(shí),長(zhǎng)期以來(lái)面臨著臟數(shù)據(jù)的困擾。傳統(tǒng)解決方案為對(duì)圖像進(jìn)行文本編碼、文字生成 3D 模型兩步走。代價(jià)是效率,DreamBooth 和 SDS(Score Distillation Sampling)漫長(zhǎng)的優(yōu)化流程,導(dǎo)致單個(gè)數(shù)字人建模任務(wù)需要 3 至 4 個(gè)小時(shí)。
遠(yuǎn)兮實(shí)驗(yàn)室的最新成果 UP2You,將上述時(shí)間從 4 小時(shí)壓縮到了 1.5 分鐘。其核心思想是將臟數(shù)據(jù)直接轉(zhuǎn)化成對(duì)后續(xù)重建友好的多視角正交圖片,在此基礎(chǔ)上套用已有的多視角重建算法,實(shí)現(xiàn)提效。
相較于傳統(tǒng)方案,UP2You 最大的優(yōu)勢(shì)是,其重建質(zhì)量可以隨輸入圖片數(shù)量的增加而穩(wěn)定變好,理論上可以恢復(fù)出更好的幾何結(jié)構(gòu)和紋理。由此日常圖像作為臟數(shù)據(jù)的弊端得以被規(guī)避,數(shù)據(jù)量的優(yōu)勢(shì)同時(shí)被放大。“多多益善”,修宇亮教授總結(jié),“無(wú)論圖片有多臟,這個(gè)方案只要保證圖片源源不斷。”
修宇亮教授分享的第二項(xiàng)工作名為 ETCH,旨在根據(jù)高精度穿衣人體模型,得到解剖學(xué)上正確的內(nèi)部人體結(jié)構(gòu)。由于此前的嘗試將最外層服裝視為人體皮膚,導(dǎo)致建模結(jié)果普遍偏胖。而 ETCH 通過(guò)向量,定義了衣服和皮膚之間的厚度關(guān)系,從而建模了更準(zhǔn)確的內(nèi)部人體結(jié)構(gòu)。
在今年的 ICCV 上,ETCH 獲評(píng) Highlight Paper。值得注意的是,ETCH 方案首先將穿衣人體模型采樣為點(diǎn)云,每個(gè)點(diǎn)指向內(nèi)部人體的一個(gè)向量。盡管衣服存在非剛體形變,但修宇亮表示,在此類任務(wù)中,不完美的旋轉(zhuǎn)等變性仍可以大量減少訓(xùn)練所需數(shù)據(jù)。這也是ETCH工作的創(chuàng)新點(diǎn)之一,它或?yàn)槭讉€(gè)通過(guò)向量定義衣服和人體之間關(guān)系的嘗試。
最后一項(xiàng)工作名為 Human3R,旨在實(shí)現(xiàn)人物及場(chǎng)景的實(shí)時(shí)動(dòng)態(tài)呈現(xiàn)。“你很難只從動(dòng)作就看懂人在做什么”,修宇亮教授解釋,“但如果把場(chǎng)景也給到你,語(yǔ)義就相對(duì)清晰?!?/p>
據(jù)介紹,Human3R在同時(shí)實(shí)現(xiàn)場(chǎng)景重建和人體狀態(tài)預(yù)測(cè)、追蹤的基礎(chǔ)上,可以做到實(shí)時(shí) 15 FPS,8GB 顯存占用。這意味著僅需一張商用 GPU,即可實(shí)現(xiàn) SOTA 級(jí)性能。
為了實(shí)現(xiàn)這一點(diǎn),Human3R 保留了 CUT3R 的 3D 重建 backbone,以保留其對(duì)場(chǎng)景的幾何重建能力,同時(shí)新增了一條分支,用于從場(chǎng)景中顯式提取人體點(diǎn)云,并進(jìn)一步估計(jì)該點(diǎn)云所對(duì)應(yīng)的人體姿態(tài)。同時(shí),Human3R 還借鑒了 VPT(Visual-Prompt Tuning)策略,以實(shí)現(xiàn)高效微調(diào)。
展望未來(lái),修宇亮教授最后分享了自身對(duì)于數(shù)字人技術(shù)的觀察。更強(qiáng)大的通用 3D 重建模型正在讓越來(lái)越多數(shù)字人重建任務(wù)迎刃而解,人體姿態(tài)重建,只需要在具有場(chǎng)景感知能力的視覺(jué)基礎(chǔ)模型上進(jìn)行微調(diào)。“數(shù)字人的重建任務(wù),慢慢都會(huì)變成基礎(chǔ)模型的微調(diào)任務(wù)?!毙抻盍两淌谥赋?。
隨后登場(chǎng)的是,中山大學(xué)計(jì)算機(jī)學(xué)院青年研究員、拓元智慧首席科學(xué)家王廣潤(rùn)博士。他帶來(lái)了《創(chuàng)新基礎(chǔ)模型,強(qiáng)化物理世界建?!返闹黝}演講,王廣潤(rùn)博士長(zhǎng)期專注于新一代 AI 架構(gòu)、大物理模型與世界模型等方向。
在演講中,王廣潤(rùn)博士首先解釋了物理空間智能的概念。10 年前,端到端是一個(gè)非常火的詞,他認(rèn)為,如今的物理空間智能也面臨著“感知-規(guī)劃-執(zhí)行”端到端的實(shí)現(xiàn),這就需要非常多的數(shù)據(jù)去訓(xùn)練,但高質(zhì)量數(shù)據(jù)匱乏,難以學(xué)習(xí)到對(duì)齊物理世界的可靠執(zhí)行策略。
于是,王廣潤(rùn)博士的團(tuán)隊(duì)就在推理計(jì)算上提出了全局迭代生成,相比于順序生成,全局迭代生成有三種優(yōu)勢(shì):全局性、漸進(jìn)精化;快速性以及便于多模態(tài)統(tǒng)一。
王廣潤(rùn)博士還分享了三種傳統(tǒng)方法,都存在著諸多不足。他們提出了一種全新的模型——原位 Tweedie 離散擴(kuò)散模型,這個(gè)模型可以在 one-hot 單純形上實(shí)現(xiàn)嚴(yán)格的擴(kuò)散過(guò)程,直接在擴(kuò)散空間中去噪,而不是依賴嵌入或掩碼,也不依賴馬爾科夫性。
而且,在去噪的過(guò)程可以看出,隨著迭代的變化,token 的語(yǔ)義能夠從一開(kāi)始t較高時(shí)的混亂噪聲逐步隨著t降低去噪為一個(gè)穩(wěn)定的語(yǔ)義表征。
有了框架之后,就可以開(kāi)始訓(xùn)練模型了。王廣潤(rùn)博士表示,VLA模型存在幾項(xiàng)瓶頸:泛化能力不足、動(dòng)作控制粗糙、建模范式矛盾。所以他們構(gòu)建了新的方法——E0 具身大模型,在很多數(shù)據(jù)集和真機(jī)任務(wù)上都表現(xiàn)突出,并顯示出了強(qiáng)大的泛化性能。
王廣潤(rùn)博士還分享了一個(gè)比喻:VLA =“你在監(jiān)控中心,通過(guò)看不同房間的監(jiān)控視頻,遙操不同房間的機(jī)械臂”。其實(shí)人的泛化能力已經(jīng)很強(qiáng)了,但在新環(huán)境下,還是需要在線簡(jiǎn)單學(xué)習(xí)。據(jù)此,王廣潤(rùn)博士提出了物理建模與空間建模的解耦。
最后,王廣潤(rùn)博士表示自己的實(shí)驗(yàn)室做出了一個(gè) 24 小時(shí)運(yùn)行無(wú)人機(jī)化物理智能評(píng)測(cè)平臺(tái),提供多種遠(yuǎn)程接口,無(wú)痛測(cè)評(píng) VLA。
王廣潤(rùn)博士的報(bào)告從框架、模型到基準(zhǔn)形成完整閉環(huán),為 AI 從虛擬數(shù)字空間走向真實(shí)物理世界提供了關(guān)鍵技術(shù)支撐。
韓曉光教授在此次大會(huì)梳理了三維生成技術(shù)的發(fā)展脈絡(luò)與未來(lái)挑戰(zhàn),并深入探討了在視頻生成與 AI 大模型時(shí)代,三維技術(shù)所扮演的關(guān)鍵角色及其不可替代的價(jià)值。
韓曉光教授表示,三維生成技術(shù)在過(guò)去十年經(jīng)歷了飛速發(fā)展。早期階段屬于“類別限定”時(shí)代,需為椅子、車(chē)輛、人臉等不同物體分別訓(xùn)練獨(dú)立模型。隨著 Dreamfusion 等工作的出現(xiàn),進(jìn)入了“開(kāi)放世界”時(shí)代,實(shí)現(xiàn)了文本生成 3D 模型,但生成速度較慢。當(dāng)前已進(jìn)入大模型時(shí)代,以 Adobe 的大型重建模型、混元 3D 等為代表,單圖生成 3D 模型的效果和速度均已大幅提升。
韓曉光教授指出了三維生成的三大趨勢(shì):一是更精細(xì),追求幾何細(xì)節(jié)的極致表現(xiàn);二是更結(jié)構(gòu)化,生成模型可自動(dòng)拆解為部件,以適配游戲、制造等行業(yè)需求;三是更對(duì)齊,確保生成的三維模型在結(jié)構(gòu)上與輸入的二維圖像精確對(duì)應(yīng),避免細(xì)節(jié)錯(cuò)亂。
然而,視頻生成(如Sora)的爆發(fā)式發(fā)展,對(duì)三維內(nèi)容創(chuàng)作構(gòu)成了“存在性”沖擊。其核心矛盾在于,傳統(tǒng)的三維流程復(fù)雜,但最終產(chǎn)出是視頻;而 Sora 等模型可直接從文本生成視頻,跳過(guò)了所有三維環(huán)節(jié)。這引發(fā)了行業(yè)對(duì)三維技術(shù)必要性的深刻質(zhì)疑。
對(duì)此,韓曉光教授分析,視頻生成當(dāng)前存在細(xì)節(jié)可控性差、長(zhǎng)程記憶缺失等核心難題,這為三維技術(shù)留下了關(guān)鍵價(jià)值空間。他提出了四種可能的結(jié)合路徑:一是純 2D 的端到端模型;二是將 3D 仿真作為“世界模擬器”,先生成 CG 視頻再使其逼真化;三是將 3D 信息作為額外控制信號(hào)輸入生成網(wǎng)絡(luò);四是利用 3D 合成數(shù)據(jù)來(lái)增強(qiáng)視頻模型的訓(xùn)練。
在探討“世界模型是否需要 3D ”時(shí),韓曉光教授認(rèn)為,世界模型的核心目標(biāo)是數(shù)字化世界規(guī)律以實(shí)現(xiàn)預(yù)測(cè)。它可分為三類:服務(wù)于人類共同體的宏觀模型、服務(wù)于個(gè)人探索的虛擬世界模型,以及服務(wù)于自動(dòng)駕駛、具身智能等機(jī)器的具身世界模型。他強(qiáng)調(diào),無(wú)論是為了滿足 VR/AR 中“可交互”所需的觸覺(jué)反饋,還是為機(jī)器人提供仿真訓(xùn)練環(huán)境,或是實(shí)現(xiàn)從虛擬到實(shí)體的智能制造,3D 都是不可或缺的基石。
演講最后聚焦于AI時(shí)代的“安全感”與“可解釋性”問(wèn)題。韓曉光教授指出,當(dāng)前AI領(lǐng)域過(guò)度追求性能,但以“端到端”和“潛變量”為代表的“黑箱”模型,因其不可解釋性而帶來(lái)了不安全感。人類能直觀理解 3D/4D 世界,而高維的潛變量則超出了我們的認(rèn)知范圍。因此,3D 作為一種人類可直觀理解、可解釋的顯式表示,是構(gòu)建可信、安全AI系統(tǒng)的關(guān)鍵途徑。真正的安全感,源于模型效果與可解釋性之間的平衡,而三維技術(shù)在其中將扮演至關(guān)重要的角色。
圓桌環(huán)節(jié),世界模型主題圓桌論壇在趙昊教授的主持下正式開(kāi)啟。彭思達(dá)、胡文博、修宇亮、王廣潤(rùn)、韓曉光幾位嘉賓齊聚一堂展開(kāi)了關(guān)于世界模型展望的探討。
彭思達(dá)先從“技術(shù)替代問(wèn)題”切入,提到關(guān)于世界模型的發(fā)展,不能只看算法提升,還必須關(guān)注硬件的迭代,同時(shí),彭思達(dá)在motion方面也提出了一些見(jiàn)解,他結(jié)合 DeepMind 最新工作提出bet,3D tracking 在2027年會(huì)慢慢收斂,與此同時(shí),自監(jiān)督學(xué)習(xí)也會(huì)出現(xiàn)巨大突破。
胡文博分享了對(duì)世界模型、視頻世界模型和空間智能之間的差異,他認(rèn)為讓模型理解空間還需要探索,他更致力于做一個(gè)給個(gè)人用的世界模型,讓使用者可以體驗(yàn)一些不知道的世界,或者虛構(gòu)的世界,甚至是他人的世界,這是非常有意義的。
王廣潤(rùn)認(rèn)為世界模型有一個(gè)非常標(biāo)準(zhǔn)的應(yīng)用,就在交互層面,現(xiàn)在已經(jīng)能從圖輸出很精簡(jiǎn)的3D,王廣潤(rùn)表示很期待從PI0到未來(lái)的PI1的過(guò)程。
韓曉光則從3D和視頻模型之間的聯(lián)系出發(fā),認(rèn)為2026年做好3D的骨架和可移動(dòng)部分對(duì)具身智能依舊是非常有用的,并且呼吁更多人繼續(xù)做3D方向的探索。
修宇亮則針對(duì)解決數(shù)字人的情緒價(jià)值問(wèn)題方向,讓多模態(tài)表征統(tǒng)一的角度展開(kāi)表達(dá),他提出2D和3D數(shù)字人無(wú)定式,以用戶開(kāi)心為目標(biāo),但需要解決情緒價(jià)值難以量化、缺乏基準(zhǔn)的問(wèn)題。
關(guān)于世界模型的重建和生成工作,嘉賓們各抒己見(jiàn),最終主持人趙昊呼吁這個(gè)領(lǐng)域需要共識(shí)和合作,一個(gè)關(guān)于“世界模型”的技術(shù)聯(lián)盟呼之欲出?!咐追寰W(wǎng)(公眾號(hào):雷峰網(wǎng))」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。