0
| 本文作者: 齊鋮湧 | 2025-12-31 15:36 |
作者丨齊鋮湧
編輯丨馬曉寧
在無人機(jī)邁向通用飛行智能體的進(jìn)程中,具身智能正成為其實(shí)現(xiàn)認(rèn)知躍遷的核心技術(shù)路徑。雷峰網(wǎng)第八屆 GAIR 全球人工智能與機(jī)器人大會,邀請到了具身智能在飛行機(jī)器人賽道的頭部玩家微分智飛創(chuàng)始人兼CEO高飛,來聊聊具身智能的一個(gè)細(xì)分領(lǐng)域——飛行具身智能,并探討了世界模型在其中的作用。
本文整理自高飛與AI科技評論的對話:
01
傳統(tǒng)無人機(jī)和飛行具身智能
AI科技評論:您提出“飛行具身智能”這一概念,它與傳統(tǒng)的無人機(jī)智能有何本質(zhì)區(qū)別?
高飛:具身智能的本質(zhì)是“智能機(jī)器人”,賦予各種機(jī)器人認(rèn)知、推理和泛化決策的能力,對于飛行也不例外,將會重新定義飛行機(jī)器人。拿操作類的機(jī)器人打比方,雙臂具身智能和傳統(tǒng)工業(yè)機(jī)械臂的本體很相似,甚至可能完全長得一樣,但雙臂具身智能具備幾個(gè)關(guān)鍵能力:泛化通用、自主決策。就是這些能力,讓它和傳統(tǒng)機(jī)械臂很不一樣。
同樣,飛行具身智能和傳統(tǒng)無人機(jī)最大區(qū)別在于智能。傳統(tǒng)無人機(jī)是一種machine,最多是一種 automatic machine(自動(dòng)機(jī)器)。但是飛行具身智能,要做的是autonomous甚至intelligent & smart machine,這里的對象是聰明、易于交互、有經(jīng)驗(yàn)、可以泛化的,和人一樣能理解語言、環(huán)境、做推理的載體。飛行具身智能,可以在斷網(wǎng)、無衛(wèi)星信號、無人操控的情況下,獨(dú)立完成感知-理解-決策-執(zhí)行的全閉環(huán)流程,相當(dāng)于物理世界中的飛行智能體。
02
機(jī)器人是一個(gè)面向?qū)ο蟮膶W(xué)科
AI科技評論:您作為一名90后,既是浙大長聘副教授、博導(dǎo),學(xué)術(shù)背景很扎實(shí),同時(shí)又是微分智飛創(chuàng)始人,一邊發(fā)paper一邊科技創(chuàng)業(yè),能不能結(jié)合學(xué)術(shù)角度,聊聊您對具身智能的看法?
高飛:我算是一個(gè)機(jī)器人領(lǐng)域的學(xué)院派學(xué)者。機(jī)器人領(lǐng)域有一個(gè)非常顯著的特點(diǎn),它不是面向方法的學(xué)科,而是一個(gè)典型的面向?qū)ο蟮膶W(xué)科。它的核心目的就是要把機(jī)器人造出來并且能work,在過程中使用的方法總是為這個(gè)目標(biāo)服務(wù)。
所以你會發(fā)現(xiàn)很多機(jī)器人學(xué)者都是全棧工程師和實(shí)用主義者,對新思想接受度很高。AI結(jié)合實(shí)體,完成從信息輸入到自主學(xué)習(xí)到任務(wù)執(zhí)行的閉環(huán),這就是具身智能。在 AI 技術(shù)的加持下,無論是基于大模型的大腦能力,還是小腦上端到端強(qiáng)化學(xué)習(xí)帶來的運(yùn)控能力,還是群體上的分布式群腦能力,都可以讓機(jī)器人和無人機(jī)產(chǎn)生質(zhì)變。本質(zhì)上,機(jī)器人學(xué)者看到了重新定義機(jī)器人,做新一代真正“智能的”機(jī)器人的巨大機(jī)會,在這樣的時(shí)代機(jī)遇面前,我認(rèn)為推動(dòng)技術(shù)落地的機(jī)會必須要把握。
AI科技評論:“機(jī)器人不是一個(gè)面對方法,而是面向?qū)ο蟮膶W(xué)科”這點(diǎn)很有意思,現(xiàn)在很多在做具身智能的從業(yè)者,都是從自動(dòng)駕駛轉(zhuǎn)過來的,能展開講講其中的原因么?
高飛:自動(dòng)駕駛本質(zhì)上是一種地面輪式機(jī)器人,受自身運(yùn)動(dòng)學(xué),以及交通規(guī)則、人類車輛交互方式等復(fù)雜場景約束。目前自動(dòng)駕駛領(lǐng)域的技術(shù),本質(zhì)是機(jī)器人技術(shù)在平面移動(dòng)領(lǐng)域的投影。
在過往的機(jī)器人領(lǐng)域,大家認(rèn)為足式機(jī)器人很難work,更不用說產(chǎn)業(yè)化,所以做足式的少;做輪式機(jī)器人(包括自動(dòng)駕駛)和無人機(jī)這類移動(dòng)載體的更多。現(xiàn)在隨著技術(shù)的發(fā)展,更多形態(tài)的機(jī)器人讓大家看到了落地的曙光,很多自動(dòng)駕駛的從業(yè)者自然會轉(zhuǎn)向新領(lǐng)域,并且將相近領(lǐng)域的knowhow帶過來復(fù)用。
AI科技評論:那就聊聊飛行具身智能的應(yīng)用場景吧,能在哪些場景 work ?
高飛:整體來說,我們(微分智飛)現(xiàn)在還處于探索和小批量驗(yàn)證階段,正尋找有更大市場空間和技術(shù)匹配度的方向。
在泛巡檢、泛測繪類任務(wù)中,我們已經(jīng)有了一些交付量,積累了上千次實(shí)飛數(shù)據(jù)。目前我們主要面向高危、人工作業(yè)困難的場景,產(chǎn)品能在全程自主決策下完成復(fù)雜環(huán)境的信息采集;這些采集的信息能幫我們進(jìn)一步訓(xùn)練模型,讓基座模型更能適應(yīng)特定行業(yè)的共性需求。更多場景我們正在逐一解鎖,比如在市政安防領(lǐng)域,飛行具身智能可以輔助智能巡邏和快速應(yīng)急。
AI科技評論:聽起來確實(shí)很有想象空間,之前了解到飛行具身智能有一個(gè)非常關(guān)鍵的部分,叫做“分布式集群技術(shù)”,可以展開說說么?
高飛:這個(gè)領(lǐng)域的發(fā)展很快,我早期在港科大解決單體自主導(dǎo)航,進(jìn)入浙大工作后開始研究集群協(xié)同。
和傳統(tǒng)的無人機(jī)集中控制不一樣,分布式集群技術(shù),類似人類軍訓(xùn)走方陣,每個(gè)人的分工不同,每個(gè)個(gè)體會獨(dú)立思考決策,屬于分布式智能協(xié)同,這就要求集群中的每一個(gè)個(gè)體既能自主智能,同時(shí)又要高效溝通和分工,不能起沖突。
現(xiàn)在我們能做到在仿真里同時(shí)控制 1, 000 個(gè)飛行機(jī)器人,并且是完全分布式的架構(gòu)。在真實(shí)的場景下,我們可以實(shí)現(xiàn)數(shù)十機(jī)規(guī)模的分布式自主搜救、協(xié)同建圖,甚至多機(jī)協(xié)同搬運(yùn)。
AI科技評論:很有意思,能聊聊“分布式集群技術(shù)”這個(gè)領(lǐng)域的學(xué)術(shù)成果么?(雷峰網(wǎng))
高飛:我們第一次實(shí)現(xiàn)分布式集群自主導(dǎo)航,是在2022 年的一篇《Science Robotics》工作中。這篇工作被評價(jià)為“邁出了無人機(jī)集群走出受限實(shí)驗(yàn)室場景的重要一步”,是一個(gè)重要的里程碑,它證明了多個(gè)小型無人機(jī)只靠非常便宜的機(jī)載傳感器和芯片,就可以實(shí)現(xiàn)分布式的自主導(dǎo)航、避障和建圖。
AI科技評論:您如何看待世界模型在飛行具身智能領(lǐng)域的應(yīng)用?當(dāng)前有哪些機(jī)遇、挑戰(zhàn)與局限?
高飛:這是一個(gè)令人興奮的方向。如果說具身智能是讓飛行機(jī)器人有了大腦,那么世界模型就是讓這個(gè)大腦能夠預(yù)演未來和認(rèn)識空間。在我看來,它得價(jià)值主要體現(xiàn)在應(yīng)用和認(rèn)知層面。
首先是應(yīng)用層面,它能模擬、能預(yù)測。飛行機(jī)器人的容錯(cuò)率很低,炸機(jī)的成本很高。我覺得世界模型本質(zhì)上是一個(gè)針對未知空間和未來時(shí)間的預(yù)測器。它能輔助機(jī)器人提前推演不同飛行路徑帶來的后果;也能作為一個(gè)高保真的仿真器,生成大量長尾場景數(shù)據(jù),用來訓(xùn)練和驗(yàn)證。
更本質(zhì)的是認(rèn)知維度的補(bǔ)全。現(xiàn)在的 LLM或者說MLLM主要解決的是邏輯。但飛行機(jī)器人是在三維物理世界里運(yùn)動(dòng)的,光懂邏輯不夠,還必須懂幾何結(jié)構(gòu)和演變規(guī)律,世界模型同時(shí)具備這三種能力。打個(gè)比方,當(dāng)機(jī)器人面前有一棵樹,世界模型不僅能讓它知道“那是樹”,還能理解樹的三維結(jié)構(gòu)、甚至預(yù)判樹枝怎么搖。
當(dāng)然現(xiàn)在還是面臨一些挑戰(zhàn), 比如模型的準(zhǔn)確度、實(shí)時(shí)性,以及怎么把這么大一個(gè)模型“塞進(jìn)”機(jī)載計(jì)算單元里,還要保證毫秒級響應(yīng),這也是大家正在攻關(guān)的方向。但一旦走通,它很可能成為機(jī)器人智能的通用基座,未來只需要微調(diào),就能適應(yīng)各種真實(shí)任務(wù)。(雷峰網(wǎng))
03
在自己的科研成果上,
沒有人比自己理解更深刻
AI科技評論:您在知乎上發(fā)過一篇關(guān)于讀博的神貼,引起很多學(xué)生的共鳴,能聊聊您的學(xué)習(xí)經(jīng)歷和創(chuàng)業(yè)契機(jī)么?
高飛:我的求學(xué)經(jīng)歷很簡單,我是 18 歲上大學(xué),從一個(gè)小鎮(zhèn)青年考上浙大,選擇了自動(dòng)化專業(yè),之后申請了港科大的直博。我的老師當(dāng)時(shí)給我布置的博士畢業(yè)課題是讓飛行機(jī)器人可以實(shí)現(xiàn)全自主(full autonomous)導(dǎo)航,能夠在實(shí)驗(yàn)室門口一鍵起飛,全程無人干預(yù),自動(dòng)飛到學(xué)校門口,什么時(shí)候做出來就什么時(shí)候畢業(yè)。
博士畢業(yè)后我回到浙大工作,那時(shí)我覺得還有很多東西想做,所以組建了一個(gè)團(tuán)隊(duì)來解決這些問題。2019 年到2024 年期間,我在科研方面做出了一些有影響力的成績,比如野外環(huán)境下的自主集群、無人機(jī)導(dǎo)航規(guī)劃系統(tǒng)等,完成了多項(xiàng)國際首創(chuàng)成果,這些成果還是讓人比較有成就感的。
但我始終抱有將技術(shù)落地的愿望。我認(rèn)為生產(chǎn)力是有三個(gè)層次——科學(xué)、技術(shù)和應(yīng)用??茖W(xué)是在發(fā)散探索新方向;接下來是技術(shù),就是由發(fā)散的諸多科研探索收斂而成的、有較大落地可能的技術(shù)路徑;最后是應(yīng)用階段,也可以說是工程化、產(chǎn)品化階段,就是讓已經(jīng)收斂的技術(shù)路徑產(chǎn)生切實(shí)應(yīng)用價(jià)值,直到最后有人愿意為此買單。
作為學(xué)者,我在研究的過程中逐漸意識到,要真正實(shí)現(xiàn)一項(xiàng)新技術(shù)的完整閉環(huán),必須走到應(yīng)用階段——無論是自己推動(dòng)還是交給別人去做。當(dāng)然,在自己的科研成果上,沒有人的理解比自己更深刻,因此還是自己去做更直接和有效一些。
當(dāng)然,最后促使我選擇現(xiàn)在創(chuàng)業(yè)的部分原因還有具身智能這個(gè)巨大的時(shí)代機(jī)遇:將AI賦能到機(jī)器人實(shí)體上,將會創(chuàng)造無限可能。
AI科技評論:最后一個(gè)問題,你覺得具身智能現(xiàn)在是一個(gè)泡沫么?(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
高飛:我認(rèn)為具身智能的泡沫有,但是沒有大家想象得那么大。
大家想到機(jī)器人,都會下意識地期待它是聰明的、能思考的個(gè)體(甚至群體)。但是長期以來,機(jī)器人實(shí)際上是停留在類似流程自動(dòng)化、工業(yè)自動(dòng)化的專用設(shè)備階段。這很“機(jī)器”,但很不“人”。
要實(shí)現(xiàn)真正智能的機(jī)器人,關(guān)鍵是機(jī)器人的“腦”。過去這些年學(xué)界和產(chǎn)業(yè)界在小腦和本體上都取得了一些突破,但大腦層面仍幾乎是一片空白,更不要提代表群體智能的群腦技術(shù)了。我認(rèn)為具身智能是能真正推動(dòng)機(jī)器人大小腦和群腦發(fā)展的關(guān)鍵變量,是歷史性的機(jī)遇;當(dāng)下具身智能不是一場泡沫,而是一個(gè)歷史性拐點(diǎn)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。