0
| 本文作者: 小七 | 2025-12-18 17:43 |
2025年12月17日,由深圳市科學(xué)技術(shù)協(xié)會指導(dǎo),深圳市人工智能學(xué)會主辦,深圳市人工智能學(xué)會青工委和中山大學(xué)·深圳承辦的“機器視覺技術(shù)沙龍”在中山大學(xué)深圳校區(qū)工學(xué)園1-134會議室成功舉辦?;顒訁R聚了來自高校與企業(yè)的多位專家學(xué)者,圍繞機器視覺領(lǐng)域的前沿理論、關(guān)鍵技術(shù)與應(yīng)用趨勢展開深入交流與研討,旨在加強學(xué)術(shù)界與產(chǎn)業(yè)界之間的溝通協(xié)作,推動前沿技術(shù)在深圳的實際應(yīng)用探索。本次沙龍緊扣新一代人工智能與新質(zhì)生產(chǎn)力發(fā)展方向,聚焦機器視覺技術(shù)從傳統(tǒng)感知范式向可控視覺生成、多模態(tài)推理與交互式視頻建模等新階段的演進路徑,吸引了來自高校、科研機構(gòu)及相關(guān)領(lǐng)域的研究人員積極參與,現(xiàn)場交流充分、研討氛圍濃厚。

參會人員合影
本次活動由中山大學(xué)教授金枝博士主持。學(xué)會始終圍繞“推動人工智能前沿理論創(chuàng)新與關(guān)鍵技術(shù)突破、促進人工智能與實體經(jīng)濟深度融合”的宗旨持續(xù)開展學(xué)術(shù)交流與產(chǎn)業(yè)對接工作,已逐步形成覆蓋機器視覺、多模態(tài)智能、大模型應(yīng)用等方向的學(xué)術(shù)與產(chǎn)業(yè)協(xié)同網(wǎng)絡(luò)。未來,學(xué)會將繼續(xù)發(fā)揮平臺紐帶作用,依托深圳豐富的應(yīng)用場景和產(chǎn)業(yè)基礎(chǔ),促進學(xué)術(shù)界與產(chǎn)業(yè)界的深度交流合作,加快機器視覺前沿技術(shù)在粵港澳大灣區(qū)的落地應(yīng)用與創(chuàng)新發(fā)展。

金枝博士主持活動
在報告環(huán)節(jié),北京大學(xué)長聘副教授、博士生導(dǎo)師張健博士以《最優(yōu)化視角下的可控視覺生成》為題,從最優(yōu)化建模的視角系統(tǒng)闡述了可控視覺生成的理論基礎(chǔ)與關(guān)鍵技術(shù),深入分析了生成過程中的約束建模與控制機制,指出圖像重建、圖像編輯等多類視覺任務(wù)在本質(zhì)上均可統(tǒng)一為“可控視覺生成”這一范式,并可通過引入不同形式的約束條件實現(xiàn)對生成內(nèi)容的精確操控。同時,報告還探討了相關(guān)方法在多種視覺生成任務(wù)中的應(yīng)用潛力及未來研究方向。

張健博士作主題報告
字節(jié)跳動算法研究員趙世杰博士以《推理式多模態(tài)大語言模型在質(zhì)量評價中的應(yīng)用以及原理》為題。報告圍繞多模態(tài)大語言模型在圖像質(zhì)量評價領(lǐng)域的最新進展,介紹了一種基于強化學(xué)習(xí)的圖像質(zhì)量理解方法 Q-Insight。該方法在僅依賴少量評分與退化標注的情況下,實現(xiàn)了對圖像質(zhì)量的有效評估與退化感知,并通過聯(lián)合建模多項任務(wù)提升整體評價性能。趙研究員表示,Q-Insight 的提出為圖像質(zhì)量評價從單一數(shù)值打分邁向具備推理能力的質(zhì)量理解提供了新的研究思路與技術(shù)路徑。

趙世杰博士作主題報告
阿里巴巴算法專家牟沖博士作題為《基于 MLLM 引導(dǎo)的視覺統(tǒng)一編輯框架》的專題報告,介紹了多模態(tài)大模型在視覺內(nèi)容編輯中的引導(dǎo)作用及相關(guān)框架設(shè)計思路,并分享了其在多模態(tài)內(nèi)容創(chuàng)作中的應(yīng)用前景。報告中提到的 T2I-Adapter 方法,通過引入輕量級適配機制,在不改變原有生成模型結(jié)構(gòu)的情況下,實現(xiàn)了對生成結(jié)果的有效控制。牟博士認為,該類方法在數(shù)字內(nèi)容生產(chǎn)、智能制造和虛擬現(xiàn)實等領(lǐng)域具有較高應(yīng)用潛力,有助于降低技術(shù)應(yīng)用門檻,推動前沿算法加快向?qū)嶋H生產(chǎn)工具轉(zhuǎn)化。

牟沖博士作主題報告
香港大學(xué)博士研究生余濟聞以《可控、可泛化且具備記憶能力的交互式視頻世界模型》為題作報告,重點圍繞交互式視頻生成中“動作控制”“場景泛化”與“長期記憶建?!钡汝P(guān)鍵問題展開闡述。報告以GameFactory和Context-as-Memory等研究工作為例,介紹了在開放場景下實現(xiàn)動作可控生成以及提升長視頻時序一致性的最新進展,并分析了相關(guān)方法在虛擬環(huán)境構(gòu)建、智能體訓(xùn)練和游戲內(nèi)容生成等方向的應(yīng)用潛力。相關(guān)研究為構(gòu)建具備持續(xù)演化能力的生成式視頻與虛擬世界模型提供了有益探索。

博士研究生余濟聞作主題報告
在前沿論文研討環(huán)節(jié),中山大學(xué)·深圳與北京大學(xué)深圳研究院的研究生分別分享了機器視覺與多模態(tài)智能領(lǐng)域的代表性研究論文,并圍繞研究動機、技術(shù)路線、實驗設(shè)計及未來發(fā)展方向展開深入交流與討論。研討主題涵蓋三維場景重建、理解與編輯技術(shù),以及二維圖像的一體化增強與多視角編輯等方向。參會學(xué)生積極互動、踴躍提問,現(xiàn)場學(xué)術(shù)討論氛圍熱烈而深入。

前沿論文研討
最后,沙龍進入總結(jié)階段。與會專家一致認為,機器視覺技術(shù)正處于由單點算法突破向系統(tǒng)化、工程化應(yīng)用加速演進的關(guān)鍵階段。依托完善的產(chǎn)業(yè)體系、豐富的應(yīng)用場景和良好的創(chuàng)新生態(tài),深圳具備推動前沿機器視覺技術(shù)加快落地的獨特優(yōu)勢。通過持續(xù)以真實需求牽引技術(shù)發(fā)展、以工程實踐促進成果轉(zhuǎn)化,有望進一步釋放機器視覺技術(shù)對實體經(jīng)濟和新興產(chǎn)業(yè)的支撐作用。本次機器視覺技術(shù)沙龍的成功舉辦,為學(xué)術(shù)界與產(chǎn)業(yè)界搭建了高水平的交流平臺,對推動機器視覺技術(shù)創(chuàng)新應(yīng)用、服務(wù)深圳先行示范區(qū)建設(shè)和新質(zhì)生產(chǎn)力培育具有積極而深遠的意義。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。