原標(biāo)題:加速推進(jìn)新型工業(yè)化的強大引擎
【科學(xué)隨筆·我見AI】
當(dāng)前,全球制造業(yè)正經(jīng)歷人工智能驅(qū)動的深刻變革,工業(yè)智能體作為核心載體,以解決生產(chǎn)實際問題為導(dǎo)向,正從單點技術(shù)適配的探索階段,邁向深度融合產(chǎn)線、提升效率與質(zhì)量的規(guī)?;瘜崙?zhàn)新階段。這種跨越并非簡單技術(shù)升級,而是制造體系從“被動執(zhí)行”向“主動優(yōu)化”的范式重構(gòu)。
近日,國務(wù)院印發(fā)《關(guān)于深入實施“人工智能+”行動的意見》,提出推動智能體的廣泛應(yīng)用,促進(jìn)生產(chǎn)力革命性躍遷和生產(chǎn)關(guān)系深層次變革。這意味著,智能體已被提升至國家戰(zhàn)略層面,而工業(yè)智能體將不再是孤立的技術(shù)探索,而是成為串聯(lián)起產(chǎn)業(yè)鏈上下游、打通數(shù)據(jù)壁壘、重構(gòu)制造價值的核心紐帶,彰顯了國家以人工智能賦能新型工業(yè)化、加快發(fā)展新質(zhì)生產(chǎn)力的戰(zhàn)略決心。
回望“人工智能+”制造業(yè)的發(fā)展歷程,其角色正經(jīng)歷著從“輔助工具”到“智能主體”的轉(zhuǎn)變。過去十年,機器學(xué)習(xí)與計算機視覺技術(shù)在缺陷識別、工藝監(jiān)控等環(huán)節(jié)成熟應(yīng)用并取得成效,但始終停留在“發(fā)現(xiàn)問題”的被動層面。
隨著制造場景復(fù)雜化,傳統(tǒng)AI難以支撐智能制造,以智能體為代表的新一代AI正推動系統(tǒng)從“感知智能”向“決策智能”躍升,而核心支撐正是融合“多模態(tài)感知+具身控制”的VLA(視覺-語言-動作大模型)模型轉(zhuǎn)變。
工業(yè)環(huán)境的特殊性,要求AI系統(tǒng)不僅要理解圖像、參數(shù)、文本等多模態(tài)數(shù)據(jù),更要實現(xiàn)從感知到控制的閉環(huán)操作,形成可落地、可執(zhí)行的智能響應(yīng)。這也正是工業(yè)智能體需具備“身體”、能與物理環(huán)境實時交互的根本原因。
在這一背景下,產(chǎn)業(yè)界依托對工業(yè)場景的深刻洞察,已逐步發(fā)展出融合領(lǐng)域知識的多模態(tài)工業(yè)大模型如IndustryGPT等,并進(jìn)一步構(gòu)建起VLA一體化架構(gòu),真正推動工業(yè)智能實現(xiàn)從“感知理解”到“自主控制”的系統(tǒng)級躍升。
工業(yè)VLA模型的突破性在于,它將多模態(tài)感知、語義理解與物理控制能力整合于統(tǒng)一架構(gòu),并深度融合工藝參數(shù)、質(zhì)量標(biāo)準(zhǔn)和物理約束等行業(yè)知識,從而能夠根據(jù)自然語言指令或視覺輸入,直接生成穩(wěn)定、可靠的動作序列。這不僅降低了多系統(tǒng)耦合的復(fù)雜性,更使智能體能夠在開放、非結(jié)構(gòu)化的工業(yè)現(xiàn)場實現(xiàn)自主適應(yīng)與實時決策,成為真正兼具認(rèn)知與執(zhí)行能力的“智能主體”。
工業(yè)生產(chǎn)過程在物理世界發(fā)生,與常見的軟件智能體相比,工業(yè)智能體需要有物理的載體與世界交互。作為一名“工人”,工業(yè)智能體也需要具備“眼-腦-手”,這三者分別對應(yīng)著智能體與物理世界交互的核心功能模塊——由智能傳感器作為“眼”完成高精度感知,由多模態(tài)大模型或VLA作為“腦”完成對多源信息的處理與決策,由機械臂或者其他硬件載體作為“手”完成執(zhí)行。
但三者的協(xié)同既面臨著跨模態(tài)、跨系統(tǒng)的技術(shù)壁壘,也存在著物理世界與數(shù)字世界的認(rèn)知鴻溝,而這正是學(xué)術(shù)界和產(chǎn)業(yè)界需攻克的核心科學(xué)問題。
“眼”的層面須實現(xiàn)極端環(huán)境下的穩(wěn)定感知。我們深度融合多光譜成像、偏振視覺與AI技術(shù),推出了具備邊緣計算能力的智能視覺傳感器系列,能有效克服金屬反光、透明材質(zhì)、低對比度等極端成像挑戰(zhàn),可在微秒級時間內(nèi)完成特征提取與缺陷識別。
“腦”的突破點在于將多模態(tài)大模型的認(rèn)知能力與工業(yè)機理深度融合,通過“知識嵌入+強化學(xué)習(xí)”框架,將物理定律、工藝標(biāo)準(zhǔn)嵌入決策,使智能體不僅能識別缺陷,更能解析成因、預(yù)測設(shè)備劣化,并生成在物理上成立、控制上可行的動作指令,實現(xiàn)工業(yè)場景下的智能自主響應(yīng)。
“手”是連接數(shù)字決策與物理動作的關(guān)鍵。我們開發(fā)了基于多模態(tài)感知的柔順控制算法,使執(zhí)行端能實時感知力覺、視覺反饋,動態(tài)調(diào)整抓取力度和運動軌跡,即使在工件存在位置偏差或形變的情況下,仍能穩(wěn)定完成精密裝配、柔性插拔等復(fù)雜任務(wù)。
“眼-腦-手”的協(xié)同并非靜態(tài)的技術(shù)拼接,而是動態(tài)的自治進(jìn)化,能根據(jù)產(chǎn)線變化,自主調(diào)整感知重點、優(yōu)化決策策略、適配執(zhí)行能力,且無需干預(yù)。這也正是工業(yè)智能體區(qū)別于其他智能體的關(guān)鍵所在——不僅在于技術(shù)演進(jìn),更在于實現(xiàn)從“演示可用”到“生產(chǎn)可靠”的跨越,最終在真實工業(yè)場景中發(fā)揮可量化、可復(fù)用的產(chǎn)業(yè)價值。
從技術(shù)研發(fā)到產(chǎn)業(yè)落地,工業(yè)智能體的突破離不開“產(chǎn)學(xué)研用”。唯有打通從實驗室到生產(chǎn)線的創(chuàng)新鏈條,讓學(xué)術(shù)前沿的星星之火點燃產(chǎn)業(yè)實踐的廣闊原野,才能讓工業(yè)智能體成為推動制造業(yè)變革的核心力量。
筆者認(rèn)為,這是AI技術(shù)跨越死亡谷、真正賦能實體經(jīng)濟(jì)之途。
近年,我們積極與多個知名工業(yè)界代表共建聯(lián)合實驗室,將產(chǎn)線痛點轉(zhuǎn)化為前沿科學(xué)問題,再將創(chuàng)新成果快速驗證于工業(yè)場景,實現(xiàn)以產(chǎn)促研、以研促產(chǎn)。我們團(tuán)隊聯(lián)合中國中車、思謀科技等研發(fā)的磁粉探傷新一代工業(yè)智能體,正是在與企業(yè)工程師的反復(fù)交流中落地,解決了高鐵車身超萬個點位的外觀檢測難題和轉(zhuǎn)向架無損質(zhì)量檢測難題,開創(chuàng)了高鐵轉(zhuǎn)向架等多個關(guān)鍵安全部件使用AI檢測的先河,并實現(xiàn)了大規(guī)模落地應(yīng)用。
展望未來,工業(yè)智能體將持續(xù)迭代,從“執(zhí)行指令”邁向“自主決策”,并實現(xiàn)從“單點智能”到“生態(tài)協(xié)同”的跨越,打造跨企業(yè)、跨行業(yè)、持續(xù)進(jìn)化的智能制造新范式。這不僅關(guān)乎技術(shù)創(chuàng)新和生產(chǎn)力變革,更在于助力中國制造業(yè)在新一輪全球競爭中掌握主動,推動AI成為驅(qū)動新型工業(yè)化、支撐制造強國戰(zhàn)略的核心引擎。
基礎(chǔ)科學(xué)突破與工程化落地,需要堅定的科研定力和產(chǎn)業(yè)耐心。我們將以開放合作的姿態(tài),構(gòu)建真正面向未來的智能制造體系,這既是我們這一代人工智能研究者的使命,也是中國制造業(yè)向全球價值鏈頂端攀登的必由之路。
(作者:賈佳亞,系香港科技大學(xué)講席教授、馮諾依曼人工智能研究院院長)