他們用ChatGPT方式搞自動(dòng)駕駛,論文入選了ICRA 2023 天天新動(dòng)態(tài)
還在玩ChatGPT?已經(jīng)有自動(dòng)駕駛算法能告訴你“我在干嘛”。
(資料圖片僅供參考)
基于視覺(jué)和神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛算法,雖然能通過(guò)傳感器數(shù)據(jù),以及學(xué)習(xí)人類(lèi)的駕駛行為,自主決策并控制車(chē)輛。
但是,算法基于什么做出的決策?特別是出現(xiàn)故障,也就是決策錯(cuò)誤的時(shí)候,算法是怎么想的?這些一直被稱為自動(dòng)駕駛算法里的“黑匣子”,讓算法缺乏透明度和可解釋性。
不過(guò),現(xiàn)在有這么一個(gè)模型,既能預(yù)測(cè)車(chē)輛控制行為,還能自己解釋“我停車(chē)是因?yàn)榧t燈亮了,并且有行人在過(guò)馬路”。
模型論文入選ICRA 2023,相關(guān)模型已開(kāi)源。
那么,是一個(gè)什么樣的算法?
ADAPT:駕駛行為感知說(shuō)明大模型
這是一種叫ADAPT(Action-aware Driving Caption Transformer)的端到端算法,也是目前第一個(gè)基于Transformer的駕駛行為描述框架,可以感知和預(yù)測(cè)駕駛行為,并且輸出自然語(yǔ)言敘述和推理。
直白一點(diǎn)說(shuō),輸入車(chē)輛視頻后,這個(gè)算法可以判斷車(chē)輛行為并告訴你:車(chē)在做什么,為什么要這么做。
在論文作者提供的測(cè)試視頻里,這個(gè)算法最終上車(chē)的效果是這樣的。(紅色字是車(chē)輛行為,藍(lán)色字是解釋)
“車(chē)在向前開(kāi)。因?yàn)槁飞蠜](méi)有車(chē)。”
駕駛行為變化后,算法也能及時(shí)感知:
“車(chē)靠左邊停下了。因?yàn)橐\?chē)。”
“車(chē)開(kāi)始移動(dòng)并且靠右行駛。因?yàn)槁纷筮呁V?chē)。”
算法不僅能識(shí)別路口,也能識(shí)別騎著車(chē)的人。
“車(chē)在十字路口停下了。因?yàn)橐荛_(kāi)街上騎著自行車(chē)的人,”
這是怎么實(shí)現(xiàn)的?
多任務(wù)框架下的聯(lián)合訓(xùn)練
ADAPT框架可以分為兩個(gè)部分:車(chē)輛行為描述(DCG,Driving Caption Generation)和車(chē)輛控制信號(hào)預(yù)測(cè)(CSP,Control Signal Prediction)。
首先,傳感器端輸入視頻,Video Swin Transformer對(duì)車(chē)輛視頻進(jìn)行編碼,得到的視頻特征會(huì)輸入進(jìn)各任務(wù)模塊里。
在DCG模塊,算法利用Vision-Language Transformer生成兩個(gè)自然語(yǔ)句,也就是上文中提到的車(chē)輛行為描述和原因解釋。
相同的視頻特征也會(huì)輸入進(jìn)CSP模塊(類(lèi)似一般基于視覺(jué)的自動(dòng)駕駛系統(tǒng)),輸出車(chē)輛實(shí)際的控制信號(hào)序列,并利用Motion Transformer輸出模型預(yù)測(cè)的控制信號(hào),比如速度、方向和加速度。
在單個(gè)網(wǎng)絡(luò)中,作者利用車(chē)輛實(shí)際的控制信號(hào)序列和模型預(yù)測(cè)的控制信號(hào)序列,兩者的均方誤差作為CSP模塊的損失函數(shù)。
而在多任務(wù)框架下,通過(guò)聯(lián)合訓(xùn)練DCG和CSP,可以減少車(chē)輛決策和文本描述之間的差異,提高控制信號(hào)預(yù)測(cè)的準(zhǔn)確率。
論文里,作者們?cè)诎刂菩盘?hào)和車(chē)輛視頻的大規(guī)模數(shù)據(jù)集BDD-X上,利用機(jī)器評(píng)測(cè)和人工評(píng)測(cè)驗(yàn)證了ADAPT的有效性。
機(jī)器評(píng)測(cè)方面,使用的是BLEU4、METEOR、ROUGE-L和CIDEr(對(duì)應(yīng)縮寫(xiě)分別為B4、M、R、C)等多種語(yǔ)言任務(wù)常用的指標(biāo)。
最終顯示ADAPT達(dá)到了當(dāng)前最優(yōu)(State-of-the-Art)的結(jié)果,ADAPT在動(dòng)作描述方面比原有先進(jìn)方法CIDEr高出31.7,在原因解釋方面高33.1。
人工評(píng)測(cè)分為動(dòng)作描述、原因解釋和全句三個(gè)部分。通過(guò)人工判斷,ADAPT在這三部分的準(zhǔn)確性分別達(dá)到了90%,90.3%和82.7%,證明了ADAPT的有效性。
在可視化結(jié)果里,也能看出ADAPT可以準(zhǔn)確識(shí)別車(chē)輛行為以及決策原因。并且在黑夜、陰雨天等場(chǎng)景下,ADAPT也能保證準(zhǔn)確度;即使有雨刷器干擾,ADAPT也可以識(shí)別道路上的停止標(biāo)識(shí)。
為什么需要ADAPT?
自動(dòng)駕駛行為的可解釋性
在基于視覺(jué)的自動(dòng)駕駛算法里,比較常見(jiàn)的解釋圖有視覺(jué)注意圖(Attention Map),或者成本量圖(Cost Volume),但不熟悉自動(dòng)駕駛算法的人容易對(duì)這些圖造成誤解。
上:視覺(jué)注意圖;下:成本量圖
因此,ADAPT這種能夠生成自然語(yǔ)言、“說(shuō)人話”的算法,能夠幫助用戶更好地理解自動(dòng)駕駛算法在做什么、為什么要這么做,同時(shí)還能讓用戶更信任自動(dòng)駕駛技術(shù)。
而對(duì)于算法工程師和研究人員來(lái)說(shuō),當(dāng)發(fā)生極端情況時(shí)、或者發(fā)生故障(比如判斷錯(cuò)誤)時(shí),ADAPT可以幫助他們獲得更多信息,進(jìn)而改進(jìn)算法。
作者們將進(jìn)一步研究如何在模擬器和實(shí)際車(chē)輛上如何部署ADAPT,以及如何利用文本轉(zhuǎn)語(yǔ)音技術(shù),讓生成的句子轉(zhuǎn)化為語(yǔ)音,幫助普通乘客,特別是視力障礙乘客使用。
本文作者來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所、清華大學(xué)人工智能產(chǎn)業(yè)研究院(AIR)、北京大學(xué)、英特爾中國(guó)研究院、西安電子科技大學(xué)、南方科技大學(xué)和北京航空航天大學(xué)。
論文一作晉步和三作鄭宇鵬是來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所的研究生,晉步主要研究方向?yàn)槎嗄B(tài)學(xué)習(xí)、視覺(jué)語(yǔ)言模型等。
通訊作者為劉新宇,清華大學(xué)自動(dòng)化系學(xué)士和碩士,長(zhǎng)期從事軟件研發(fā)工作,著有《算法新解》。
作者之一李鵬飛是AIR在讀博士生,本科畢業(yè)于中國(guó)科學(xué)院大學(xué),主要研究智慧交通、機(jī)器人、計(jì)算機(jī)視覺(jué)等方向。
另一位作者趙昊是AIR助理教授,本博畢業(yè)于清華大學(xué)電子工程系,曾任英特爾中國(guó)研究院研究員和北京大學(xué)聯(lián)合博士后,研究方向?yàn)閹缀闻c認(rèn)知層面的場(chǎng)景理解及其在機(jī)器人中的應(yīng)用。
另外,本文的模型已經(jīng)開(kāi)源,感興趣的可以去試試看~
論文地址
https://arxiv.org/abs/2302.00673
代碼地址
https://github.com/jxbbb/ADAPT
關(guān)鍵詞:
責(zé)任編輯:hnmd004
- 他們用ChatGPT方式搞自動(dòng)駕駛,論文入選了I2023-03-24
- 市值暴跌99%,字節(jié)曾經(jīng)的對(duì)手退市了-全球快2023-03-24
- 山系裝為何成了上班族的新工裝2023-03-24
- 什么是軟件著作權(quán)登記_世界熱議2023-03-24
- 美巢易呱平耐水膩?zhàn)樱瑑?yōu)質(zhì)環(huán)保,守護(hù)室內(nèi)墻2023-03-24
- 室內(nèi)裝修就選美巢環(huán)保輔料,帶你進(jìn)階高質(zhì)量2023-03-24
- 天天報(bào)道:高商譽(yù)股票是帶刺的玫瑰2023-03-24
- 全新智能電混雷凌正式上市_速遞2023-03-24
- 全新智能電混雷凌正式上市-環(huán)球最新2023-03-24
- 首獲國(guó)際權(quán)威認(rèn)可!中國(guó)風(fēng)機(jī)系統(tǒng)設(shè)計(jì)軟件EN2023-03-24
- 全球觀察:云南建立光伏資源“一張圖”開(kāi)發(fā)2023-03-24
- 又買(mǎi)礦!鹽湖提鋰想象空間幾何?2023-03-24
- 【世界新視野】蘇州發(fā)力新能源產(chǎn)業(yè)創(chuàng)新集群2023-03-24
- 經(jīng)香港來(lái)回世界各地,8萬(wàn)張大灣區(qū)免費(fèi)機(jī)票42023-03-24
- 今日鋰電材料報(bào)價(jià)全線下跌,碳酸鋰跌至27502023-03-24
- 香港發(fā)布新的資本投資者入境計(jì)劃,投資范疇2023-03-24
- 【世界獨(dú)家】橫琴實(shí)現(xiàn)數(shù)字人民幣境外繳稅2023-03-24
- 世界今頭條!又買(mǎi)礦!鹽湖提鋰想象空間幾何2023-03-24
- 云南建立光伏資源“一張圖”開(kāi)發(fā)模式,每年2023-03-24
- 【聚看點(diǎn)】首獲國(guó)際權(quán)威認(rèn)可!中國(guó)風(fēng)機(jī)系統(tǒng)2023-03-24
- 石油工業(yè)七姐妹的秘密 石油化工專業(yè)就業(yè)方2023-03-24
- 樓市又見(jiàn)冰火兩重天 神人預(yù)言2025成都房?jī)r(jià)2023-03-24
- 發(fā)改委準(zhǔn)備投放超1千萬(wàn)噸煤炭?jī)?chǔ)備 國(guó)家煤2023-03-24
- 地中海果蠅的危害是什么?果蠅危害香蕉嗎?2023-03-24
- 臺(tái)灣菠蘿降價(jià)競(jìng)爭(zhēng)出口日本 日本真能救臺(tái)灣2023-03-24
- 小型道指期指當(dāng)月連續(xù)熔斷什么意思?美股個(gè)2023-03-24
- 世界熱訊:我國(guó)今天正式進(jìn)入汛期2023-03-24
- 當(dāng)前消息!瑞銀承諾最快下周出臺(tái)留住瑞信亞2023-03-24
- 即時(shí):百億產(chǎn)值大項(xiàng)目落子廣州南沙,促粵新2023-03-24
- 空客交付首架在天津總裝A321飛機(jī)2023-03-24
精彩推薦
閱讀排行
- 貴金屬正規(guī)平臺(tái)有哪些?國(guó)內(nèi)貴金...
- 網(wǎng)上銀行的好處都有哪些?網(wǎng)上銀...
- 工商銀行西安分行以黨建特色名片...
- 當(dāng)前速遞!3月23日國(guó)內(nèi)黃金期貨漲0.48%
- 短期修復(fù)還是中期反轉(zhuǎn)?機(jī)構(gòu)對(duì)新...
- 環(huán)球快資訊:全國(guó)中成藥集采將啟...
- 珠海橫琴率先實(shí)現(xiàn)數(shù)字人民幣境外...
- 德和科技IPO:被取消專精特新“...
- 風(fēng)險(xiǎn)投資如何投資?風(fēng)險(xiǎn)投資市場(chǎng)...
- 黃金日k線圖有什么用?同花順不...