Nature封面罕見給了自動駕駛,仿真效率2000倍提升,清華自動化校友出品 全球快消息
Nature正刊封面報道自動駕駛重要進展。
證明自動駕駛算法的安全可靠,專業估算仿真里程甚至要超過千億公英里。
那么,有沒有在保證可靠性的前提下,大幅降低模擬路測時間和成本的方法呢?
【資料圖】
最新自動駕駛仿真測試方法,可以將模型迭代效率提升2000倍!
這項研究背后的團隊,來自密歇根大學的劉向宏教授的實驗室,主要作者清一色華人團隊,出自清華大學自控系。
自動駕駛仿真提效2000倍
如今很多無人車公司都青睞仿真測試提升系統可靠性。甚至有的創業公司直接打出“仿真為主,路試為輔”的旗號。
他們的理由是:仿真測試效率更高。但沒說的潛臺詞其實是:仿真測試不依賴車隊,成本低。
因為模擬測試150億英里的Waymo,至今搞不定可商用落地的無人駕駛。仿真的效率問題是尚未實現飛躍的巨大挑戰,用仿真是因為省錢,至于什么時候能拿出結果,誰也說不好。
基于此,這項最新研究提出的觀點是:
傳統仿真測試環境,多基于真實路測數據生成。而真實路況下的各種長尾場景其實是小概率事件,這就導致仿真路測里程中,有效場景比例不高,實際效果和實車路測差別不大。
而他們基于密集強化學習的深度學習網絡D2RL,可以將目前基于NDE(自然駕駛環境)的仿真模擬效率提升2000倍。
具體來說,在雙車道400m場景中,D2RL生成的場景直接跳過(刪除)傳統仿真過程中95.7%的事件和99.78%步驟,最大可能給出系統高價值訓練場景。
這樣一來,算法碰撞率達成同樣的收斂標準下,NDE環境需要訓練1.9X108次,D2RL需要9.1X104次,效率提升2100倍。
而在3車道、更長距離的實驗中,得出的效率提升效果基本都在2000倍左右。
另外,研究人員將一套開源自動駕駛算法Autoware23搭載在林肯MKZ上進行了4 公里左右的實際路測,并將實際道路場景建模,并使用D2RL進行模擬。兩條路線分別在156和117次測試后達到收斂,而與之相比的是在NDE條件下,達成相同的標準分別需要2.5×107次和2.1×107次。
同樣效率提升2000倍左右。
也就是說,使用D2RL網絡進行自動駕駛算法的模擬仿真訓練,能大大縮短自動駕駛的開發周期。
在自動駕駛之外,D2RL還可以用在其他AI可靠性驗證中,如醫療機器人和航空航天系統。
怎么做到的?
從上面的實驗結果表格中可以看出,D2RL之所以提升效率的主要手段,就是對系統生成仿真場景的過程進行“提純”,盡量少生成價值不大的常規場景,保留高價值數據。
研究團隊認為,無人車仿真系統的效率問題,本質上是高維空間(多維向量空間)中的一個罕見事件估計問題。
如何識別并剔除高維向量空間中非安全關鍵的點,是D2RL的核心任務。
D2RL是一種密集強化學習深度神經網絡,其基本思想是識別和去除多向量空間的非安全關鍵數據,并保留安全關鍵數據訓練神經網絡。
由于聲稱場景中只有非常小的一部分數據是安全關鍵的,剩余數據的信息將被大大地密集化。
D2RL方法的本質是刪除非關鍵狀態,并連接關鍵狀態來重新編輯馬爾科夫決策過程,然后只對編輯過的馬爾科夫過程進行神經網絡訓練。
因此,對于任何訓練場景,最終的獎勵都是沿著編輯過的馬爾可夫鏈反向傳播的。
直觀地說,D2RL訓練的對象,是仿真測試場景中的BV(非自動駕駛背景車輛),要求他們在特定的時空下執行特定的動作,與自動駕駛車輛(AV)形成對抗性訓練。
獎勵函數為:
其中x表示每個測試情節的變量,IA(x) 是AV碰撞事件的指標函數,后兩項則是AV目標策略和目標行為的重要性函數。
獎勵越高表示測試環境越有效。這樣的獎勵設計是通用的,也適用于其他具有高維變量的罕見事件估計問題。
為了確定學習機制,團隊進一步研究了行為策略和目標策略之間的關系。
他們發現AV的最佳行為政策在訓練過程中收集的數據幾乎是與目標策略相反。這表明,如果使用傳統強化學習中的on-policy策略,AV的目標行為策略將偏離最佳。這可能會誤導訓練過程。
為了解決這個問題,團隊設計了一個off-policy學習機制,即設計一個通用的行為策略,并在訓練過程中保持不變,用來平衡AV的策略和行為。
最終,D2RL可以在訓練過程中使獎勵最大化,有效地提高AV的碰撞率。
作者團隊介紹
本研究的第一作者封碩,目前在美國密歇根大學安娜堡分校做博士后。
封碩本科和博士學位都在清華大學自動化系獲得,研究方向是優化控制、互聯和自動駕駛評估以及交通數據分析。
封碩所在的Traffic Lab實驗室,由劉向宏教授領導。
Sun Haowei,密歇根大學土木與環境工程專業在讀博士生,同樣在Traffic Lab實驗室。研究興趣是車聯網和自動駕駛汽車的測試和評估。Sun Haowei本科畢業于清華大學自動化系。
本文通訊作者劉向宏博士現任美國密歇根大學土木與環境工程系終身職正教授、密歇根大學交通研究所(UMTRI)研究教授,北京航空航天大學客座教授、兼職博士生導師。
他在國內最被外界熟悉的身份是滴滴前首席科學家。
劉向宏1993年本科畢業于清華大學汽車工程系,2000年在威斯康星大學麥迪遜分校取得博士學位。
劉教授是交通工程領域論文引用率最高的學者之一,他發明的用于精確測量交叉路口的排隊長度和旅行時間的SMART-Signal系統于2012年取得美國國家專利,并已在美國明尼蘇達州和加州得到廣泛應用。
原文鏈接:
https://www.nature.com/articles/s41586-023-05732-2
關鍵詞:
責任編輯:hnmd004
- Nature封面罕見給了自動駕駛,仿真效率20002023-03-23
- 股民應該怎么進行股票研究?股民死亡后股票2023-03-23
- 山東省高密市:聚焦一線職工冷暖,精準服務2023-03-23
- 資訊:時隔35年更名!韓國雙龍汽車變為KG 2023-03-23
- 世界即時:證通電子:可根據客戶需求提供數2023-03-23
- 奧司他韋應急掛網!甘肅、河南多地發布短缺2023-03-23
- 環球報道:光伏淡季裝機大超預期意味著什么2023-03-23
- 【全球快播報】定了!紅獅集團聯合鋆昊資本2023-03-23
- 碳酸鋰價格下跌加速,今日工業級、電池級均2023-03-23
- 世界速讀:金融適老化服務見實效 溫情呵護2023-03-23
- 工行西安鄠邑區支行榮獲“西安市愛國擁軍單2023-03-23
- 北京完成全國首家個體網店轉變為線下實體形2023-03-23
- 我國科學家實現量子糾錯新突破_天天熱頭條2023-03-23
- 新動態:黃仁勛對談OpenAI聯創:GPT-4推理2023-03-23
- 天天精選!農業農村部:"農產品批發價格2002023-03-23
- 鐵礦石品位多少算高?鐵礦石多少品位才有價2023-03-23
- 光伏淡季裝機大超預期意味著什么 全球百事2023-03-23
- 定了!紅獅集團聯合鋆昊資本收購亞洲硅業!2023-03-23
- “敢”在高新丨哈電風能第二代中速永磁風力2023-03-23
- 葡萄牙國花是什么花?葡萄牙是世界第幾橄欖2023-03-23
- 以案說險:平安信用卡紀念幣并非“有市無價2023-03-23
- 職業教育的重要性有哪些?職業教育的重點是2023-03-23
- 影響價格的因素有哪些?供求如何影響價格?2023-03-23
- 壞賬準備計提比例標準是多少?小企業計提壞2023-03-23
- 空頭回補意味著什么?空頭回補是好事還是壞2023-03-23
- 天天觀焦點:2021年穿羊羔絨過時嗎?2023-03-23
- 華塑科技值得申購嗎?華塑科技中一簽能掙多2023-03-23
- 什么是擔保基金?國家融資擔保基金忙嗎?2023-03-23
- 期現套利是什么?期現套利案例 套利交易騙2023-03-23
- 簡訊:歐盟拋出補貼法案扶持本土綠色產業2023-03-23