3月18日,理想汽車發(fā)布下一代自動(dòng)駕駛架構(gòu)MindVLA。
理想汽車CEO李想在微博表示,它將空間智能、語(yǔ)言智能和行為智能統(tǒng)一在一個(gè)模型里,讓自動(dòng)駕駛擁有感知、思考和適應(yīng)環(huán)境的能力,是我們通往L4路上最重要的一步。
MindVLA能為自動(dòng)駕駛賦予類似人類的駕駛能力,就像iPhone 4重新定義了手機(jī),MindVLA也將重新定義自動(dòng)駕駛。
理想汽車自動(dòng)駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬表示:“MindVLA是
機(jī)器人大模型,它成功整合了空間智能、語(yǔ)言智能和行為智能,一旦跑通物理世界和數(shù)字世界結(jié)合的范式后,將有望賦能更多行業(yè)。MindVLA將把汽車從單純的運(yùn)輸工具轉(zhuǎn)變?yōu)橘N心的專職司機(jī),它能聽(tīng)得懂、看得見(jiàn)、找得到。我們希望MindVLA能為汽車賦予類似人類的認(rèn)知和適應(yīng)能力,將其轉(zhuǎn)變?yōu)槟軌蛩伎嫉闹悄荏w。”
據(jù)了解,MindVLA不是簡(jiǎn)單地將端到端模型和VLM模型結(jié)合在一起,所有模塊都是全新設(shè)計(jì)。3D空間編碼器通過(guò)語(yǔ)言模型,和邏輯推理結(jié)合在一起后,給出合理的駕駛決策,并輸出一組Action Token(動(dòng)作詞元),Action Token指的是對(duì)周圍環(huán)境和自車駕駛行為的編碼,并通過(guò)Diffusion(擴(kuò)散模型)進(jìn)一步優(yōu)化出最佳的駕駛軌跡,整個(gè)推理過(guò)程都要發(fā)生在車端,并且要做到實(shí)時(shí)運(yùn)行。
MindVLA將為用戶帶來(lái)全新的產(chǎn)品形態(tài)和產(chǎn)品體驗(yàn),有MindVLA賦能的汽車是聽(tīng)得懂、看得見(jiàn)、找得到的專職司機(jī)。
“聽(tīng)得懂”是用戶可以通過(guò)語(yǔ)音指令改變車輛的路線和行為,例如用戶在陌生園區(qū)尋找超市,只需要通過(guò)理想同學(xué)對(duì)車輛說(shuō):“帶我去找超市”,車輛將在沒(méi)有導(dǎo)航信息的情況下,自主漫游找到目的地;車輛行駛過(guò)程中,用戶還可以跟理想同學(xué)說(shuō):“開(kāi)太快了”“應(yīng)該走左邊這條路”等,MindVLA能夠理解并執(zhí)行這些指令。
“看得見(jiàn)”是指MindVLA具備強(qiáng)大的通識(shí)能力,不僅能夠認(rèn)識(shí)星巴克、肯德基等不同的商店招牌,當(dāng)用戶在陌生地點(diǎn)找不到車輛時(shí),可以拍一張附近環(huán)境的照片發(fā)送給車輛,擁有MindVLA賦能的車輛能夠搜尋照片中的位置,并自動(dòng)找到用戶。
“找得到”意味著車輛可以自主地在地庫(kù)、園區(qū)和公共道路上漫游,其中典型應(yīng)用場(chǎng)景是用戶在商場(chǎng)地庫(kù)找不到車位時(shí),可以跟車輛說(shuō):“去找個(gè)車位停好”,車輛就會(huì)利用強(qiáng)大的空間推理能力自主尋找車位,即便遇到死胡同,車輛也會(huì)自如地倒車,重新尋找合適的車位停下,整個(gè)過(guò)程不依賴地圖或?qū)Ш叫畔?,完全依賴MindVLA的空間理解和邏輯推理能力。
總結(jié)來(lái)說(shuō),對(duì)于用戶而言,有MindVLA賦能的車不再只是一個(gè)駕駛工具,而是一個(gè)能與用戶溝通、理解用戶意圖的智能體。
昵稱 驗(yàn)證碼 請(qǐng)輸入正確驗(yàn)證碼
所有評(píng)論僅代表網(wǎng)友意見(jiàn),與本站立場(chǎng)無(wú)關(guān)