Momenta智駕大模型，不僅僅是“端到端”

發(fā)布日期：2024-08-01 文章來(lái)源：媒體管家 閱讀次數(shù)：451 次 分享到：

近日，埃安首款全球戰(zhàn)略車型——第二代AION V霸王龍正式發(fā)布，該車型將搭載廣汽與Momenta共同打造的端到端高階智駕方案，應(yīng)用了Momenta最領(lǐng)先的算法5.0。此前，另一家重要汽車制造廠商，廣汽豐田也宣布了其鉑智3X車型將首發(fā)搭載該智駕大模型。Momenta已成為中國(guó)第一批量產(chǎn)端到端方案的公司之一。

4a540da8c9dc34bff22d0b42a849f664_172232942222671000_a700x398.png

如今，通用大模型成為AI業(yè)界的主流趨勢(shì)，位處不同場(chǎng)景的AI公司都在探索如何將大模型落地自身所在的產(chǎn)業(yè)。在自然語(yǔ)言處理場(chǎng)景下有大語(yǔ)言模型，在智能駕駛場(chǎng)景下，“端到端大模型”則成為了最近的最熱話題。

由特斯拉FSD V12開始，今年來(lái)國(guó)內(nèi)也有幾家頭部智駕公司官宣了自己的端到端大模型，在其中，Momenta的智駕大模型仍顯得與眾不同，其創(chuàng)新性地采用“短期記憶”和“長(zhǎng)期記憶”兩條支路，使得最終端到端大模型的訓(xùn)練成本可以縮小10到100倍，顯著提高訓(xùn)練效率。

目前，Momenta已經(jīng)與全球排名前十的汽車集團(tuán)中的一半展開量產(chǎn)合作，成為了交付車型最多的智能駕駛公司。8年的發(fā)展以來(lái)，這家公司探索出一條獨(dú)特而成熟的發(fā)展路徑，并在今年年初通過(guò)證監(jiān)會(huì)備案，正式啟動(dòng)赴美上市。如果成功，它會(huì)成為美股中國(guó)自動(dòng)駕駛第一股。

Momenta，正走在超越智駕摩爾定律的路上。

做最省錢的“智駕大模型”

端到端可謂是這兩年來(lái)自動(dòng)駕駛行業(yè)最熱的話題之一。目前，通用大模型是AI技術(shù)的最新發(fā)展趨勢(shì)，不管在自然語(yǔ)言處理、計(jì)算機(jī)視覺還是自動(dòng)駕駛，都在逐漸由多個(gè)專用小模型驅(qū)動(dòng)，進(jìn)化到將這些模型融合為一個(gè)更加通用的大模型去完成任務(wù)。

2024 年，特斯拉的完全自動(dòng)駕駛系統(tǒng)FSD V12上線，將感知到?jīng)Q策融為一個(gè)貫通的大模型，即“端到端大模型”：一端輸入攝像頭等傳感器獲得的數(shù)據(jù)，另一端直接輸出車輛行駛軌跡。最直觀來(lái)說(shuō)，F(xiàn)SD V12的端到端神經(jīng)網(wǎng)絡(luò)取代了30多萬(wàn)行C++代碼。

特斯拉一出手，包括蔚小理這樣的新勢(shì)力車企，和地平線、元戎啟行、毫末智行、商湯絕影等多家智駕公司都宣布跟進(jìn)這一技術(shù)路線。但是實(shí)際上，各家所謂的“端到端”并非都是同一種框架下的產(chǎn)品。

自動(dòng)駕駛有感知、規(guī)劃與決策和控制三個(gè)模塊，靠感知 “看”，靠決策 “思考” 怎么開車，靠控制模塊完成駕駛行為。國(guó)內(nèi)目前大部分“端到端”還停留在已構(gòu)建感知模塊模型，探索規(guī)劃、控制模型的階段，三者還未做到完全融合。而Momenta的智駕大模型，已將視覺模型和決策模型合并，變成了一個(gè)貫通的端到端大模型，Momenta也成為中國(guó)第一批量產(chǎn)端到端方案的公司。

Momenta對(duì)智駕領(lǐng)域的端到端，或者說(shuō)深度學(xué)習(xí)的探索最早開始在2020年，到2022年初，開始量產(chǎn)高速NOA，Momenta決定選擇用深度學(xué)習(xí)方法做量產(chǎn)方案的決策模塊，2023年上半年，基于深度學(xué)習(xí)的規(guī)劃算法已經(jīng)可以成熟量產(chǎn)上車，這個(gè)時(shí)間點(diǎn)甚至早于特斯拉。

在端到端上，Momenta與特斯拉的路線相似但不同，最大的創(chuàng)新點(diǎn)在于，其智駕大模型分為兩條支路——“短期記憶”和“長(zhǎng)期記憶”。

“短期記憶”由感知（DDLD）和規(guī)劃（DDOD），以及記憶與深度學(xué)習(xí)的規(guī)劃（DLP）構(gòu)成，通過(guò)這樣的方式，可以先進(jìn)行快速訓(xùn)練，驗(yàn)證用于訓(xùn)練的數(shù)據(jù)是否正確，以及訓(xùn)練使用的算法是否有效。最終，被“短期記憶”驗(yàn)證過(guò)的好的算法和數(shù)據(jù)會(huì)在一段時(shí)間的積累后應(yīng)用在“長(zhǎng)期記憶”，即最終的端到端大模型上，這樣可以保證一次就能把大模型訓(xùn)練好。

這樣的邏輯與人類學(xué)習(xí)的邏輯類似，人類在探索環(huán)境的過(guò)程中同樣會(huì)先更新短期記憶，然后再將已經(jīng)驗(yàn)證過(guò)的成功經(jīng)驗(yàn)更新進(jìn)長(zhǎng)期記憶中，這樣就能夠更加低成本、短周期地去適應(yīng)環(huán)境。

“低成本+短周期”，這正是現(xiàn)在端到端，乃至所有通用大模型最需要的東西。

“用深度學(xué)習(xí)去做自動(dòng)駕駛是一個(gè)開始，不是一個(gè)結(jié)束”曹旭東說(shuō)。智駕大模型構(gòu)建起來(lái)之后，未來(lái)還需要很多的探索和升級(jí)。

在學(xué)術(shù)界，端到端并不是一個(gè)新鮮的概念，已經(jīng)有諸多相關(guān)論文和研究。但是直到去年，在帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地后，有了海量數(shù)據(jù)和海量算力加持，這才取得了突破性進(jìn)展。這也證明了，在探索的過(guò)程中，大模型的演進(jìn)邏輯決定了，其需要大量的數(shù)據(jù)和算力的投入才能達(dá)成一定的訓(xùn)練效果，這同時(shí)也意味著巨大的成本投入。

“從特斯拉的開發(fā)經(jīng)驗(yàn)來(lái)看，端到端自動(dòng)駕駛真不是一般的企業(yè)能玩的，其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力?！庇兄悄荞{駛業(yè)內(nèi)人士告訴界面新聞。

該業(yè)內(nèi)人士判斷，數(shù)據(jù)會(huì)占據(jù)端到端自動(dòng)駕駛開發(fā)中80%以上的研發(fā)成本。根據(jù)特斯拉的計(jì)算，完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬(wàn)個(gè)、分布多樣、高質(zhì)量的 Clips （視頻片段）。算力也是很大的限制。為了能在云端處理這些數(shù)據(jù)，當(dāng)前特斯拉擁有近10萬(wàn)張英偉達(dá)的A100，位居全球top5。埃隆·馬斯克在社交平臺(tái)表示去年花了20億美金構(gòu)建特斯拉的數(shù)據(jù)中心，今年計(jì)劃用100億美金做自動(dòng)駕駛的訓(xùn)練和推理。其目標(biāo)是，依靠英偉達(dá)的GPU和自身的Dojo超級(jí)計(jì)算機(jī)，要在2024年底達(dá)到100EFlops的算力，遙遙領(lǐng)先。

而在美國(guó)多輪制裁之下，國(guó)內(nèi)采購(gòu)GPU難上加難。大部分企業(yè)手里擁有的算力資源非常有限，擁有超過(guò)1000張A100的企業(yè)寥寥無(wú)幾，甚至全國(guó)加起來(lái)都沒有特斯拉一家企業(yè)多。

如此高的投入使得自動(dòng)駕駛大模型的試錯(cuò)成本昂貴，如果訓(xùn)練方法或者數(shù)據(jù)處理做得不好，一次模型訓(xùn)練所花費(fèi)幾百萬(wàn)美金可能就會(huì)打水漂。

而曹旭東透露，Momenta使用“長(zhǎng)期記憶”和“短期記憶”配合的方式，能夠讓智駕大模型的訓(xùn)練成本縮小10到100倍。這無(wú)疑是一個(gè)無(wú)比誘人的數(shù)字。

面對(duì)特斯拉在數(shù)據(jù)和算力上的先發(fā)優(yōu)勢(shì)，Momenta為國(guó)內(nèi)企業(yè)提供了在端到端大模型上加速趕超的有效解法。

超越智駕的“摩爾定律”

創(chuàng)立之初，Momenta在一眾智駕公司中就顯得有些“與眾不同”。智能駕駛技術(shù)的實(shí)現(xiàn)路徑一直存在漸進(jìn)式與跨越式之爭(zhēng)。漸進(jìn)式路線是指從難度相對(duì)較低的輔助駕駛?cè)胧?，逐步完成從L0到L5的布局；跨越式路線則是提倡直接研發(fā)L4及以上自動(dòng)駕駛，一步到位。

當(dāng)各家公司紛紛試圖證明自己選擇的那一方才是最優(yōu)路線時(shí)，Momenta選擇了“兩個(gè)都要”，即“一個(gè)飛輪，兩條腿”的戰(zhàn)略。

“一個(gè)飛輪”是數(shù)據(jù)驅(qū)動(dòng)的AI飛輪。實(shí)現(xiàn)規(guī)模化無(wú)人駕駛需要解決的最重要的問(wèn)題就是長(zhǎng)尾問(wèn)題（corner case），這些問(wèn)題在實(shí)際生活中很少見，但是無(wú)人駕駛系統(tǒng)在設(shè)計(jì)時(shí)必須做到覆蓋，在遇到時(shí)才能夠應(yīng)對(duì)。

這樣的長(zhǎng)尾問(wèn)題有數(shù)百萬(wàn)個(gè)，因此很難用人工針對(duì)每一個(gè)問(wèn)題設(shè)定規(guī)則、逐一攻破。Momenta提出的解法是以數(shù)據(jù)驅(qū)動(dòng)的飛輪自動(dòng)化地解決。這樣的解法現(xiàn)在也成為了自動(dòng)駕駛界的共識(shí)，而領(lǐng)先一步的Momenta目前數(shù)據(jù)驅(qū)動(dòng)的飛輪已經(jīng)迭代到第五代。從第一代能夠自動(dòng)化地解決50%的問(wèn)題，到現(xiàn)在超過(guò)99%的問(wèn)題都可以通過(guò)第五代系統(tǒng)自動(dòng)化地去解決，極大提升了整個(gè)研發(fā)迭代的效率。埃安本次與Momenta合作的車型上就搭載了其算法5.0。

那么，有了數(shù)據(jù)飛輪算法，究竟需要多少數(shù)據(jù)才能夠?qū)崿F(xiàn)規(guī)?；腖4呢？

根據(jù)Momenta的測(cè)算，驗(yàn)證一套系統(tǒng)是否達(dá)到了可規(guī)模化的L4水平，需要至少1000億公里的數(shù)據(jù)。這樣大的數(shù)據(jù)量必須要量產(chǎn)車才能采集到。

基于此，Momenta又有了“兩條腿”走路的產(chǎn)品戰(zhàn)略，即通過(guò)量產(chǎn)車上人類司機(jī)的海量駕駛數(shù)據(jù)自動(dòng)化地訓(xùn)練算法，實(shí)現(xiàn)算法的快速成長(zhǎng)。隨著數(shù)據(jù)積累和算法迭代，飛輪也將越轉(zhuǎn)越快。

最終，Momenta的目標(biāo)是實(shí)現(xiàn)全國(guó)都能開甚至全球都能開的可規(guī)?；疞4，并且能夠達(dá)到10余倍人類司機(jī)的安全水平。

無(wú)疑，智駕大模型大規(guī)模量產(chǎn)后，Momenta的飛輪會(huì)轉(zhuǎn)得更快。

Momenta內(nèi)部有智駕的摩爾定律的說(shuō)法，包含智駕硬件的摩爾定律和智駕軟件的摩爾定律兩個(gè)部分。在硬件上，每?jī)赡暧布某杀緯?huì)降一半，在軟件上，每?jī)赡曛邱{的水平至少提升10倍。

“未來(lái)，能夠跟上（智駕）摩爾定律的公司能夠生存，能超越摩爾定律的公司能夠成為一家卓越的公司。”曹旭東說(shuō)。

2016年成立以來(lái)，Momenta已有8年的歷史，上汽、通用汽車、奔馳、豐田等車企都與其有合作，最終這些企業(yè)也成為了Momenta的戰(zhàn)略投資人。

車企之外，Momenta的投資人名單里還有知名投資機(jī)構(gòu)如淡馬錫、IDG資本、GGV紀(jì)源資本，也有互聯(lián)網(wǎng)大廠如騰訊、馬云的云鋒基金、小米系順為資本，以及博世這樣的一級(jí)供應(yīng)商，陣容堪稱豪華。

這家公司現(xiàn)在已與全球排名前十的汽車集團(tuán)中的一半企業(yè)開展量產(chǎn)合作，是最早開始做量產(chǎn)交付的智駕公司，同時(shí)也是目前交付車型最多的公司。已交付過(guò)類似高階方案的供應(yīng)商現(xiàn)在只有華為和Momenta，自研智駕的車企中，則只有蔚小理。

Momenta，正走在超越智駕摩爾定律的路上。

上一篇釋放更大市場(chǎng)潛力應(yīng)鼓勵(lì)首購(gòu)群體的低端車消費(fèi)

下一篇海峽兩岸（廈門）2024ACC城市杯輪滑球公開賽圓滿落幕