更新時間:2020年09月14日15時23分 來源:傳智播客 瀏覽次數(shù):
1 前言:
多目標(biāo)跟蹤領(lǐng)域是當(dāng)前目標(biāo)跟蹤領(lǐng)域的研究熱點,在CVPR2020發(fā)表一篇題為《GNN3DMOT: Graph Neural Network for 3D Multi-Object Tracking with Multi-Feature Learning》論文,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到最具有落地價值的3D多目標(biāo)跟蹤中,接下來我們對該論文進(jìn)行解讀。
2 創(chuàng)新點
該算法創(chuàng)新點:
1.使用GNN網(wǎng)絡(luò)替代之前的特征交互機制,將目標(biāo)的特征在多個目標(biāo)之間進(jìn)行交互,使不同的目標(biāo)之間區(qū)分度更大,減小相似目標(biāo)之間的差距,從而使目標(biāo)更具有判別性
2.同時獲取2D和3D的特征,并將其進(jìn)行融合,實現(xiàn)不同維度特征的互補。
算法流程如下圖所示:
之前的目標(biāo)跟蹤方法是將對前后幀圖像分別提取特征(2D或3D),然后利用仿射變換和匈牙利算法對各個目標(biāo)進(jìn)行匹配,完成目標(biāo)跟蹤任務(wù)。在該論文中改進(jìn)是在提取特征時,提取2D和3D兩種特征,并在不同幀之間進(jìn)行交互融合后,在進(jìn)行目標(biāo)匹配,完成目標(biāo)跟蹤。
3 網(wǎng)絡(luò)架構(gòu)
網(wǎng)絡(luò)模型架構(gòu)如圖所示:
其中(a)表示3D表觀和運動特征提取器,使用PointNet提取3D表觀特征,(b)表示2D表觀和運動特征提取器,使用ResNet34提取2D表觀特征,并使用兩層LSTM提取軌跡的運動特征,使用兩層MLP提取觀測框的運動特征。(c)圖神經(jīng)網(wǎng)絡(luò):融合四個分支的目標(biāo)特征作為節(jié)點特征來構(gòu)建圖。在GNN的每一層中,使用節(jié)點特征聚合來迭代更新節(jié)點特征,并通過邊回歸模塊計算相似度矩陣。
4 算法細(xì)節(jié)
4.1 特征提取
在這里提取圖像的2D和3D特征,并進(jìn)行融合。為了平衡運動和外觀特征的貢獻(xiàn),強制最終運動和外觀特征向量具有相同的維數(shù)。為了達(dá)到多特征學(xué)習(xí)的目的,避免一個分支影響其它分支,在網(wǎng)絡(luò)訓(xùn)練過程中隨機關(guān)閉分支。
為了避免2D檢測和3D檢測的對應(yīng)問題,僅使用3D對象檢測器獲得3D檢測,然后根據(jù)給定的相機投影矩陣從3D檢測中投影2D檢測。
4.2 圖神經(jīng)網(wǎng)絡(luò)
1. 構(gòu)建圖:
融合2D和3D特征的四個分支為節(jié)點特征。由于是相鄰幀匹配,將軌跡和檢測視為兩個鄰域,只連接在彼此距離在小范圍內(nèi)的兩個點,構(gòu)建稀疏圖,在改圖網(wǎng)絡(luò)中完整目標(biāo)跟蹤
2. 邊回歸
采用兩層MLP,將兩個節(jié)點特征的差作為輸入,計算相似度矩陣:
3. 特征聚合
該文本作者對四種節(jié)點聚合規(guī)則進(jìn)行了實驗,采用了第四種。
其中σ都是線性層,聚合是節(jié)點本身特征加上與鄰居的特征差,并以相似度作為權(quán)重。
4.3 損失函數(shù)
損失函數(shù)由兩部分組成: Batch Triplet Loss和Affinity損失,如下式所示:
其中Batch Triplet Loss的損失計算如下所示:
該損失是衡量圖卷積網(wǎng)絡(luò)的節(jié)點特征的。
Affinity損失是衡量相似度矩陣的,由兩部分組成,一部分是衡量預(yù)測結(jié)果的二分類交叉熵?fù)p失:
和另一部分交叉熵?fù)p失:
我們將這些損失求和后就得到網(wǎng)絡(luò)整體的損失結(jié)果。
4.4 跟蹤策略
在視頻的第一幀將跟蹤對象集合初始化一個空集合,并添加一個控制目標(biāo)出現(xiàn)和消失的跟蹤管理模塊,從而減小目標(biāo)的虛警和誤報。還要對每個目標(biāo)進(jìn)行計數(shù),如果找到新的目標(biāo)可以匹配到跟蹤目標(biāo)鏈中,則更新目標(biāo)鏈,若不可匹配則將其添加到目標(biāo)鏈中。如果跟蹤鏈中的某個目標(biāo)沒有匹配到,則將其中跟蹤鏈中刪除。
5 實驗結(jié)果
利用該模型在KITTI數(shù)據(jù)集上的跟蹤結(jié)果如下所示:
從下圖中可以看出Drop的比例,圖卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)和特征融合的數(shù)量都會對網(wǎng)絡(luò)準(zhǔn)確度產(chǎn)生影響。
與其他的目標(biāo)跟蹤方法相比,該論文方法效果有所提升。
6 總結(jié)
該論文最大的創(chuàng)新點是利用圖神經(jīng)網(wǎng)絡(luò)實現(xiàn)特征交互,使得目標(biāo)之間的區(qū)分度更高,該文作者的實驗很豐富,在KITTI和nuScenes數(shù)據(jù)集效果很好。
猜你喜歡:
人工智能算法如何學(xué)習(xí)數(shù)據(jù)中的規(guī)律?