首頁/ 汽車/ 正文

行人遮擋水平的客觀分類方法

行人遮擋水平的客觀分類方法

arxiv 2022 5月論文

論文題目:

An Objective Method for Pedestrian Occlusion Level Classification

論文地址:

https://arxiv。org/abs/2205。05412

摘要

行人檢測是自動駕駛汽車駕駛員輔助系統最重要的安全特性之一,最複雜的檢測挑戰之一是部分遮擋,其中一個目標物件由於被另一個前景物件遮擋,只能部分地對感測器可用,目前許多行人檢測基準提供了部分遮擋的註釋,以評估這些場景下的演算法效能,但每個基準對遮擋的發生和嚴重程度的定義差異很大,此外,目前的標註方法包含了人工標註的高度主觀性,這可能導致演算法對部分遮擋行人的檢測效能報告不準確或不一致,這取決於使用的基準。本研究提出了一種新的、客觀的行人遮擋程度分類方法,用於真相註釋,遮擋級別的分類是透過識別可見的行人關鍵點,並透過使用一種新穎、有效的二維體表面積估計方法來實現的,實驗結果表明,該方法反映了影象中行人的畫素遮擋水平,對所有形式的遮擋都是有效的,包括具有挑戰性的邊緣情況,如自遮擋、截斷和交叉遮擋行人。

1. 簡介

穩健的行人檢測是駕駛員輔助系統和自動駕駛汽車最重要的安全特性之一,行人檢測是特別具有挑戰性的,因為人體在運動中的變形性質和不規則輪廓,以及由於服裝顏色資訊的不一致性,可以增強或偽裝行人的任何部分。近年來,隨著深度學習解決方案的普及,以及更大、更多樣化的資料集的可用性,行人檢測系統有了顯著的改善,儘管如此,在我們達到安全自動駕駛所需的檢測能力之前,仍存在許多挑戰,最複雜的場景之一是部分遮擋,其中一個目標物件由於被另一個前景物件遮擋,只能部分地對感測器可用。

汽車環境中遮擋的頻率和種類非常多,受到自然和人工基礎設施以及其他道路使用者的影響,行人可能被靜態或動態的物體遮擋,可能在人群中相互遮擋(遮擋彼此),也可能在行人部分重疊的地方自遮擋,最先進的行人檢測解決方案聲稱,使用當前基準,對部分和嚴重遮擋行人的檢測效能分別約為65%-75%。然而,遮擋的發生和嚴重程度的定義差異很大,在每個基準中採用高度主觀性對行人遮擋水平進行分類,如表1所示。

行人遮擋水平的客觀分類方法

除此之外,當對遮擋水平進行分類時,通常會完全忽略自身遮擋的發生,即身體的一部分遮擋另一部分,這可能導致行人檢測演算法的效能報告不準確或不一致,這取決於用於驗證檢測效能的資料集,為了解決這一問題,需要一種通用的度量和一種客觀的、可重複的遮擋級別分類方法來進行真相註釋,以便在平等的尺度上對演算法進行評估和比較。

本研究提出一種新穎、客觀、一致的行人遮擋程度分類方法,用於部分閉遮擋人的真相標註,提出的方法比目前的技術水平更準確地代表畫素遮擋水平,適用於所有形式的遮擋,包括具有挑戰性的邊緣情況,如自遮擋、間遮擋行人和截斷。

本研究的貢獻有三個方面:提出了一種新的、客觀的行人遮擋等級分類方法 2。 一種估計影象中行人可見二維體表面積的新方法 3。建議的方法是第一個遮擋水平分類器推斷行人的自遮擋水平。

2. 相關工作

本節概述現時行人遮擋程度分類方法、評估行人遮擋程度分析方法,以及估計全身面積的常用方法。

許多公開的資料集提供了汽車環境中行人遮擋程度的註釋,表1提供了當前流行資料集中用於定義遮擋嚴重程度的類別的概述,對當前基準的分析表明,在低遮擋、區域性遮擋和重度遮擋的定義中存在不一致和主觀性的範圍。歐洲城市人口資料集將遮擋分為三個不同的級別:低遮擋(10%-40%)、中等遮擋(40%-80%)和強遮擋(大於80%),分類由人工註釋人員執行,估計被遮擋行人的全部範圍,然後估計遮擋的大致水平在三個定義的類別中的一個,該方法還用於對影象邊界附近行人的截斷程度進行分類。

在Caltech Pedestrian、TJU-DHD-pedestrian、CrowdHuman和PedHunter資料集中採用了類似的方法,其中行人用兩個邊界框進行註釋,表示可見和完整的行人範圍。在行人被遮擋的情況下,透過人工註釋估計完整行人隱藏部分的位置,從而計算遮擋比,Caltech Pedestrian資料集的進一步分析確定,在汽車環境中遮擋的機率是不均勻的,而是有很強的偏向,行人的下部被遮擋,頂部可見。

CityPersons資料集中被遮擋行人的分類是透過從被遮擋行人的頭頂到雙腳中間繪製一條線來實現的,如果頭和腳不可見,則需要人工註釋人員來估計它們的位置,然後使用固定的寬高比0。41(寬/高)為整個行人區域生成一個邊界框(“BB−f ull”)。一個可見的行人區域邊界框(“BB - vis”)也被標註,遮擋率計算為面積(BB - vis)/面積(BB - full),然後,這些遮擋水平的估計在城市人基準中分為兩個水平,合理(<=35%遮擋)和重度遮擋(35%-75%)。

在Kitti Vision Benchmark中採用了一種更加語義化的方法來確定遮擋級別,其中人工註釋人員被簡單地要求將每個邊界框標記為“可見”、“半遮擋”、“完全遮擋”或“截斷”,在多光譜行人資料集中使用了類似的方法,其中“遮擋程度達到一半以上”的行人被標記為部分遮擋;輪廓被“大部分遮擋”的被標記為重度遮擋。

遮擋影片例項分割(occled Video Instance Segmentation, OVIS)透過計算重疊邊界框的相交面積與各自邊界框總面積的比值來估計遮擋程度,作者承認,雖然提出的“包圍框遮擋率”可以粗略地反映遮擋程度,但它只能部分反映物體之間的遮擋情況,不能準確地代表目標物體的畫素級遮擋水平。

Chaudhary等人提出了一種基於行人能見度的社交媒體影象級別分類方法,在這項研究中,成年人的平均身高估計為170釐米,水位分類器檢測影象中的行人,並透過將行人垂直細分為11個不同的級別來估計行人被覆蓋的程度。

Wallace提出了一種體表面積分類的方法,用於診斷平均成年燒傷患者燒傷損傷的嚴重程度,這種方法被稱為“Wallace九分規則”,通常被緊急醫療提供者和急救人員用於評估燒傷患者受影響的體表總面積,九分規則透過分配百分比來估計整個體表面積,語義身體面積的倍數為9%,基於平均成年人的相對物理尺寸,頭部估計佔整個體表面積的9%(前面4。5%,後面4。5%),胸部、腹部、上背部和下背部各佔9%,每條腿分配18%,每隻手臂分配9%,腹股溝分配剩下的1%。

3.方法

提出了一種客觀的遮擋等級分類方法,該方法消除了人工註釋者的主觀性,比現有的方法更準確地反映出畫素層面的遮擋等級,在最初討論的概念的基礎上改進,遮擋級別分類包括3個步驟:1。關鍵點檢測應用於輸入影象,以識別每個行人例項的特定語義部分的存在性和可見性2。 應用能見度閾值並與行人掩膜交叉引用,以確定影象中哪些關鍵點被遮擋。3。然後將可見關鍵點分組為更大的語義部分,並使用第3。2節和圖1中概述的二維體表面積估計方法計算總可見表面積。該方法對所有行人遮擋形式的遮擋級別進行分類,包括具有挑戰性的邊緣情況,如自遮擋、間遮擋行人和截斷。分類管道的概述見圖2,分類器輸出的定性示例見圖3。

行人遮擋水平的客觀分類方法

行人遮擋水平的客觀分類方法

3.1. 遮擋關鍵點檢測

關鍵點檢測由基於Faster RCNN的關鍵點檢測器執行,使用來自Detectron2的預訓練權重,該模型使用ResNet-50-FPN骨幹,並使用COCO關鍵點資料集進行訓練,關鍵點檢測器輸出人體上的17個關鍵點,以及每個預測關鍵點的可見性評分。

預測的關鍵點包括肩膀、肘部、手腕、臀部、膝蓋和腳踝,以及鼻子、眼睛和耳朵等面部特徵,然後應用兩步過程來確定影象中關鍵點的可見性,首先,對從關鍵點檢測器返回的關鍵點可見性評分應用一個閾值,然後,將每個可見關鍵點的座標與MaskRCNN生成的行人掩碼進行交叉引用,以確認關鍵點位置位於影象中的行人掩碼區域內,這兩步過程增加了在複雜情況下被遮擋關鍵點的識別,如自遮擋,關鍵點能見度評分很低,但估計的關鍵點位置可能會由於遮擋行人區域而被掩蓋,特定分組關鍵點的存在表明語義主體部分的存在,如表2所示。

行人遮擋水平的客觀分類方法

3.2. 二維人體表面積估計

“Wallace九分法則”是一種久經考驗的測定一般成年人體表面積的方法,雖然在評估行人的體表面積方面是有效的,但由於人體的3D性質,九分法則並不適合評估二維影象中行人的可見表面積。

提出了一種改編版本的九位規則,用於確定二維行人影象的可見體表面積,以進行遮擋級別分類,九分規則的原始比例分別進行了調整,以補償在任何時候只有一側的身體可見,就像在2D影象的情況下一樣,本文提出的二維體表面積估計方法如圖1所示,檢測到的關鍵點與表2所示方法中的語義體區域相關,分類輸出的示例如圖3所示。

行人遮擋水平的客觀分類方法

4. 驗證

透過將提出的方法應用於包含各種行人姿勢、背景和多種遮擋形式(包括自遮擋、間遮擋行人和截斷情況)的廣泛影象,進行定性驗證,利用所提出的遮擋等級分類方法,推匯出每個行人例項的遮擋等級和被遮擋語義部分,然後使用人眼視覺檢查來驗證每種情況下遮擋級別分類器的效能,在這個驗證步驟中使用了320個自定義資料集,多個公開來源,以確保廣泛的多樣性行人遮擋的場景,圖3提供了定性驗證的例子。

4.1. 定量驗證

透過比較所提出的方法與計算的畫素級遮擋水平(使用MaskRCNN匯出),以及CityPersons中描述的當前技術狀態,對可見和逐漸遮擋的行人進行了定量驗證,為了確定畫素層面的遮擋,必須計算完全可見的行人和遮擋下的同一行人的總像素面積,為了實現這一目標,建立了一個包含200張影象的自定義資料集,包括各種遮擋場景和具有挑戰性的行人姿勢,如步行、跑步和騎腳踏車,將MaskRCNN應用於全可見參考影象,計算每個行人例項的掩碼像素面積(MaskAreafull),然後在參考影象上疊加遮擋,並計算剩餘的可見行人像素面積(MaskAreaocc),以確定畫素級遮擋比,等式1。

行人遮擋水平的客觀分類方法

然後將所提出的方法與畫素級遮擋水平和CityPersons中描述的方法進行比較,以確定所提出的遮擋水平分類器的畫素級準確性,這些實驗中使用的影象示例如圖4所示,定量驗證結果如圖5所示。

行人遮擋水平的客觀分類方法

5. 討論與分析

提出了一種客觀的遮擋水平分類方法,圖3所示的定性驗證結果證明了所提出的方法對所有遮擋形式的遮擋級別進行分類的能力,包括具有挑戰性的邊緣情況,如自遮擋、截斷和相互遮擋的行人,透過去除人工註釋者的主觀性,該方法比目前的技術水平更具魯棒性和可重複性,適用於行人檢測演算法的客觀比較,而不管使用的基準是什麼,行人自遮擋的分類,此前在部分遮擋行人的評估中被忽略,可能會對使用現代技術評估行人的可探測性產生很大影響,當檢測可信度與影象中目標行人自聚焦的關鍵顯著特徵的存在相關聯時,這一點尤其相關,對自聚焦情況下檢測效能的更詳細分析將增加我們對基於深度學習的檢測例程行為的理解,在行人的演算法特定資訊值被遮擋的情況下,對以前被認為是“可見的”行人的檢測效能進行描述,將有助於識別當前先進的行人檢測系統的潛在故障模式。

如圖5所示的定量驗證結果,證明了所提出的方法在表示“真實世界”或挑戰行人姿勢的畫素級遮擋值方面的能力,無論遮擋的嚴重程度或形式如何,圖1所示的二維體表面積估計方法,由“Wallace九分規則”推導而來,已被證明可以有效計算部分遮擋行人的可見面積,適用於各種行人姿勢和遮擋情況,對定量驗證結果的進一步分析清楚地表明,與畫素級遮擋值相比,當前狀態有了改進。

行人遮擋水平的客觀分類方法

5.1. 具有挑戰性的影象幀

圖6提供了一個分類器效能示例,用於挑戰性的檢測場景,並突出顯示在特定幀中對於模糊行人例項可能出現的分類錯誤,漏檢或假陰性可能發生在關鍵點檢測器或MaskRCNN由於過度的運動模糊,相機偽影或低影象解析度的低檢測信心的結果,當行人輪廓與影象背景輪廓非常接近時,檢測置信度會降低。

行人遮擋水平的客觀分類方法

圖6 (a)、(b)和(c)分別成功分類了重度遮擋、影象眩光和低解析度情況下的行人遮擋水平,在每種情況下,行人輪廓與影象背景明顯不同,在行人輪廓和影象背景差異較小的類似場景中,如圖6 (h), (j)和(k),檢測置信度降低,導致假陰性。

關鍵點錯誤可能發生在複雜的檢測場景中,這可能導致對特定幀的錯誤分類,在行人例項被遮擋器高度分割的情況下,已經注意到這種情況的發生,這促使演算法提出多個行人例項,或忽略行人由於交叉遮擋而看起來與主要行人例項不連線的部分,在圖6 (o), (p)和(s)中可以看到這些情況的例子。

類似地,行人掩模錯誤也可能發生在具有挑戰性的幀中,掩模錯誤可能包括掩模洩漏,這可能錯誤地表明被遮擋的關鍵點的存在,如圖6 (u),以及掩模不完整或不精確,這可能導致錯誤地遺漏特定的關鍵點或行人例項,如圖6 (m), (n)和(t)所示,儘管所提出的方法旨在關注行人,但其他道路使用者,如騎腳踏車的人,騎摩托車的人和嬰兒車的兒童可能被歸類為被遮擋的行人,此外,廣告影象和其他媒體上的人物描述也可以被演算法歸類為行人,透過進一步改進關鍵點和行人掩碼檢測模型,可以隨著技術的進步將這些模型整合到檢測管道中,從而減少出現的許多錯誤分類錯誤。

6. 結論

本研究提出了一種客觀的行人遮擋等級分類方法,用於真相的標註,該方法利用關鍵點檢測和掩模分割來識別和確定部分遮擋行人語義部分的可見性,並利用一種新穎有效的二維體表面積估計方法計算被遮擋體表面積百分比,該方法消除了現有技術所使用的人工註釋器的主觀性,進而提高了行人遮擋等級分類的魯棒性和可重複性,定性和定量驗證證明了所提出的方法對所有形式的遮擋的有效性,包括具有挑戰性的邊緣情況,如自遮擋和間遮擋行人。

實驗結果表明,當繪製針對畫素的行人遮擋水平時,該技術的現狀有顯著改善,該方法的普遍應用將提高行人檢測基準中遮擋水平註釋的準確性和一致性,並將提高感知遮擋的行人檢測網路的精度,對諸如自遮擋等邊緣情況的詳細分析,將增加我們對基於深度學習的檢測例程的理解,為行人檢測演算法提供更高階的特徵,並有助於識別當前技術中潛在的故障模式。

相關文章

頂部