淺談物件偵測與物件切割技術...
陳昱廷
台大資工所
在視訊中進行物件偵測是一個重要的課題,如人與車的偵測等,此一技術可運用在許多視訊安全監控系統,如智慧型空間(Smart rooms)、以內容為基礎之視訊(影像)搜尋(Content-based image/video retrieval)、以及智慧型交通系統(Intelligent transportation systems)等,物件偵測在近年來已有許多相關的研究。
在偵測出物體位置後,若能判斷該位置哪些像素位在所要偵測的物體上,對於後續的應用將有相當大的助益,例如,在進行物件追蹤時,可以只用被追蹤物本身的像素資訊,以避免背景資訊造成的變異。
近年來,有許多研究將這兩個領域做整合,以提供視訊中物件偵測與物件切割。在此一領域內大多使用example-based的方法,亦即由訓練影像中找出物件的特徵區域,並用Codebook來描述該物件的特徵關係,以車輛為例[1],可利用找尋角點(corner)的方式在車輛上找出具有特徵的位置,如圖一所示,所有訓練影中找出的特徵點可以取出其鄰近區塊(patch)來進行描述,如圖二所示,在利用Codebook描述這些區塊時,則是計算區塊間的相關性(Normalized Grayscale Correlation)並利用群聚(clustering)的方式來分群,並將每一群視為車輛的Code,藉由計算不同Code之間的空間關係可以建立車輛的Codebook。對於輸入的測試影像,可計算其影像特徵點,並將特徵點區塊與車輛的Codebook做比對,如此可以偵測出車輛的位置。此種方法的優點是只需少量的訓練影像即可建立有效的車輛Codebook。

圖一 車輛影像及其特徵點

圖二 由訓練影像選取出的特徵區塊

圖三 使用群聚法進行分群
為了要在進行物件偵測的同時,能夠分割出該物件的輪廓,B. Leibe等[2][3]提出了ISM (Implicit Shape Model),此一方法使用的訓練影像同時含有該物體的前景遮罩(mask),因此在建立該物體的Codebook時,可以利用統計學習的方式將每個Code的前景機率進行學習,此一方法的架構如圖四所示,首先,輸入的影像會在其上選取特徵點,並將該特徵點所在位置的特徵區塊與Codebook做比對,並將比對成功的Code對物體的中心做投票,投票出來的中心位置可用Mean Shift Mode Estimation的方法找出機率最高的中心點,將投票到該中心點的特徵區塊做反投影,儲存在這些Code內的前景機率模型可以用來估算物體的前景區域。此一方法也可以運用在具有關節的動物上(Articulated animal),如圖五所示。

圖四 Implicit Shape Model的架構圖


圖五 牛的偵測及其前景切割結果
此一研究尚有許多的延申,如B. Leibe等[4]利用許多具有縮放不變性(Scale-invariant)的特徵點來進行特徵抽取,以克服原先方法測試影像必需與訓練影像大小相仿的限制;B. Leibe等[5]也使用ISM來進行人的偵測與切割,除了偵測的步驟外,其利用收集一些行人姿態的外圍輪廓,來對偵測出的行人進行chamfer matching,以改進偵測與切割效果,如圖六所示;L. Wang等[6]則是使用Shape Context來進行影像上特徵點的抽取,並用影像切割技術當成bottom-up的驗証,以改進偵測與切割效果,如圖七所示。
此一技術尚在發展階段,唯其後續應用的潛力值得進一步深入的研究,包括如何改善偵測的正確率及偵測的速度等等都是重要的方向。


圖六 行人偵測與其輪廓偵測結果[5]

圖七 物體偵測與其輪廓偵測結果[6]
參考資料
| [1] | S. Agarwal and D. Roth, “Learning a sparse representation for object detection,” In ECCV’02, pages113-130, 2002. |
| [2] | B. Leibe and B. Schiele, “Interleaved object categorization and segmentation,” In BMVC’03, pages 759-768, 2003. |
| [3] | B. Leibe, A. Leonardis, and B. Schiele, “Combined object categorization and segmentation with an implicit shape model,” In ECCV’04 Workshop on Stat. Learn. in Comp. Vis., pages 17-32, 2004. |
| [4] | B. Leibe and B. Schiele, “Scale invariant object categorization using a scale-adaptive mean-shift search,” In DAGM’04, Springer LNCS, Vol. 3175, pages 145-153, 2004. |
| [5] | B. Leibe, E. Seemann, and B. Schiele, “Pedestrian Detection in Crowded Scenes,” In CVPR’05, pages 878-885, 2005. |
| [6] | L. Wang, J. Shi, G. Song, and I-F. Shen, “Object Detection Combining Recognition and Segmentation,” In ACCV’07, pages 189-199, 2007. |










