智能視覺分析技術(shù)應(yīng)用而生 未來市場可觀
發(fā)布時間: 2015-03-27 瀏覽:181次
淺談智能視覺技術(shù)應(yīng)用與發(fā)展
【CPS中安網(wǎng) cps.com.cn】通俗地說,智能視覺技術(shù),就是通過計算機自動對攝像頭采集的視頻信息進行分析處理,從視頻序列中捕捉存在的感興趣區(qū)域及目標,并進一步獲取目標的出現(xiàn)時間、運動軌跡、顏色等諸多信息,通過對各個目標的上述信息的分析。
智能視覺技術(shù)核心是運動目標檢測、分類、跟蹤與識別技術(shù)等。運動目標檢測是將視頻圖像序列中的感興趣目標(如車輛或人)檢測出來,以備后續(xù)步驟的使用;目標檢測的目的就是準確地從通過運動檢測得到的運動區(qū)域中提取出與目標相對應(yīng)的團點。
研究人員已經(jīng)開發(fā)了多種運動目標檢測的方法,包括幀間差分法,光流法和背景減除算法。根據(jù)實際應(yīng)用需求的不同,不同的檢測算法都是在可靠性、實時性和準確性之間折衷得到的。目標分類的目的是從檢測到的運動區(qū)域中將對應(yīng)于人的運動區(qū)域提取出來.不同的運動區(qū)域可能對應(yīng)于不同的運動目標,比如交通道路上監(jiān)控攝像機所捕捉的序列圖像中可能包含行人、車輛及其它諸如飛鳥、流云、搖動的樹枝等運動物體,為了便于進一步對行人進行跟蹤和行為分析,運動目標的正確分類是完全必要的.注意,這個步驟在一些情況下可能是不必要的(比如已經(jīng)知道場景中僅僅存在人的運動時)。運動目標跟蹤是在需要監(jiān)控的環(huán)境里,如何能夠判斷出進入特定區(qū)域的目標,并且能夠跟蹤目標的軌跡。
具體可分為兩種情況:一是靜態(tài)背景下的目標跟蹤;二是動態(tài)背景下的目標跟蹤。靜態(tài)背景下的目標跟蹤方法具體可分為單目標跟蹤與多目標跟蹤。單目標的靜態(tài)背景下的目標跟蹤指的是攝像頭是固定在某一方位,其所觀察的視野也是靜止的。多目標跟蹤是指在靜態(tài)環(huán)境下的多目標跟蹤,需要確定每個目標的特征,位置,運動方向,速度等信息。動態(tài)背景下的目標跟蹤指的是攝像頭在云臺控制下旋轉(zhuǎn),會使得他所采集的圖像時可在變化,所以,對于整個目標跟蹤過程來說,背景是變化,目標也是在整個過程中運動的,所以跟蹤起來較有難度。人的行為理解與描述是越來越被廣泛關(guān)注的研究熱點,它是指對人的運動模式進行分析和識別,并用自然語言等加以描述.行為理解可以簡單地認為是時變數(shù)據(jù)的分類問題,即將測試序列與預(yù)先標定的代表典型行為的參考序列進行匹配。
當(dāng)前的智能視覺技術(shù)主要集中在基于RGB光學(xué)圖像的處理上,根據(jù)各種顏色空間、目標的紋理結(jié)構(gòu)分析或者灰度特征、運動特征等來檢測與跟蹤目標,但由于RGB圖像無法獲取物體在三維空間中的距離信息,相關(guān)的算法受到周圍環(huán)境、光照變化、背景等因素的影響,在目標檢測與跟蹤上魯棒性較差,難以實現(xiàn)復(fù)雜場景下的任意目標檢測和在線跟蹤,應(yīng)用受到很大的限制。
因為彩色攝像頭獲取的圖像只保留了空間的二維信息,所以這些方法都是二維空間上進行處理,只能獲得目標的二維運動信息。真實世界中的目標是在三維空間運動的,如果只獲取二維運動信息將難以達到實際應(yīng)用的魯棒性要求。因此,越來越多的研究者開始利用深度圖像來進行目標的檢測、跟蹤與識別。目前通過圖像感應(yīng)器獲取三維信息主要有兩種方式。其中一種原理與人眼視覺系統(tǒng)類似,采用兩個彩色攝像頭同時拍攝同一場景,通過兩個攝像頭的視差推導(dǎo)出場景中像素離攝像機的遠近,即深度(Depth)。這種方式通常稱為雙目立體視覺(BinocularStereoVision)。利用雙目圖像推導(dǎo)深度信息需要先計算兩幅圖像像素之間的對應(yīng)關(guān)系,即左邊圖像的像素與右邊圖像的哪個像素是描述的空間中的同一個點。根據(jù)投影關(guān)系,距離較遠的點投射到兩個圖像平面的坐標偏差較小。利用這一原理可以通過坐標偏差推導(dǎo)出深度。
然而求左右圖像像素的對應(yīng)關(guān)系是一個不適定性問題(Ill-PosedProblem),因為本質(zhì)上彩色攝像機捕獲的表面的外觀,并不包含深度信息,求對應(yīng)關(guān)系只能根據(jù)外觀的相似度來推導(dǎo),而不是同一位置的外觀也可能是相似的。因此雖然多年來學(xué)者們在這個方向上嘗試了各種可能的手段,仍不能取得滿意的效果。另外,計算像素對應(yīng)關(guān)系以及根據(jù)對應(yīng)關(guān)系并利用像素間的相關(guān)性進行優(yōu)化得到深度都需要耗費大量的計算資源。到目前為止,該問題仍是一個開放性問題,沒有能夠產(chǎn)品化而得到普遍的應(yīng)用。
另一種利用圖像感應(yīng)器獲取三維信息的原理與雷達類似:采用主動的方式由一個激光發(fā)射器向場景中發(fā)射激光(一般是肉眼不可見的紅外激光),然后用一個接受感應(yīng)器接受反射回來。發(fā)射的激光可以是一些特定的規(guī)則模式,遠近不同的對象反射回來后模式會不同(如大小),這樣通過分析接收到的發(fā)射紅外圖像就可以得到深度信息。這種方式稱之為結(jié)構(gòu)光(StructuredLight)深度獲取方法;發(fā)射的激光也可以是一些相位固定,遠近不同的對象發(fā)射會得到不同的相位,這樣根據(jù)接收到的激光的相位可以分析出激光飛行的時間,從而得到深度。這種方式稱之為飛行時間(Time-of-Flight,ToF)深度獲取方式。
不管是結(jié)構(gòu)光還是ToF方式的攝像頭,早期由于其制造工藝復(fù)雜,造價很貴,而且感應(yīng)速度很慢遠達不到實時,只能應(yīng)用在一些專業(yè)領(lǐng)域。隨著制造技術(shù)及電子技術(shù)的發(fā)展,最近兩年來,這類利用光源獲取深度信息的技術(shù)取得了突破性的進展。一些價格低廉并且速度很快的三維成像設(shè)備開始面世。不少公司都發(fā)布了可以實時采集深度信息的攝像頭(例如MicrosoftKinect、PrimeSense、華碩Xtion)等。這些攝像頭可以以大于30幀每秒的速度采集分辨率超過640480的深度圖像。所謂深度圖像指以像素矩陣的形式組織的場景中的深度信息,與普通圖像不同的是,圖像中的每一個像素的值不是顏色或者灰度值,而是該像素描述的點離攝像機的距離。Kinect是微軟在2010年發(fā)布的專為XBOX360游戲機開發(fā)的體感設(shè)備,它使用結(jié)構(gòu)光產(chǎn)生深度圖像。Kinect的全身體感技術(shù)引發(fā)了基于深度信息的研究熱潮如圖1所示。
深度圖像的處理和識別雖然不是一個全新的研究方向,但是以前由于受限于深度攝像頭,其研究都局限在一些專業(yè)的領(lǐng)域,很多地方還是空白。隨著廉價實時的深度攝像頭的出現(xiàn),對人機交互和計算機視覺提出了很多新的問題。從近兩年計算機視覺和模式識別的頂級國際會議IEEEConferenceonComputerVisionandPatternRecognition(CVPR)上發(fā)表的論文來看深度圖像處理相關(guān)的論文越來越多并且影響力也越來越大。
其次,由于廉價、實時的深度圖像攝像頭的出現(xiàn),在視頻監(jiān)控領(lǐng)域也有了不俗的應(yīng)用。韓國一名程序員利用Kinect開發(fā)出了一款監(jiān)視邊境線的系統(tǒng),如圖2所示。這個系統(tǒng)早在去年8月就開始開發(fā),直到最近才向外界公開,并被韓國軍方使用。這個系統(tǒng)利用Kinect攝像頭的紅外線功能檢測穿過韓朝兩國邊境線的物體,能夠識別動物和人。如果系統(tǒng)檢測到穿過邊境線的是人,就會立即拉響最近的警報。
微軟表示Kinect最具潛力的一個新用途就是用來確保家庭安全,它的運動跟蹤系統(tǒng)完全可以勝任這種類似安防攝像機的工作。雖然傳統(tǒng)的安防攝像機也可以很出色的完成安防工作,但Kinect的感應(yīng)功能引入以后就可以更精準的跟蹤入侵者的活動,以便讓記錄下了更有利用價值的視頻資料。歐洲的一家高端視頻監(jiān)控公司也利用KINECT進行安全監(jiān)控,他們開發(fā)的產(chǎn)品使用戶可以通過手勢來改變監(jiān)控錄像的布局,可進行錄像、變焦、快退、孤立片段的操作以及內(nèi)容顯示如地圖和網(wǎng)頁等。
國內(nèi)不少院校也對基于深度信息的智能視頻技術(shù)展開了深入研究,武漢大學(xué)計算機學(xué)院國家多媒體軟件工程技術(shù)研究中心采用微軟公司的Kinect傳感器來獲取深度圖像,并重點研究基于深度圖像實時徒手交互中的人手檢測、跟蹤與手勢識別技術(shù),實現(xiàn)復(fù)雜背景下自然的手勢交互。人手檢測指交互系統(tǒng)初始化時判定場景中出現(xiàn)人手或者出現(xiàn)有交互意愿的人手;人手跟蹤指根據(jù)初始的人手位置判斷后續(xù)幀圖像中人手的位置,手勢識別以人手部的動作直接控制計算機的輸入。
針對KINECT深度圖在距離變大情況下人手輪廓模糊,無法根據(jù)手部輪廓特點來確認候選手區(qū)域,揮手檢測失敗的問題,根據(jù)人手形狀在距離變化的情況下,長寬比例滿足長條形的約束條件,引入人手形狀似長條型先驗知識,提出基于形狀先驗和運動先驗的區(qū)域增長人手定位模型,形狀先驗按手型形狀比例約束為限制,不受用戶與攝像頭距離遠近變化的影響??朔耸植枯喞:裏o法獲取候選人手及質(zhì)心的困難。結(jié)合揮手運動先驗,最終定位人手啟動人機交互。將揮手檢測的適用距離由以前的0.7米到1.8米增加到3.2米,同時檢測率達到95%,提升了揮手檢測的效率,如圖3所示。針對人手跟蹤過程中,人手與軀干融合導(dǎo)致跟蹤失敗的問題,提出了基于鄰域深度距離度量的人手跟蹤模型,通過預(yù)判人手與軀干融合情況,來決定是否啟動人手運動檢測,恢復(fù)人手跟蹤,解決了人手與軀干融合時,人手跟蹤錯誤問題,預(yù)判融合正確率92.9%,跟蹤恢復(fù)正確率92.3%如圖4所示。以上研究結(jié)果在國內(nèi)外發(fā)表多篇SCI、EI檢索的科技文獻及專利。其成果具有現(xiàn)實的應(yīng)用價值。
綜上所述,智能視覺技術(shù)是安防領(lǐng)域中一個重要的研究分支,它在智能監(jiān)控、虛擬現(xiàn)實、用戶接口等方面的應(yīng)用前景引起了廣大科研人員的濃厚興趣。更多的研究者們正逐步將其成果推向更加智能的應(yīng)用場合。