圖像識別與機器學習面臨的困難和今后的研究方向
一、什么是圖像識別?
圖像識別是什么?以這張圖像為例,個問題是:在這個圖像里面有沒有街燈。在學術研究中,我們把這個問題叫作圖像檢測。第二個問題就是把街燈的位置給找出來,這叫做定位。第三個問題是物體的分類和識別,指出這是山,這是樹,這個是招牌,建筑。我們可能還會對整張圖片做一個場景的分類,是在什么環境下拍照的。它可能是一個室外的圖像,關于城市的生活等等。基本上這些就是我們在圖像識別里面涉及到的一些可能的研究問題。
二、圖像識別有什么應用?
做這些研究可以有哪些用途?比如無人駕駛汽車:如果汽車上有一個帶有攝像頭的輔助系統,能夠識別這個場景下所有的情況,包括車道線,交通標識,障礙物等,這樣能夠讓我們駕駛汽車更方便、更輕松。
另外,一些相機在拍照的時候,在用戶摁下快門到一半的時候,相機就會去找到這個圖像的人臉在什么地方。找到人臉以后把焦點對焦在臉上,使這個圖像能夠讓人更清楚一點。
還有,我們的計算機里面往往會有成千上萬的照片,怎么組織它們,從而用戶快速找到一張照片?如果有這樣的圖像識別系統,我可能會告訴計算機,我要找的照片里有兩個人,這個照片是在頤和園照的。
三、圖像識別的困難在哪里?
圖像識別有很多難點。個困難就是它的視點變化很多。當我們對同樣一個物體拍照的時候,因為視點不同,得到的圖像外觀是不一樣的。所以對同一個物體這樣看或者那樣看,看外觀非常不一樣。但是也許兩個不同的物體,外觀又可能會很相近。所以這是造成圖像識別的一個困難。
第二個難點就是尺度問題。物體在圖像中近大遠小,這給我們做圖像識別會帶來一定的難度。
光影的變化一向是計算機視覺特別關心的一個問題,光影變化是圖像識別的第三個難點。同樣一個人在不同光影下看起來判若兩人。
第四個難點是背景復雜。在復雜背景下,找到某一個人帶著拐杖,找到一個戴帽子的人難度很大。
第五個難點是遮擋。遮擋是計算機視覺特別關心的一個難點。比如說,這個圖片里熙熙攘攘的人中,我們知道這大概是一個女孩:她有棕色的頭發,穿著一個短袖衫。我們人的本領很強,這種情況下還能識別出男女。但是計算機現在還做不到這一點。
第六個難點是變形。非鋼體在運動的時候會產生變形。同樣一匹馬在不同的情況下的圖像表現會非常不一樣。
四、圖像識別的發展歷史
圖像識別剛開始的時候是從單一的物體識別做起。上邊這張圖像展示的是傳統的幾何方法的結果。我們的客觀世界那么復雜、那么多樣,我們該怎么做識別呢?那就先從特別簡單的問題做起。這也是我們做科學研究的一般的方法:從簡單的問題著手。比如從做積木的識別入手。因為積木有很規范的幾種形狀。上圖是識別出的簡單的剃須刀。這些人造的非常規范的幾何體的組合,只要識別出長方形、矩形、正方形、三角形等,就會把剃須刀,工具檢測和識別得非常好。另外一種方法,是根據外觀識別。我不考慮要識別的物體的幾何結構,僅僅看它外觀長什么樣。這里列出的是做人臉檢測的例子。
做人臉識別的研究歷史相對比較長。大概七幾年就開始有這樣的研究工作了。直到現在仍然有很多人臉識別的研究工作發表。
另外一個課題就是手寫數字識別。手寫數字看起來是很簡單的事,但是對手寫數字識別的研究引發出相當多的研究方法,給我們帶來很多的成果,是一個很有意思的課題。此外的課題還有汽車的檢測。我這里只是列了這幾個。其實同時期還有指紋識別、文字識別OCR等、等。當時有的研究工作已經發展到了產品化的程度,包括OCR和指紋識別。
在2000年之前的圖像識別曾經采用過幾何的方法、結構的方法、規則的方法,當然也用了一些比較簡單的模式識別的方法。
在80年代后期、90年代期間,機器學習領域發生了什么?這個時期的機器學習有了一個飛速的發展,出現了一些了不起的研究成果,包括:支持向量機方法,AdaBoosting方法,計算學習理論等。成果出現。這些都使得機器學習和識別大大的往前走。在2002年后的一段時間里,一個華人女科學家,叫李飛飛,開始用一個新的思路做圖像識別。他們希望設計一個統一的框架做圖像識別,而不是就事論事地針對一種圖像識別任務設計一套專門的方法。他們希望這個統一的框架能識別成千上萬種物體。另外,希望機器學習領域的出色成果可以用在圖像識別上。她們還借鑒文本分析里的方法-“詞袋”(bagofwords)的方法用于圖像識別。