3D視覺技術(shù)的發(fā)展
近年來,隨著芯片技術(shù)的發(fā)展以及相關(guān)軟硬件系統(tǒng)的深入,視覺傳感器得到了極為廣泛的應(yīng)用。社會(huì)越來越智能,可以使用人工智能和大數(shù)據(jù)技術(shù)將人們記錄下來的圖像智能地利用起來,而不是用一個(gè)個(gè)柜子將圖像、視頻束之高閣。
從膠卷,到CCD 再到現(xiàn)在特別成熟、隨處可見的CMOS,我們對圖像傳感器的性能追求也逐漸發(fā)生了改變。shou機(jī)上開始出現(xiàn)前攝、后攝,后攝也出現(xiàn)了俗稱的“浴霸”、“加特林”。在算法的加持下,每顆攝像頭的用處都不一樣。
而18、19年將是3D圖像傳感器起飛與騰飛的兩年。有了3D傳感器,我們就更容易做基于事件的分析并直接指導(dǎo)我們身邊圖像的優(yōu)化做出體感游xi、人臉支付、機(jī)器人自動(dòng)避障、工業(yè)自動(dòng)分揀等應(yīng)用。
2016年,AlphaGo成為個(gè)不借助讓子而擊敗圍棋職業(yè)九段棋手李世石的計(jì)算機(jī)圍棋程序,這件事引起了人類的轟動(dòng),也展開了各種討論。隨之而來的是人工智能鋪天蓋地的宣傳,這給了無數(shù)人信心,機(jī)器智能化的大浪潮撲面而來。
現(xiàn)在AI是一個(gè)很火的詞。很多人都想做AI,也有很多人想往AI上面靠,AI的出現(xiàn)就相當(dāng)于我們有了一個(gè)聰明的大腦。以前的處理器,只能處理一個(gè)特定場景的問題,AI給這個(gè)世界帶來了可以自我學(xué)習(xí)、自我改進(jìn)的功能,特別是對復(fù)雜場景的處理,AI更“聰明”。
可是只有AI,自動(dòng)駕駛也做不起來,它還需要攝像頭、激光雷達(dá)、毫米波雷達(dá)等各類傳感器。
人臉識別也是非常好的一項(xiàng)技術(shù),可以用來做人臉識別閘機(jī)、人臉無感支付,但是現(xiàn)在很多時(shí)候人臉識別還是容易受到環(huán)境干擾、hei客攻擊。
所以,想把AI做好,傳感器對我們進(jìn)入智能時(shí)代至關(guān)重要。有了3D傳感器,掃地機(jī)不會(huì)跌跌撞撞,僅憑一張照片一個(gè)視頻也騙不開shou機(jī)解鎖,自動(dòng)駕駛也能檢測到來往行人、車輛,變得更安全。
3D傳感器在AI幾乎所有的領(lǐng)域都有廣泛的應(yīng)用,比如新零售,自動(dòng)駕駛,個(gè)性化教育,智慧醫(yī)療,智能安防,智能監(jiān)護(hù),智能機(jī)器人等等。 2019年,我們也將迎來3D視覺技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用。
1、 雙目視覺
談到3D視覺,主要就是指圖像不僅僅是二維的XY坐標(biāo),還要感受被拍照物體的距離遠(yuǎn)近,大小尺寸,也就是空間坐標(biāo)Z。
我們?nèi)丝恐笥覂芍谎劭梢怨烙?jì)出前方的門在3m處,桌子上的茶杯在1.5m處,遠(yuǎn)處的樹大概在10m。仿生學(xué)是被應(yīng)用得非常好的,通過兩只攝像頭,無人機(jī)可以分辨前方障礙物一根電線桿的距離。因?yàn)樵谒淖笱壑?,物體坐標(biāo)為A,相應(yīng)的視場角度α, 右眼坐標(biāo)為B,相應(yīng)的視場角度β,而基線距離x是早先就在機(jī)械結(jié)構(gòu)上確定的。這樣通過下面的公式,我們就可以得到空間點(diǎn)的z軸距離。
這個(gè)方法已經(jīng)沿用了很多年,從技術(shù)上來說,視野里面所有的點(diǎn)都不可靠了,不能確定左右眼中的兩個(gè)點(diǎn)是不是同一個(gè)點(diǎn)。它的優(yōu)點(diǎn)就是觀測距離遠(yuǎn),精度高,成本相對較低。缺點(diǎn)就是面對單一場景,例如一面白墻,波動(dòng)的水面,皚皚的白雪,綠油油的草地,我們?nèi)硕紩?huì)失去參考點(diǎn),這時(shí)候無人機(jī)或處理器就無法計(jì)算出深度。
這也就是為什么雙目攝像頭鮮少應(yīng)用在shou機(jī)、人臉識別、人臉解鎖等方面。
另外一個(gè)問題是,如果我們要將物體表面做一個(gè)高分辨率深度探測,那么處理器先要做多點(diǎn)的圖像數(shù)據(jù)匹配,這個(gè)匹配算法的算力要求就超乎一般人想象,然后再執(zhí)行圖中公式的計(jì)算,而這個(gè)運(yùn)算是三角函數(shù)級別,比較復(fù)雜。可以想象如果需要將人臉表面做1000個(gè)點(diǎn)的深度信息建模,那么所需要的運(yùn)算量是多么的復(fù)雜。
2、結(jié)構(gòu)光
2017年iPhone X面世,它采用3D結(jié)構(gòu)光的方式,將我們?nèi)四樀?D數(shù)據(jù)測算出來,又一次了技術(shù)潮流。
對于結(jié)構(gòu)光,其實(shí)也是一個(gè)很古老的技術(shù),只不過蘋果可以把它做到shou機(jī)里面,還是比較讓大家吃驚的。
左圖是一個(gè)3d結(jié)構(gòu)光的簡單實(shí)驗(yàn)版。通過右邊的投影儀可以投影出黑白相間的條紋狀圖案,打在一個(gè)狐貍面具上面這些條紋狀的圖案就會(huì)產(chǎn)生一定的畸變。通過CCD相機(jī)將這個(gè)畸變的形狀拍下來之后,便可以通過這個(gè)畸變的狀態(tài),去計(jì)算出這個(gè)面具相應(yīng)的凹凸不平的3D信息。比如條紋向左彎曲,就代表凸起,向右彎曲代表凹陷。
單點(diǎn)結(jié)構(gòu)光的三角測距法基本原理如右圖,激光光源打出一個(gè)很小很亮的紅點(diǎn),傳感器接收到之后,就可以在sensor表面找到這個(gè)特別亮的點(diǎn)的坐標(biāo)(x’,y’)。結(jié)合光源的投影角,基線距離b,鏡頭焦距f,就可以通過上面的公式解析出三軸坐標(biāo)(x,y,z)了。
而IPHONE X使用了3萬個(gè)點(diǎn)的投射器,然后通過一百四十萬像素的紅外攝像頭,將這些投射點(diǎn)的信息全部都采集回來,這中間一個(gè)復(fù)雜的問題,就是要將這3萬個(gè)點(diǎn)每一個(gè)點(diǎn)匹配。這里面難的就是要找到打在臉上的點(diǎn)的ID,也就是得知道打出點(diǎn)的投射角,基線距離。這個(gè)匹配算法是需要非常大量的計(jì)算的。而且為了降低計(jì)算量,這3萬個(gè)點(diǎn)的排布在我們看來是隨機(jī)的,實(shí)際是符合某種數(shù)學(xué)幾何規(guī)律的。
可以看到這個(gè)計(jì)算公式里面包含了各項(xiàng)幾何參數(shù),所以對組裝工藝要求很高,而且后期客戶將shou機(jī)摔倒了或者震動(dòng),都可能會(huì)影響3D測量精度。
另外這塊由于專li的保護(hù),別人很難進(jìn)入。所以業(yè)內(nèi)對于蘋果能推出這個(gè)方案,還是很佩服的,蘋果還是具備相當(dāng)強(qiáng)大的工程能力。因?yàn)镮PHONE X的利潤率不錯(cuò),蘋果可以做這塊的事情。而別的廠商做這個(gè)就挺痛苦的,受限于成本和技術(shù)難度。
來源:光電微課堂