技術(shù)
導(dǎo)讀:深度傳遞關(guān)鍵信息——我們將需要深度感測(cè)和2D成像來(lái)捕獲現(xiàn)實(shí)世界的全部信息。
以前,我們一直認(rèn)為傳統(tǒng)相機(jī)將3D世界轉(zhuǎn)換為2D圖像,已可以滿足我們對(duì)于圖像的應(yīng)用,而2D圖像中丟失的三維似乎并不重要。
但隨著計(jì)算機(jī)視覺(jué)(CV)的飛速發(fā)展以及與深度學(xué)習(xí)的結(jié)合,許多雄心勃勃的研究人員試圖使機(jī)器通過(guò)攝像頭更好地了解我們的世界,以便它們可以通過(guò)許多任務(wù)來(lái)增強(qiáng)人類的能力。其中最有意義的是找回2D圖像中丟失的深度信息。
在如今諸多火爆的智能硬件中,如體感交互、遠(yuǎn)程遙控機(jī)器人、無(wú)人駕駛等場(chǎng)景里,CV發(fā)揮著重要作用,成功完成諸如手寫(xiě)識(shí)別,對(duì)象分類、輔助駕駛之類的工作。但是,當(dāng)處理真實(shí)的3D世界時(shí),CV就存在瓶頸。人類有兩只眼睛,使我們能夠自然地感知深度。但是,大多數(shù)CV應(yīng)用程序都依靠一臺(tái)攝像機(jī)來(lái)捕獲和解釋其周圍的環(huán)境。丟失的三維尺寸嚴(yán)重限制了CV的性能,可以說(shuō)傳感器的性能就是如今虛擬與現(xiàn)實(shí)世界之間的瓶頸。
深度傳遞關(guān)鍵信息——我們將需要深度感測(cè)和2D成像來(lái)捕獲現(xiàn)實(shí)世界的全部信息。
深度傳感器的三種技術(shù)
目前人們?nèi)绻胩綔y(cè)環(huán)境深度信息,主要依賴于三種技術(shù),分別是相機(jī)陣列, TOF(time of flight)技術(shù),以及基于結(jié)構(gòu)光的深度探測(cè)技術(shù)。
結(jié)構(gòu)光:
接收器使用激光光源投射目標(biāo)物,檢測(cè)反射目標(biāo)物的變形,以基于幾何形狀計(jì)算深度圖。它必須掃描整個(gè)平面以獲得需要時(shí)間的深度圖,因此它是非常準(zhǔn)確的。但是,此方法對(duì)環(huán)境亮度敏感,因此通常僅在黑暗或室內(nèi)區(qū)域使用。
飛行時(shí)間(ToF):
ToF主要有兩種方法。第一個(gè)很簡(jiǎn)單:激光源發(fā)出一個(gè)脈沖,傳感器檢測(cè)到該脈沖在目標(biāo)物體上的反射,以記錄其飛行時(shí)間。知道了光的恒定速度后,系統(tǒng)可以計(jì)算出目標(biāo)物體的距離。為了確保高精度,脈沖周期必須短,這導(dǎo)致較高的成本。另外,需要高分辨率的時(shí)間數(shù)字轉(zhuǎn)換器,這會(huì)消耗很多功率。這種方法通??梢栽诟咝阅躎oF傳感器中找到。
計(jì)算時(shí)間的另一種方法是發(fā)出調(diào)制光源并檢測(cè)反射光的相位變化。相變可以通過(guò)混合技術(shù)容易地測(cè)量。調(diào)制激光源比發(fā)出短脈沖更容易,并且混合技術(shù)比時(shí)間數(shù)字轉(zhuǎn)換器更易于實(shí)現(xiàn)。此外,LED可用作調(diào)制光源來(lái)代替激光。因此,基于調(diào)制的ToF系統(tǒng)適合于低成本ToF傳感器。
相機(jī)陣列:
攝像頭陣列方法使用放置在不同位置的多個(gè)攝像頭來(lái)捕獲同一目標(biāo)的多個(gè)圖像,并根據(jù)幾何結(jié)構(gòu)計(jì)算深度圖。在計(jì)算機(jī)視覺(jué)中,這也稱為“立體視圖”或“立體”。最簡(jiǎn)單但最受歡迎的相機(jī)陣列是雙相機(jī),其中兩個(gè)相機(jī)相隔一定距離以模仿人眼。對(duì)于空間中的每個(gè)點(diǎn),在兩個(gè)攝像機(jī)圖像中的位置均出現(xiàn)可測(cè)量的差異。然后,通過(guò)基本幾何來(lái)計(jì)算深度。
相機(jī)陣列的主要挑戰(zhàn)是如何在多個(gè)圖像中找到匹配點(diǎn)。匹配點(diǎn)搜索涉及復(fù)雜的CV算法。目前,深度學(xué)習(xí)可以幫助您找到準(zhǔn)確度較高的匹配點(diǎn),但是其計(jì)算成本很高。另外,有很多點(diǎn)很難找到匹配點(diǎn)。例如,在上面的瓦格納雕像的兩個(gè)視圖中,鼻子是最容易匹配的點(diǎn),因?yàn)樗奶卣饕子谔崛『捅容^。但是,對(duì)于面部的其他部分(尤其是面部無(wú)紋理的表面),很難找到匹配點(diǎn)。當(dāng)兩個(gè)相機(jī)圖像的遮擋不同時(shí),匹配會(huì)更加復(fù)雜。目前,相機(jī)陣列作為深度傳感器的魯棒性仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
三種深度感測(cè)技術(shù)的對(duì)比
整體表現(xiàn)
對(duì)于深度感測(cè),最重要的指標(biāo)是深度精度。結(jié)構(gòu)光具有最佳的深度精度性能,而相機(jī)陣列往往具有最大的深度誤差。
就深度感測(cè)范圍而言,結(jié)構(gòu)光的范圍最短,而ToF的范圍取決于光源的發(fā)射功率。例如,智能設(shè)備可能只需要幾米的距離,而自動(dòng)駕駛汽車則需要幾百米。同樣,攝像機(jī)陣列的測(cè)量范圍取決于兩個(gè)攝像機(jī)之間的空間。對(duì)于常規(guī)攝像機(jī)陣列,最佳性能測(cè)量范圍通常在10m左右,盡管也顯示了某些具有極窄空間的特殊攝像機(jī)陣列可以在1m左右測(cè)量深度。
對(duì)于深度圖分辨率,結(jié)構(gòu)光的性能優(yōu)于ToF,因?yàn)榭梢跃_控制結(jié)構(gòu)發(fā)光圖案并精確捕獲其反射圖案。從理論上講,攝像機(jī)陣列具有良好的分辨率,但這是基于兩個(gè)圖像中的完美點(diǎn)匹配。使用非理想的點(diǎn)匹配(如光滑表面)時(shí),分辨率會(huì)降低。
最后,我們需要考慮對(duì)環(huán)境亮度的限制。結(jié)構(gòu)光需要黑暗的環(huán)境,而ToF傳感器由于快速發(fā)展的背景消除技術(shù)而可以承受更大范圍的環(huán)境亮度。對(duì)于攝像機(jī)陣列,明亮的環(huán)境效果最佳。在黑暗的房間中,相機(jī)陣列捕獲的圖像會(huì)變得嘈雜,并且對(duì)比度變差,因此點(diǎn)匹配變得極為困難,從而導(dǎo)致深度估計(jì)不準(zhǔn)確。
成本
攝像機(jī)陣列的成本通常最低,其開(kāi)發(fā)工作主要在軟件方面。雙攝像頭解決方案已經(jīng)廣泛應(yīng)用于許多智能設(shè)備和移動(dòng)電話中。ToF傳感器的成本適中,而結(jié)構(gòu)光的成本最高。但是,隨著ToF的批量生產(chǎn),預(yù)計(jì)其成本在不久的將來(lái)會(huì)大大降低。
可擴(kuò)展性
通過(guò)展望這些技術(shù)的潛力,我們可以更好地利用它們來(lái)滿足未來(lái)的需求。
ToF是半導(dǎo)體技術(shù),并且具有最佳的可伸縮性。它的深度精度可以通過(guò)片上時(shí)間數(shù)字轉(zhuǎn)換器/混合電路進(jìn)行縮放,其深度圖分辨率可以通過(guò)傳感器尺寸進(jìn)行縮放,其測(cè)量范圍可以通過(guò)光源功率/調(diào)制方案進(jìn)行縮放,并且其功耗可以通過(guò)用半導(dǎo)體技術(shù)擴(kuò)展規(guī)模。
另一方面,結(jié)構(gòu)光具有不錯(cuò)的可伸縮性。光學(xué)系統(tǒng)是結(jié)構(gòu)光的關(guān)鍵組成部分,光學(xué)系統(tǒng)可以隨著封裝技術(shù)而擴(kuò)展(盡管不如半導(dǎo)體快)。
最后,縮放攝像機(jī)陣列主要依賴于軟件:我們將需要更好的算法來(lái)縮放其深度感應(yīng)性能。它更像是一個(gè)數(shù)學(xué)問(wèn)題,而不是工程問(wèn)題,而改進(jìn)硬件并沒(méi)有太大幫助。即使使用分辨率更高的相機(jī),點(diǎn)匹配問(wèn)題仍然存在。
資料來(lái)源:德州儀器
建議僅使用結(jié)構(gòu)光來(lái)執(zhí)行生物識(shí)別任務(wù),因?yàn)樗哂凶罴训纳疃染?。游戲?yīng)用需要中等深度分辨率和快速響應(yīng),因此ToF傳感器似乎是最合適的。對(duì)于其他應(yīng)用程序(包括定位,識(shí)別,測(cè)量和增強(qiáng)現(xiàn)實(shí)),所有技術(shù)都可以做到,但是某些技術(shù)比其他技術(shù)更適合特定的應(yīng)用場(chǎng)景。例如,相機(jī)陣列可能最適合在需要深度測(cè)量范圍的開(kāi)放空間中的AR應(yīng)用,而ToF傳感器最適合可以控制環(huán)境亮度的室內(nèi)AR.
深度傳感器的應(yīng)用
1. AR / VR:用于感知真實(shí)的3D環(huán)境并在虛擬世界中重建它們
深度信息對(duì)于VR / AR設(shè)備的人機(jī)交互也是必需的。設(shè)備必須準(zhǔn)確響應(yīng)用戶的3D運(yùn)動(dòng),因此肯定需要高性能的深度傳感器。
例如,谷歌的Project Tango使用深度傳感器來(lái)準(zhǔn)確地測(cè)量實(shí)際環(huán)境,并通知其圖形算法將虛擬內(nèi)容放置在適當(dāng)?shù)奈恢?。與Pokemon Go的AR模式相反,由于算法沒(méi)有環(huán)境深度信息,因此用戶經(jīng)常可以看到Pokemon放置在不正確的位置。
2.機(jī)器人:用于導(dǎo)航,定位,地圖繪制和避免碰撞
許多倉(cāng)庫(kù)已經(jīng)利用了將物品從一個(gè)地方運(yùn)輸?shù)搅硪粋€(gè)地方的全自動(dòng)駕駛汽車。車輛自行行駛的能力需要深度感應(yīng),以便能夠知道它在環(huán)境中的位置,其他重要事物的位置,最重要的是,它如何安全地從A移到B.類似地,任何用于拾取目的依賴于深度感應(yīng)來(lái)了解目標(biāo)對(duì)象在哪里以及如何獲取它。
這些相同的應(yīng)用對(duì)于任何自動(dòng)駕駛汽車的成功都是必不可少的。實(shí)際上,目前無(wú)人駕駛汽車面臨的最重大挑戰(zhàn)之一是為汽車配備精確的深度傳感器和CV系統(tǒng),而不會(huì)大幅增加成本。這仍然是一個(gè)競(jìng)爭(zhēng)激烈的市場(chǎng),許多新創(chuàng)公司都在爭(zhēng)奪領(lǐng)導(dǎo)地位。
3.面部識(shí)別:在防止欺詐的同時(shí)提高便利性
大多數(shù)人臉識(shí)別系統(tǒng)使用2D相機(jī)捕獲照片并將其發(fā)送給算法來(lái)確定人的身份。但是,這存在很大的漏洞:糟糕的演員會(huì)欺騙系統(tǒng),因?yàn)樗麄儫o(wú)法分辨是看到的是真實(shí)的3D面孔還是2D照片。為了使人臉識(shí)別安全,必須使用具有深度感應(yīng)功能的3D相機(jī)。
除了阻止漏洞外,3D人臉建模還可以傳達(dá)人臉的更多特征,以實(shí)現(xiàn)更準(zhǔn)確的識(shí)別。
4.手勢(shì)和接近檢測(cè):用于游戲,安全性等
飛行時(shí)間(ToF)深度傳感器已被許多設(shè)備用于這些目的。在簡(jiǎn)單的實(shí)現(xiàn)方式中,深度傳感器僅需要檢測(cè)一個(gè)點(diǎn)的深度信息,例如用于手勢(shì)檢測(cè)的手或用于接近度檢測(cè)的臉部。因此,具有簡(jiǎn)單的光學(xué)器件(和較窄的視場(chǎng))的深度傳感系統(tǒng)就足夠了。隨著手勢(shì)檢測(cè)的發(fā)展,使用了更復(fù)雜的深度感應(yīng)系統(tǒng),例如Microsoft的Kinect.
深度傳感器的創(chuàng)業(yè)機(jī)會(huì)
在未來(lái)幾年中,深度感應(yīng)將成為一個(gè)巨大的市場(chǎng)。當(dāng)前,深度感測(cè)中的許多技術(shù)仍有很大的改進(jìn)空間,這可能是技術(shù)初創(chuàng)公司的機(jī)會(huì)。此外,初創(chuàng)公司可以嘗試將當(dāng)前的深度感應(yīng)技術(shù)用于新興應(yīng)用。
深度感測(cè)技術(shù)與CV應(yīng)用程序的結(jié)合
深度感測(cè)系統(tǒng)可以與當(dāng)前的計(jì)算機(jī)視覺(jué)應(yīng)用程序結(jié)合使用,以大大提高其性能并滿足實(shí)際部署的需求。這也有助于減輕極端情況的影響-2D中的許多極端情況實(shí)際上可能是3D世界中的正常情況!結(jié)果,深度感測(cè)可以使CV算法執(zhí)行我們生活中更重要的事情,其中一些甚至可以是破壞性的創(chuàng)新,從而創(chuàng)造更多的市場(chǎng),例如面部識(shí)別。
ToF傳感器——以合理的價(jià)格使用脈沖激光
當(dāng)前,用于移動(dòng)設(shè)備的ToF傳感器通常使用低成本的基于調(diào)制的光源。如前所述,基于調(diào)制的光源具有范圍模糊性,并且其性能通常不如脈沖激光器。脈沖激光器已經(jīng)成功地用于LiDAR中,但其成本,功耗和尺寸仍然不適用于移動(dòng)設(shè)備。
但是,LiDAR中的激光源最近發(fā)展很快。初創(chuàng)企業(yè)有可能將脈沖激光引入用于深度動(dòng)態(tài),性能至關(guān)重要的系統(tǒng)的移動(dòng)式ToF傳感器中,例如針對(duì)面向業(yè)務(wù)的電子市場(chǎng)領(lǐng)域的AR和VR.這些應(yīng)用程序還可以提供很高的利潤(rùn)率,對(duì)于初創(chuàng)企業(yè)來(lái)說(shuō)是一個(gè)理想的機(jī)會(huì)。
ToF傳感器——改善LED性能
ToF傳感器的另一端是對(duì)成本敏感的應(yīng)用程序,例如IoT.對(duì)于低成本設(shè)備,激光仍然太昂貴。LED可以在ToF傳感器中用于低成本應(yīng)用,但性能會(huì)下降。ToF傳感器的LED性能問(wèn)題可以在設(shè)備或系統(tǒng)級(jí)別解決。通過(guò)該裝置,可以使用具有更高調(diào)制頻率容量的新型LED.通過(guò)改進(jìn)系統(tǒng)的模擬信號(hào)處理電路,重新配置系統(tǒng)(即使用LED陣列并組合結(jié)果)或通過(guò)實(shí)施一種新的深度評(píng)估算法。
ToF和結(jié)構(gòu)光——提高亮度容限
環(huán)境亮度是ToF和結(jié)構(gòu)光深度傳感器的瓶頸。為了忍受來(lái)自環(huán)境的更多光,已經(jīng)提出了幾種背景消除技術(shù)。例如,在意法半導(dǎo)體(STMicroelectronics)生產(chǎn)的ToF傳感器芯片中,還集成了環(huán)境光傳感器和深度傳感器像素,以估算來(lái)自環(huán)境光的干擾。其他一些公司也提出了信號(hào)處理(模擬和數(shù)字)中的背景消除算法。
但是這些解決方案并不完美。為ToF和結(jié)構(gòu)光提供更好的背景消除仍然是深度傳感技術(shù)中的一個(gè)懸而未決的問(wèn)題。如果初創(chuàng)公司可以解決這個(gè)問(wèn)題,那么它的價(jià)值將是巨大的,特別是對(duì)于背景消除而言,可以使結(jié)構(gòu)的光深度感應(yīng)系統(tǒng)在明亮的環(huán)境中工作。
攝像頭陣列與ToF結(jié)合使用可實(shí)現(xiàn)高分辨率
盡管ToF傳感器的分辨率較低,但相機(jī)陣列的分辨率較高,但存在匹配問(wèn)題。但是,智能設(shè)備完全可能同時(shí)包含攝像頭陣列和ToF傳感器。相機(jī)陣列還可以用于深度感應(yīng)以外的應(yīng)用程序,例如智能對(duì)焦??赡軙?huì)合并來(lái)自攝像機(jī)陣列和ToF傳感器的信息,從而以高分辨率和良好的深度精度計(jì)算深度圖。該深度傳感系統(tǒng)的總成本甚至可能低于具有更高分辨率的ToF傳感器。
這些只是帶有深度傳感器的新型計(jì)算機(jī)視覺(jué)應(yīng)用的眾多未來(lái)機(jī)會(huì)中的少數(shù)。到目前為止,絕大多數(shù)計(jì)算機(jī)視覺(jué)應(yīng)用程序都涉及通過(guò)攝像機(jī)解釋2D世界。借助深度傳感器,我們?yōu)橛?jì)算機(jī)提供了整個(gè)數(shù)據(jù)范圍,極大地?cái)U(kuò)展了計(jì)算機(jī)能夠執(zhí)行的功能的可能性。