別被2D的背景虛化給騙了
3維視覺(jué)相比于2維視覺(jué),多了一個(gè)維度,可以實(shí)現更加正確的物體分割,合適精度的三維測量,三維數據的模型重建以及智能視覺(jué)識別和分析。上海圖漾信息科技有限公司徐韜解析, 2維圖像在復雜場(chǎng)景下由于缺少深度的信息無(wú)法正確分割物體。
一個(gè)例子是,以前榮耀出過(guò)一款雙攝像頭的手機,但并非用來(lái)做深度,僅是兩個(gè)不同攝像頭的集合,然后進(jìn)行圖像優(yōu)化,效果是要把背景虛化,但這個(gè)其實(shí)是假的。它只是把背景模糊了一下,靠猜測背景和人是不一樣的物體,這個(gè)和深度沒(méi)有關(guān)系,也就是說(shuō)還只是通過(guò)2D處理實(shí)現背景虛化,并非真正的3D。而目前智能視覺(jué)識別和分析大部分也仍用2D來(lái)做。
用3D做出的分割,去除背景和多物體分割都更精準?,F在許多創(chuàng )業(yè)公司會(huì )利用微軟kinect進(jìn)行現場(chǎng)3D建模。同時(shí)利用3D圖像進(jìn)行面部識別的準確度更高。以上種種可以看出,3D視覺(jué)的確擁有巨大的優(yōu)勢。
3D傳感器市場(chǎng)格局
之所以3D視覺(jué)還沒(méi)有普及,因其技術(shù)不成熟且供應商僅少數幾家企業(yè)。徐韜說(shuō),3D圖像是在2D圖像的基礎上通過(guò)顏色渲染每一個(gè)點(diǎn)來(lái)代表不同的深度,深度圖相對傳統的平面圖還有很大的提高空間。此外,由于多了一維,其數據處理卻不只多一個(gè)數量級。在人工智能方面,如果用三維做分析,算法與計算量會(huì )有顯著(zhù)的增長(cháng),這就需要有新的處理方法來(lái)應對,在目前大部分還在用二維圖形做處理的情形下,這也是一個(gè)挑戰。
深度攝像頭的三種主要技術(shù)方法和代表公司分別為:一是單目結構光,代表公司有蘋(píng)果(收購最大的結構光技術(shù)公司PrimeSense)、微軟Kinect-1、英特爾RealSense、Google Project Tango等,目前可見(jiàn)的其他創(chuàng )業(yè)公司幾乎都沿用此技術(shù)路線(xiàn)。二是雙目可見(jiàn)光,代表公司LeapMotion。三是飛行時(shí)間法(TOF),代表公司微軟Kinect-2。
在國內,單目結構光供應商有奧比中光科技、華捷艾米軟件,雙目結構光方案有圖漾科技,TOF方案的有樂(lè )行天下科技。此外,有兩家上市公司也開(kāi)始了內部研發(fā)項目。不過(guò),徐韜表示圖漾的3D傳感器技術(shù)更像是單目結構光和雙目可見(jiàn)光兩種技術(shù)的結合,可獲得更高的圖像質(zhì)量,并且應用場(chǎng)景更廣,同時(shí)知識產(chǎn)權更加干凈。
“在光線(xiàn)不好的情況下,傳統的單路結構光會(huì )有很大的問(wèn)題,無(wú)法識別或者失效。而我們的產(chǎn)品可靠性更高,這一點(diǎn)在行業(yè)應用中占有優(yōu)勢。因為許多特定的行業(yè)對產(chǎn)品的可靠性要求非常高,有些競品在多設備情況下存在互相干擾無(wú)法協(xié)同,而我們在多設備條件下能夠協(xié)高工作。” 徐韜說(shuō)道。最早是一些以色列的創(chuàng )業(yè)公司進(jìn)行深度攝像頭的研發(fā),現在這些公司幾乎都被科技界巨頭收購。比如蘋(píng)果收購PrineSense,這家公司是深度攝像頭的民用化先鋒。收購后,不再對外供貨。微軟使用PrineSense技術(shù)做出了Kinect一代,Kinect-2采用內部開(kāi)發(fā)技術(shù),趨于封閉生態(tài)。谷歌則不會(huì )成為一項產(chǎn)品或技術(shù)的供應商,而在于推動(dòng)應用開(kāi)發(fā)。同樣Intel力推Realsense方案需搭配X86芯片使用??梢哉f(shuō)巨頭的深度攝像頭都有為己所用的形態(tài)。徐韜認為,這種現狀留給了深度攝像頭創(chuàng )新型公司更大的市場(chǎng)空間,尤其在行業(yè)應用方面。
有望取代激光雷達 引發(fā)機器人及VR內容應用革命
深度攝像頭最知名的消費級應用是體感攝像頭,如微軟XBOX游戲機的體感攝像頭Kinect。微軟的HOLOLENSE也大量采用了深度攝像頭。深度攝像頭最熱的領(lǐng)域是機器人,自動(dòng)駕駛,AR/VR,智能安防,智能家居,消費娛樂(lè )等,它們對深度攝像頭有著(zhù)非常巨大的需求。例如VR配備手勢識別和動(dòng)作識別時(shí)用視覺(jué)做更多的捕捉,而AR對深度攝像頭的需求更大,因為要感知環(huán)境,與真實(shí)環(huán)境融合。聯(lián)想TANGO手機用深度攝像頭做AR應用,據悉已在小批量發(fā)貨,主打行業(yè)應用。
未來(lái),可以利用深度攝像頭直接生成內容,無(wú)需其他處理或用電腦生成。這充分解決了現在缺少優(yōu)質(zhì)VR內容的短板,將帶來(lái)民眾直接拍攝的VR內容的激增。智能安防領(lǐng)域,通過(guò)智能攝像頭分析人的行為是否在有潛在危害,在金融行業(yè)頗有用途,但對算法要求非常高,到目前為止,還沒(méi)有非常好的產(chǎn)品出現。
另外,用來(lái)做視覺(jué)導航在目前大熱的領(lǐng)域包括機器人、無(wú)人機以及其他移動(dòng)的場(chǎng)景,這是消費剛需。徐韜認為,現在機器人用激光雷達進(jìn)行視覺(jué)導航,存在價(jià)格昂貴,信息缺失的問(wèn)題。因為它只是在面上作掃描,獲得的信息并不完整,導航作用有限。深度攝像頭做視覺(jué)導航,被普遍認為是行業(yè)的發(fā)展方向。據介紹,目前已經(jīng)有具備一定技術(shù)研發(fā)能力的機器人公司開(kāi)始用圖漾的3D傳感器做視覺(jué)導航。
機器人的導航主要有無(wú)線(xiàn)定位、激光雷達、視覺(jué)導航、慣性導航以及超聲波等方式。隨著(zhù)3D傳感器的發(fā)展,視覺(jué)導航有望成為最主流的方式。“我認為視覺(jué)導航是終結且最好的解決方法,但目前深度攝像頭還不成熟,因此激光雷達還有一定的空間,一旦3D傳感器技術(shù)成熟,那么激光雷達在機器人導航領(lǐng)域可能被秒殺。”
再看看各方的動(dòng)作,Intel正在推動(dòng)深度攝像頭在電腦中的普及,Google正在嘗試深度攝像頭與平板的結合。此外手機公司對深度攝像頭小型化開(kāi)始關(guān)注,創(chuàng )業(yè)公司則投入在硬件與移動(dòng)設備的結合,利用深度測量能力的應用開(kāi)發(fā)的創(chuàng )新。
深度攝像頭是技術(shù)門(mén)檻非常高的行業(yè),徐韜表示圖漾在掌握自有技術(shù)的同時(shí),定位在專(zhuān)業(yè)的深度攝像頭供應商,針對不同行業(yè)推出不同版本,提供完整的技術(shù)支持做定制化方案。由于具備了一定的優(yōu)勢,也受到了資本市場(chǎng)的認可。隨著(zhù)巨頭的積極布局以及技術(shù)的逐漸成熟,還有3-5年的技術(shù)爆發(fā)期,目前是一個(gè)很好的時(shí)間窗口。