我們生活在一個(gè)三維的世界中,三維信息對于我們的感知和理解這個(gè)世界至關(guān)重要。從二維顯示中獲得深度信息可以更好地實(shí)現人機交互;獲取和處理實(shí)時(shí)三維路況信息是自動(dòng)駕駛技術(shù)的關(guān)鍵;醫生在手術(shù)場(chǎng)景中獲取三維信息可以更精確地識別和處理病灶位置……獲取、恢復和重建三維信息,是計算機視覺(jué)領(lǐng)域的核心研究?jì)热?,在工業(yè)、娛樂(lè )、教育、醫療等領(lǐng)域有著(zhù)廣泛應用前景。
兩視圖幾何是三維重建的基礎。在兩幅相關(guān)圖片中找到對應于同一三維點(diǎn)的二維特征點(diǎn),即建立匹配關(guān)系,可以計算出位姿變換和三維點(diǎn)坐標,這是許多三維重建任務(wù)的基礎步驟,比如運動(dòng)恢復結構(structure from motion, SFM),同時(shí)定位與地圖構建(simultaneous localization and mapping,SLAM)等。一般通過(guò)對提取到的特征點(diǎn)建立描述符,然后根據最近鄰關(guān)系進(jìn)行初步匹配。這樣得到的匹配關(guān)系存在大量的誤匹配(可能高達95%),因此需要識別并剔除錯誤匹配(outlier rejection)。傳統的方法是基于隨機一致性采樣(RANSAC),但是在視角變換大、亮度變換劇烈、存在遮擋等情況中無(wú)法取得滿(mǎn)意效果。因此,如何更好地識別和剔除誤匹配成為了三維重建中的瓶頸任務(wù)。
近日,清華大學(xué)醫學(xué)院生物醫學(xué)工程系廖洪恩教授課題組的學(xué)術(shù)論文“OANet:基于層次結構的圖神經(jīng)網(wǎng)絡(luò )來(lái)學(xué)習兩視圖幾何匹配關(guān)系建立”(OANet: Learning Two-View Correspondences and Geometry Using Order-Aware Network)被國際電氣電子工程師學(xué)會(huì )-模式分析與機器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI)出版,刊登在2022年第44期第6卷。該研究通過(guò)設計一個(gè)新的圖神經(jīng)網(wǎng)絡(luò )結構,對兩視圖的初步匹配關(guān)系進(jìn)行誤匹配識別和剔除,取得了很好的結果,極大提升了三維重建任務(wù)的效果。IEEE TPAMI是人工智能領(lǐng)域公認的知名期刊之一,也是中國計算機學(xué)會(huì )認定的人工智能領(lǐng)域A類(lèi)期刊之一。
圖1. 本研究提出的OA-Net網(wǎng)絡(luò )結構
廖洪恩課題組提出了一種新的神經(jīng)網(wǎng)絡(luò )結構OANet(Order-Aware Network,圖1)實(shí)現了對誤匹配的高效識別和剔除。該網(wǎng)絡(luò )以初始建立的匹配點(diǎn)對為輸入,輸出每對點(diǎn)對是正確匹配的概率。由于輸入點(diǎn)對沒(méi)有順序關(guān)系,無(wú)法應用卷積神經(jīng)網(wǎng)絡(luò ),本研究從圖卷積中的池化操作得到啟發(fā),以多層神經(jīng)網(wǎng)絡(luò )為基本結構,設計了差異化池化層(Differentiable Pooling layer)模塊(圖2左),通過(guò)訓練得到一個(gè)分配矩陣(assignment matrix),將該矩陣和輸入點(diǎn)對矩陣相乘,實(shí)現對輸入點(diǎn)對的聚類(lèi)(cluster)。文中證明,這樣得到的聚類(lèi)是輸入不變的(permutation-equivariant),即無(wú)論輸入點(diǎn)對是以什么順序進(jìn)入網(wǎng)絡(luò ),得到的聚類(lèi)順序是不變的,這樣通過(guò)網(wǎng)絡(luò )學(xué)習到了輸入點(diǎn)對的內在結構。為了使得網(wǎng)絡(luò )能對每個(gè)輸入點(diǎn)對都進(jìn)行分類(lèi),又設計了差異化反池化層(Differentiable Unpooling Layer)模塊(圖2右),通過(guò)學(xué)習到一個(gè)反池化分配矩陣(unpooling assignment matrix),將聚類(lèi)反投影成為與輸入點(diǎn)對一一對應的輸出結構。利用新的池化和反池化操作,可以構建層次化的圖神經(jīng)網(wǎng)絡(luò ),從而極大地提升了基于多層神經(jīng)網(wǎng)絡(luò )的圖神經(jīng)網(wǎng)絡(luò )的表達能力,并保持了O(N)的復雜度。網(wǎng)絡(luò )最終為每個(gè)輸入點(diǎn)對都被分配了一個(gè)概率,表示是否為正確匹配,以這個(gè)概率加權的八點(diǎn)法得到的兩視圖基本矩陣作為損失函數對網(wǎng)絡(luò )進(jìn)行訓練。在應用階段,剔除掉低概率的點(diǎn)對,就能實(shí)現對匹配的識別和過(guò)濾。
圖2. 左:差異化池化層(Differentiable Pooling layer)模塊;右:差異化反池化層(Differentiable Unpooling Layer)模塊
本研究使用該網(wǎng)絡(luò )結構在多個(gè)任務(wù)中進(jìn)行了實(shí)驗,包括室內室外數據集上的位姿估計任務(wù)、運動(dòng)恢復結構任務(wù)、視覺(jué)定位任務(wù),都極大提升了重建精度,并超越了同時(shí)期其他算(圖3)法。相關(guān)的研究方法曾在IEEE國際計算機視覺(jué)與模式識別會(huì )議(CVPR 2019)圖像匹配比賽中取得了第一名,并在視覺(jué)定位任務(wù)中也取得了最優(yōu)(state-of-the-art)。本研究提出的網(wǎng)絡(luò )結構通用性好,對特征點(diǎn)提取等步驟沒(méi)有限制。匹配點(diǎn)對的內在結構和是否是正確匹配由網(wǎng)絡(luò )訓練得到,無(wú)需人工定義,可以非常方便地在特定任務(wù)中“即插即用”(Plug-and-Play)。本研究還對網(wǎng)絡(luò )的泛化性進(jìn)行了實(shí)驗,結果表明提出的網(wǎng)絡(luò )泛化性好,有遷移到其他非自然圖像場(chǎng)景的應用潛力。
圖3. 在室內室外位姿估計任務(wù)中和其他方法對比,最下一行是本研究提出的方法
清華大學(xué)醫學(xué)院教授廖洪恩是該研究的通訊作者,2020屆博士畢業(yè)生張家輝為該研究的第一作者。該研究得到國家自然科學(xué)基金項目國家重大科研儀器研制項目、國家重點(diǎn)研發(fā)計劃重點(diǎn)專(zhuān)項、北京市自然科學(xué)基金等項目支持。
廖洪恩課題組長(cháng)期致力于三維醫學(xué)影像和微創(chuàng )精準診療的研究,依據臨床手術(shù)過(guò)程中的實(shí)時(shí)信息指引,以實(shí)施精密治療從而提高治愈率和患者的生存質(zhì)量(Quality of Life)為目的,致力于創(chuàng )建和推廣一種以增強現實(shí)醫學(xué)影像顯示技術(shù)和智能微創(chuàng )器械為診斷和治療平臺的精準微創(chuàng )診療一體化模式。課題組先后提出了基于術(shù)前術(shù)中多模態(tài)信息融合分析實(shí)時(shí)診療引導、智能型微創(chuàng )手術(shù)機器人輔助精準診療等理論與系統,為針對復雜外科疾病的跨尺度多模態(tài)成像引導智能化診療理論的建立奠定了堅實(shí)的基礎,相關(guān)研究被國際知名學(xué)術(shù)期刊《醫學(xué)影像分析》(Medical Image Analysis)、《IEEE醫學(xué)影像匯刊》(IEEE Transaction on Medical Imaging)、《柔性機器人技術(shù)》(Soft Robotics)、《診療》(Theranostics)等報道。