近日,電子信息與電氣工程學(xué)院人工智能研究院/計算機系的嚴駿馳副教授和其博士生楊學(xué)(交大學(xué)術(shù)之星提名獲得者)的研究成果《R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object》位居Paper Digest網(wǎng)站評選的AAAI21最具影響力論文榜首。
該研究提出一個(gè)有向目標檢測網(wǎng)絡(luò )—R3Det,有效地解決了定位多角度物體及將物體從背景準確、快速分離的問(wèn)題,能夠很好地運用在文本檢測和遙感目標檢測任務(wù)中。
AAAI
AAAI (The AAAI Conference on Artificial Intelligence) 是人工智能領(lǐng)域頂級國際學(xué)術(shù)會(huì )議之一(2021年錄用率為21.4%,1692/7911)。Paper Digest是由東京工業(yè)大學(xué)的研究人員在2018年開(kāi)發(fā)的一個(gè)基于人工智能技術(shù)的學(xué)術(shù)文章摘要服務(wù)網(wǎng)站,維護著(zhù)世界上最大的科技知識圖譜之一。Paper Digest團隊分析了近三年來(lái)在A(yíng)AAI上發(fā)表的所有論文,并給出每年最具影響力的15篇論文列表,該列表根據研究論文和授權專(zhuān)利的引用自動(dòng)構建,并且經(jīng)常更新以反映最新的變化,是目前最具權威性的榜單之一。
研究概況
目標檢測是計算機視覺(jué)中的基本任務(wù)之一,有向目標檢測是指對給定圖像進(jìn)行準確目標定位并進(jìn)行類(lèi)型識別的任務(wù),常用于車(chē)站/機場(chǎng)/博物館等場(chǎng)景的安檢和人臉身份驗證識別、卡證/文檔上的文字自動(dòng)提取與識別,以及汽車(chē)、行人、交通指示牌等無(wú)人駕駛場(chǎng)景要素的檢測與識別等。然而,由于現實(shí)場(chǎng)景復雜多變,往往難以定位多角度目標,有向目標檢測一直是一項極具挑戰性的任務(wù)。該研究從大長(cháng)寬比、密集排列和尺度變化劇烈的目標入手,提出了一種端到端的級聯(lián)有向目標檢測器—稱(chēng)之為Refined Rotated RetinaNet Detector(R3Det)。R3Det通過(guò)從粗到細的漸進(jìn)回歸方式來(lái)快速準確地檢測目標,并集成了一個(gè)特征精修模塊來(lái)獲取更準確的特征以提高目標檢測性能。
左:R3Det結構圖;右:特征精修模塊
以上示意圖展示了R3Det的整體結構圖以及特征精修模塊的核心是通過(guò)逐像素特征插值將當前精修邊界框的位置信息重新編碼到對應的特征點(diǎn),實(shí)現特征重構和對齊。
有向目標檢測網(wǎng)絡(luò )的提出,為解決有向目標檢測中特征不對齊問(wèn)題提供了創(chuàng )新性思路和方法,研究團隊已在三個(gè)遙感數據集DOTA、HRSC2016、UCAS-AOD以及一個(gè)場(chǎng)景文本數據集ICDAR2015上驗證了所提方法的有效性。在此基礎上,未來(lái)可將其應用到人臉識別、航拍圖像、醫學(xué)圖像、自動(dòng)駕駛等場(chǎng)景中,進(jìn)行更精確的有向目標檢測與分析。
遙感圖像上的檢測效果展示,R3Det可以精準定位機場(chǎng)中方向各異的飛機位置
課題組研究進(jìn)展
近三年來(lái),嚴駿馳副教授的課題組已經(jīng)連續在人工智能頂級會(huì )議ICCV19、ECCV20、AAAI21、CVPR21、ICML21、NeurIPS21、IJCV22上發(fā)表系列有向視覺(jué)目標檢測論文。同時(shí),課題組已發(fā)布兩個(gè)有向目標檢測開(kāi)源框架MMRotate和AlphaRotate,成為有向目標檢測領(lǐng)域最受歡迎的開(kāi)源框架,所開(kāi)源代碼在Github開(kāi)源社區累計star超過(guò)4000次。