麻省理工學(xué)院最新的計(jì)算機(jī)視覺(jué)算法可識(shí)別精確到像素的圖像
對(duì)于人類來(lái)說(shuō),識(shí)別一個(gè)場(chǎng)景中的物品是非常簡(jiǎn)單的一件事。但是對(duì)于人工智能和計(jì)算機(jī)視覺(jué)系統(tǒng)來(lái)說(shuō),發(fā)展對(duì)其周圍環(huán)境的高保真理解需要更多的努力,如果我們說(shuō)得具體一點(diǎn),大約需要800小時(shí)的手工標(biāo)記訓(xùn)練圖像的努力。為了幫助機(jī)器更好地看到人的方式,麻省理工學(xué)院CSAIL的一個(gè)研究小組與康奈爾大學(xué)和微軟合作,開發(fā)了STEGO,一種能夠識(shí)別圖像到單個(gè)像素的算法。
訪問(wèn):
VIP會(huì)員買1得5:贈(zèng)愛(ài)奇藝半年卡、京東Plus、百度網(wǎng)盤、叮咚買菜
通常情況下,創(chuàng)建CV訓(xùn)練數(shù)據(jù)需要人類在圖像中的特定對(duì)象周圍畫上方框--比如,在坐在一片草地上的狗周圍畫上方框--并給這些方框貼上里面的東西("狗"),這樣,在上面訓(xùn)練的AI就能把狗和草地區(qū)分開來(lái)。相反,STEGO(基于能量的圖譜優(yōu)化的自我監(jiān)督轉(zhuǎn)化器)使用一種被稱為語(yǔ)義分割的技術(shù),它將類別標(biāo)簽應(yīng)用于圖像中的每個(gè)像素,使人工智能對(duì)其周圍的世界有一個(gè)更準(zhǔn)確的看法。
一個(gè)有標(biāo)簽的盒子會(huì)把物體加上周圍像素中的其他項(xiàng)目放在盒子的邊界內(nèi),而語(yǔ)義分割給物體中的每個(gè)像素都貼上標(biāo)簽,但只有構(gòu)成物體的像素--你只得到狗的像素,而不是狗的像素加上一些草。這是機(jī)器學(xué)習(xí),相當(dāng)于在Photoshop中使用智能套索與矩形劃線工具。
這種技術(shù)的問(wèn)題主要出現(xiàn)在范圍上,傳統(tǒng)的多鏡頭監(jiān)督系統(tǒng)通常需要數(shù)千,甚至數(shù)十萬(wàn)的標(biāo)記圖像來(lái)訓(xùn)練算法。乘以組成256x256的單一圖像的65536個(gè)單獨(dú)的像素,所有這些像素現(xiàn)在也需要被單獨(dú)標(biāo)記,所需的工作量迅速上升到不可能完成。
相反,"STEGO尋找在整個(gè)數(shù)據(jù)集中出現(xiàn)的類似物體,"CSAIL團(tuán)隊(duì)在周四的一份新聞稿中寫道。"然后它將這些類似的物體聯(lián)系在一起,在它所學(xué)習(xí)的所有圖像中構(gòu)建一個(gè)一致的世界觀。
"如果你在看腫瘤掃描、行星表面或高分辨率的生物圖像,如果沒(méi)有專家知識(shí),你很難知道要尋找什么對(duì)象。在新興領(lǐng)域,有時(shí)甚至人類專家也不知道正確的對(duì)象應(yīng)該是什么,"麻省理工學(xué)院CSAIL博士生,微軟軟件工程師,以及論文的主要作者馬克-漢密爾頓說(shuō)。"在這些類型的情況下,需要設(shè)計(jì)一種方法在科學(xué)的邊界上運(yùn)作,尤其是不能依靠人類在機(jī)器之前弄清楚的情況下。"
研究人員在各種各樣的圖像領(lǐng)域--從家庭內(nèi)部到高空航拍--上進(jìn)行了訓(xùn)練,結(jié)果顯示STEGO的性能是以前語(yǔ)義分割方案的兩倍,并且與人類控制的圖像評(píng)估密切相關(guān)。更重要的是,"當(dāng)應(yīng)用于無(wú)人駕駛汽車數(shù)據(jù)集時(shí),STEGO成功地分割出了道路、人和街道標(biāo)志,其分辨率和顆粒度比以前的系統(tǒng)高得多。"麻省理工學(xué)院CSAIL團(tuán)隊(duì)寫道:"在來(lái)自太空的圖像上,該系統(tǒng)將地球表面的每一平方英尺都分解為道路、植被和建筑物。"
"在制作一個(gè)理解潛在的復(fù)雜數(shù)據(jù)集的通用工具時(shí),我們希望這種類型的算法能夠使從圖像中發(fā)現(xiàn)物體的科學(xué)過(guò)程自動(dòng)化,"漢密爾頓說(shuō)。"有很多不同的領(lǐng)域,在這些領(lǐng)域中,人類的標(biāo)簽將是非常昂貴的,或者人類甚至根本不知道具體的結(jié)構(gòu),比如在某些生物和天體物理領(lǐng)域。我們希望未來(lái)的工作能夠應(yīng)用于非常廣泛的數(shù)據(jù)集。由于你不需要任何人類標(biāo)簽,我們現(xiàn)在可以開始更廣泛地應(yīng)用ML工具。"
盡管其性能優(yōu)于之前的系統(tǒng),但STEGO也有其局限性。例如,它可以將意大利面和玉米糝都識(shí)別為"食品",但不能很好地區(qū)分它們。它還會(huì)被一些無(wú)意義的圖像所迷惑,比如說(shuō)坐在電話聽(tīng)筒上的一根香蕉。這是一種食品還是生活用品?STEGO無(wú)法分辨。該團(tuán)隊(duì)希望在未來(lái)的迭代中建立更多的靈活性,使該系統(tǒng)能夠識(shí)別多個(gè)類別的物體。
關(guān)鍵詞: 人工智能 麻省理工學(xué)院最新的計(jì)算機(jī)視覺(jué)算法可識(shí)別精
相關(guān)新聞