來(lái)自英國(guó)劍橋大學(xué)、印度國(guó)家技術(shù)研究院和印度科學(xué)理工學(xué)院的研究人員研發(fā)了一種利用無(wú)人機(jī)的“暴力行為”檢測(cè)系統(tǒng),能夠識(shí)別人群中踢打、刺傷或掐脖子等暴力動(dòng)作,準(zhǔn)確率達(dá)到85%以上。研究人員稱(chēng),該系統(tǒng)可用于在馬拉松和音樂(lè)節(jié)等戶(hù)外活動(dòng)中通過(guò)無(wú)人機(jī)自動(dòng)發(fā)現(xiàn)暴力事件。研究論文已被CVPR 2018接受。
一種無(wú)人機(jī)監(jiān)控系統(tǒng),可以實(shí)時(shí)地在人群中監(jiān)測(cè)到“暴力分子”。這種技術(shù)已經(jīng)被開(kāi)發(fā)出來(lái)了。
這種AI技術(shù)利用懸停式四軸飛行器上的攝像頭來(lái)檢測(cè)每個(gè)人的身體動(dòng)作。然后,當(dāng)系統(tǒng)識(shí)別出攻擊性的行為,如拳打、腳踢、刺殺、射擊、掐脖子等時(shí),它就會(huì)發(fā)出警報(bào),準(zhǔn)確率達(dá)到85%。它不識(shí)別人臉——只是監(jiān)測(cè)人們之間可能的暴力行為。
該系統(tǒng)的設(shè)計(jì)者分別來(lái)自英國(guó)劍橋大學(xué)、印度國(guó)家技術(shù)研究院和印度科學(xué)理工學(xué)院。研究者說(shuō),這個(gè)系統(tǒng)可以擴(kuò)展到自動(dòng)識(shí)別非法越境的人,在公共場(chǎng)所發(fā)現(xiàn)綁架事件,并在發(fā)現(xiàn)暴力行為時(shí)發(fā)出警報(bào)。他們希望這樣的自主間諜無(wú)人機(jī)可以幫助警察壓制犯罪,或幫助士兵在無(wú)辜群眾中找出敵人。
“執(zhí)法機(jī)構(gòu)已經(jīng)在使用空中監(jiān)視系統(tǒng)來(lái)監(jiān)視大面積的區(qū)域,”研究人員在他們的論文中寫(xiě)道,“各國(guó)政府最近在戰(zhàn)區(qū)部署無(wú)人機(jī)來(lái)監(jiān)測(cè)敵人的行動(dòng),監(jiān)視外國(guó)販毒組織,開(kāi)展邊境管制行動(dòng)以及在城市和農(nóng)村地區(qū)監(jiān)控犯罪活動(dòng)。”論文中詳細(xì)介紹了這項(xiàng)技術(shù),已被CVPR 2018接受。
“他們一般安排一名或多名士兵長(zhǎng)時(shí)間地操控這些無(wú)人機(jī),這使得這些系統(tǒng)容易因人為疲勞而出錯(cuò)。”
可用于檢測(cè)公共區(qū)域或大型聚會(huì)中的暴力分子姿態(tài)估計(jì)pipeline
研究者提出的新模型分兩步工作。首先,特征金字塔網(wǎng)絡(luò)(一種卷積神經(jīng)網(wǎng)絡(luò))從無(wú)人機(jī)拍攝的畫(huà)面中檢測(cè)到個(gè)人。然后,使用一個(gè)ScatterNet網(wǎng)絡(luò)來(lái)分析和確定圖像中每個(gè)人的姿勢(shì)。
身體的輪廓被分解為14個(gè)關(guān)鍵點(diǎn)
模型將身體的輪廓分解為14個(gè)關(guān)鍵點(diǎn),計(jì)算出一個(gè)人的手臂、腿和臉的位置,以識(shí)別訓(xùn)練過(guò)程中指定的不同類(lèi)型的暴力行為。
下面的視頻演示了系統(tǒng)如何工作:
rame>
該系統(tǒng)使用研究人員編制的“Aerial Violent Individual”數(shù)據(jù)集來(lái)訓(xùn)練。有25個(gè)人被召集來(lái)演示打斗、刺殺、射擊、踢打和掐脖子等動(dòng)作,得到2000張帶注釋的圖像。每張圖片上一般有2到10個(gè)人,因此,這個(gè)系統(tǒng)現(xiàn)在還不能用于處理非常大的人群。
AVI數(shù)據(jù)集中的暴力行為,包括掐脖子,拳打,腳踢,射擊和刺殺
當(dāng)系統(tǒng)需要處理的人數(shù)更少時(shí),準(zhǔn)確率最高。比如一張圖片上只有一個(gè)人,系統(tǒng)的準(zhǔn)確率為94.1%,但有5個(gè)人時(shí),準(zhǔn)確率就降到了84%,10個(gè)人時(shí)準(zhǔn)確率降到79.8%。該論文的合作者Amarjot Singh說(shuō):“準(zhǔn)確性下降主要是因?yàn)橄到y(tǒng)沒(méi)有檢測(cè)到其中的一些人。”
檢測(cè)不同暴力行為的準(zhǔn)確率
檢測(cè)不同人數(shù)時(shí)的準(zhǔn)確率
很難判斷這個(gè)無(wú)人機(jī)系統(tǒng)到底有多準(zhǔn)確,因?yàn)樗€沒(méi)有在真實(shí)環(huán)境下對(duì)普通人群進(jìn)行測(cè)試——測(cè)試者僅僅是研究團(tuán)隊(duì)招募來(lái)的志愿者。也就是說(shuō),它是用假裝相互打斗的數(shù)據(jù)訓(xùn)練的,測(cè)試也是同樣。而且,它是一個(gè)研究項(xiàng)目,還不是商業(yè)產(chǎn)品。
左圖展示了在人體上注釋的14個(gè)身體關(guān)鍵點(diǎn)。 右圖展示了Parrot AR 無(wú)人機(jī)捕獲數(shù)據(jù)集中的圖像以及幾個(gè)注釋關(guān)鍵點(diǎn)的特寫(xiě)。
當(dāng)無(wú)人機(jī)在2米、4米、6米和8米高處時(shí),輸入系統(tǒng)的圖像也被記錄下來(lái)。這就能知道它離人群有多近??紤]到無(wú)人機(jī)飛行的聲音很大,在真正的人群和斗毆行為中,這些無(wú)人機(jī)會(huì)在幾百英尺之外,一定程度上降低了能見(jiàn)度。
圖:僅使用無(wú)人機(jī)在2m(第1排),4m(第2排),6m(第3排)和8m(第4排)四個(gè)不同高度記錄的僅有一個(gè)暴力分子的無(wú)人機(jī)監(jiān)視系統(tǒng)(DSS)
實(shí)時(shí)視頻分析是使用兩個(gè)Nvidia Tesla GPU實(shí)時(shí)地在A(yíng)mazon的云服務(wù)上進(jìn)行的,而無(wú)人機(jī)的內(nèi)置硬件可以指揮其飛行動(dòng)作。該技術(shù)是在本地機(jī)器上使用單個(gè)Tesla GPU進(jìn)行訓(xùn)練的。
“該系統(tǒng)以每秒5幀到16幀的速度在空中實(shí)時(shí)拍攝的影像中檢測(cè)到暴力分子,最多檢測(cè)10人,最少2人。”論文指出。
爭(zhēng)議:技術(shù)被惡意使用的風(fēng)險(xiǎn)
在云端執(zhí)行推理有潛在的安全和隱私風(fēng)險(xiǎn),因?yàn)橐獙⑷藗兊囊曨l傳輸?shù)降谌接?jì)算系統(tǒng)中。為了減少法律上的麻煩,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)處理無(wú)人機(jī)在云中接收到的每幀圖像,在處理完后就將圖像刪除。
“這增加了數(shù)據(jù)安全層,因?yàn)槲覀冎皇窃谛枰臅r(shí)候才把數(shù)據(jù)保存在云上,”劍橋大學(xué)博士生Singh說(shuō)。
使用AI進(jìn)行監(jiān)視很令人關(guān)注。類(lèi)似的面部識(shí)別技術(shù),如亞馬遜的Rekognition服務(wù),已經(jīng)被美國(guó)警方采用。這些系統(tǒng)經(jīng)常受到高誤報(bào)率的困擾,或者根本就不準(zhǔn)確,所以像這樣的技術(shù)要和無(wú)人機(jī)結(jié)合還需要一段時(shí)間。
有趣的是,谷歌和Facebook最近也發(fā)表了一些研究,表明神經(jīng)網(wǎng)絡(luò)可以用來(lái)跟蹤姿勢(shì),專(zhuān)家們也對(duì)神經(jīng)網(wǎng)絡(luò)如何用于數(shù)字監(jiān)視或軍事目的提出了擔(dān)憂(yōu)?,F(xiàn)在,無(wú)人機(jī)監(jiān)測(cè)暴力分子的研究證明了這是可能的。
研究人員使用 Parrot AR無(wú)人機(jī)(價(jià)格相當(dāng)便宜)進(jìn)行實(shí)驗(yàn)。運(yùn)行也很便宜。這個(gè)實(shí)驗(yàn)在亞馬遜的平臺(tái)上運(yùn)行,每小時(shí)花費(fèi)0.1美元,所以系統(tǒng)經(jīng)過(guò)訓(xùn)練后的運(yùn)行不會(huì)太貴。
Singh承認(rèn),“人們可能會(huì)把這個(gè)系統(tǒng)用于惡意應(yīng)用程序,但訓(xùn)練這樣的系統(tǒng)將需要大量的數(shù)據(jù)和大量的資源。我希望有一些監(jiān)督能夠避免濫用這種技術(shù)。”
但他認(rèn)為業(yè)余愛(ài)好者為了惡意的原因重新編程無(wú)人機(jī)的擔(dān)憂(yōu)是沒(méi)有根據(jù)的。 “購(gòu)買(mǎi)無(wú)人機(jī)確實(shí)很容易,但設(shè)計(jì)一種能夠識(shí)別暴力個(gè)體的算法需要一定的專(zhuān)業(yè)知識(shí),涉及設(shè)計(jì)不易獲得的深層系統(tǒng),我不認(rèn)為這些系統(tǒng)很容易實(shí)現(xiàn),”他說(shuō)。
研究人員計(jì)劃在兩個(gè)音樂(lè)節(jié)期間在真實(shí)環(huán)境中測(cè)試他們的系統(tǒng),并監(jiān)測(cè)印度的國(guó)界。 如果表現(xiàn)良好,他們希望未來(lái)將其商業(yè)化。