域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
隨著移動(dòng)互聯(lián)網(wǎng)讀圖時(shí)代的到來(lái),大量游走在政策邊緣的色情、暴力、血腥等擦邊球的低俗內(nèi)容,每天都以數(shù)以億計(jì)的數(shù)量在各大網(wǎng)站、移動(dòng)社交類App和UGC類App等平臺(tái)上涌現(xiàn),對(duì)用戶的互聯(lián)網(wǎng)的內(nèi)容消費(fèi)體驗(yàn)造成了干擾,其中色情的圖片內(nèi)容表現(xiàn)最甚。但由于過(guò)去對(duì)色情內(nèi)容的監(jiān)管手段主要依靠的還是人工的排查和過(guò)濾,所以高效準(zhǔn)確地鑒別和剔除這些淫穢色情信息,成為了一項(xiàng)十分艱巨的任務(wù)。
在這里,不得不提的一個(gè)神秘職業(yè)就是社交圈上廣為流傳的所謂的“鑒黃師”。據(jù)了解,依靠人工排查,鑒黃師們每日人均的審核極限大約在2w張圖片量級(jí),除了圖片,還需要深入到各種隱蔽的網(wǎng)鏈背后去尋找并識(shí)別那些可能涉黃的信息。這份“看上去很美” 的工作,其實(shí)是非??菰锖头爆嵉?。此外,單純依靠人工排查的手段,面對(duì)互聯(lián)網(wǎng)上山呼海嘯般的涉黃信息,在效率上無(wú)疑是捉襟見肘的。隨著近些年人工智能技術(shù)的飛速發(fā)展,依賴海量數(shù)據(jù)與機(jī)器學(xué)習(xí)的智能鑒黃手段憑借著高效率高精度等優(yōu)勢(shì),正在逐步取代人工審核,成為打擊色情信息的中堅(jiān)力量。
據(jù)小花邊了解,目前國(guó)內(nèi)至少已有三家企業(yè)平臺(tái)推出了智能鑒黃服務(wù),分別為阿里綠網(wǎng)、圖普科技、騰訊優(yōu)圖(又名萬(wàn)象優(yōu)圖)三家,那么究竟智能鑒黃技術(shù)哪家強(qiáng)?三家在鑒黃效果上又有何不同?帶著一點(diǎn)小嬌羞,同時(shí)又懷揣著一點(diǎn)小激動(dòng),小花邊低調(diào)地進(jìn)行了一番智能“鑒黃”體驗(yàn)!
由于圖普和騰訊優(yōu)圖很貼心地提供了線上測(cè)試網(wǎng)頁(yè),支持上傳圖片實(shí)時(shí)返回鑒別結(jié)果,小花邊用某搜索引擎隨機(jī)找了幾張測(cè)試圖片,直觀體驗(yàn)了下鑒黃效果。結(jié)果如下:
PS:在以下鑒黃體驗(yàn)中,所有可能的涉黃信息都會(huì)經(jīng)過(guò)系統(tǒng)打分。“打個(gè)比方,如果系統(tǒng)打分說(shuō)這個(gè)圖片99%涉黃,那就幾乎可以確定是,機(jī)器自己會(huì)處理。另外一些次一點(diǎn)分值的圖片,就需要人工鑒別。”騰訊優(yōu)圖返回結(jié)果
圖普科技返回結(jié)果
赤裸裸的圖片顯然容易判別,但是一些并不露點(diǎn),卻充滿性暗示的圖片,應(yīng)該怎么判斷?對(duì)圖片的智能識(shí)別能力將成為一個(gè)大考驗(yàn)。為此,小花邊特意選擇了三張羞羞的圖片(別問我是從哪里弄來(lái)的)、一張頗受爭(zhēng)議的wanimal攝影集的圖片(第四張)和四張正常的圖片(后四張)來(lái)進(jìn)行識(shí)別。
從打分結(jié)果上看,似乎騰訊優(yōu)圖的識(shí)別精度更高。圖片識(shí)別結(jié)果以標(biāo)簽(色情、性感、正常) + 概率的形式返回,與人工在涉黃可能性上的判斷上近乎一致,效果棒棒噠。
然而僅僅幾張的測(cè)試圖片,并不能說(shuō)明哪家的算法效果,小花邊雖然不是專業(yè)人士,但也清楚大數(shù)據(jù)上的評(píng)價(jià)會(huì)更符合統(tǒng)計(jì)規(guī)律、更貼合實(shí)際應(yīng)用場(chǎng)景。為了更科學(xué)公正的比對(duì)這三家的技術(shù)實(shí)力,小花邊采取了如下的評(píng)測(cè)方案:
首先,從網(wǎng)上的某搜索引擎收集了25005張正常圖片(主要為一些風(fēng)景照和生活場(chǎng)景照片)。另再?gòu)慕跓狳c(diǎn)“艷照門”視頻中截取了92張色情圖作為色情的評(píng)測(cè)集。
樣本采集完備后,需要制定評(píng)測(cè)指標(biāo)。這里需要和讀者普及下兩個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的重要指標(biāo):
正確接受率(true acceptance rate)和錯(cuò)誤接受率(false acceptance rate)其中正確接受率表示的是N色情圖片中能識(shí)別出M張是色情圖片的比例,M/N數(shù)值越大,則說(shuō)明算法對(duì)色情圖片的發(fā)現(xiàn)能力越好(比如給定的92張色情圖片,如能全部定義為色情,則正確接受率就為100%)。而錯(cuò)誤接受率是指在X張正常圖片中,把Y張錯(cuò)判為色情圖的比例,Y/X數(shù)值越大,則出錯(cuò)的概率越高。一般來(lái)說(shuō),要公平比對(duì)不同算法能力,只需比較在同等的錯(cuò)誤接受率條件下各自的正確接受率高低就可以了。
OK,萬(wàn)事俱備,就不再賣關(guān)子了,直接公布測(cè)試結(jié)果吧!
先看圖普,通過(guò)將數(shù)據(jù)上傳官方的測(cè)試網(wǎng)頁(yè)得到了以下結(jié)果:25005張非色情圖片中有9張被判成了色情;92張色情圖片中有27張被判成了色情;因此,其錯(cuò)誤接受率為 9/25005=0.036% ,正確接受率為27/92=29.348%。大概有2/3的色情圖被系統(tǒng)漏掉了。
然后是騰訊優(yōu)圖和阿里綠網(wǎng),注冊(cè)為開發(fā)者后,根據(jù)官方提供的sdk,批量地獲得了每張圖片的色情概率;為了和圖普的結(jié)果看齊,從小到大遍歷色情概率閾值,獲得了各自同樣錯(cuò)誤接受率條件下的正確接受率,具體見下表:
結(jié)果已經(jīng)一目了然,在這一輪的比對(duì)測(cè)試中,騰訊優(yōu)圖完爆了另外兩家的效果,此處小花邊必須給騰訊的工程師點(diǎn)個(gè)贊。不過(guò)整體看起來(lái),智能鑒黃技術(shù)水平的上升空間還比較大,與肉眼鑒別還有一定的差距,希望在不久的將來(lái)可以取代人工,徹底解放苦逼的“鑒黃師”一職。而當(dāng)這項(xiàng)技術(shù)有一天得到了大規(guī)模的應(yīng)用和普及,也不難腦補(bǔ)到數(shù)以萬(wàn)計(jì)的宅男哭暈在廁所的畫面。
文:孫海亮微信公眾號(hào):花邊科技文章見百度百家、界面、搜狐科技、艾瑞網(wǎng)、今日頭條、一點(diǎn)資訊等平臺(tái)約稿合作:請(qǐng)加微信:494380127
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!