摘要:針對(duì)目前互聯(lián)網(wǎng)的全民普及的趨勢(shì)以致不法分子利用網(wǎng)絡(luò)散布非法信息、導(dǎo)向性虛假廣告等造成部分防備性較弱的網(wǎng)民受其誘導(dǎo)并導(dǎo)致被騙取財(cái)產(chǎn)的現(xiàn)象,設(shè)計(jì)一種基于圖文識(shí)別的廣告圖片檢測(cè)系統(tǒng),通過對(duì)數(shù)字圖像進(jìn)行處理,對(duì)疑似廣告的圖片加以鑒別并標(biāo)記,使網(wǎng)絡(luò)管理員及早地發(fā)現(xiàn)廣告圖片,以及時(shí)作相應(yīng)的處理,從源頭上避免部分網(wǎng)民的財(cái)產(chǎn)損失。
關(guān)鍵詞:網(wǎng)絡(luò);廣告圖片;圖文識(shí)別;網(wǎng)民
1 概述
隨著個(gè)人計(jì)算機(jī)和智能移動(dòng)設(shè)備的不斷普及,互聯(lián)網(wǎng)逐漸融入每一位國民的生活之中,因此全國網(wǎng)民數(shù)量和人們每天的上網(wǎng)時(shí)間與日俱增,據(jù)有關(guān)報(bào)告[1]顯示,截至2019年6月,中國的網(wǎng)民已達(dá)8.54億,這一數(shù)字既顯示了我國的物質(zhì)生活水平不斷提高,同時(shí)也反映了人們對(duì)互聯(lián)網(wǎng)資源的依賴程度愈加增長(zhǎng)。
計(jì)算機(jī)網(wǎng)絡(luò)的普及不斷改變著人們的生活方式,人與人之間的溝通形式越來越多樣化,人們獲取信息的方式也變得越來越繁多[2]。互聯(lián)網(wǎng)在人們帶來的便利的同時(shí),也伴隨著一些安全隱患,其中之一就是一些不法分子利用網(wǎng)絡(luò)資源的復(fù)雜多樣以及一些網(wǎng)民對(duì)網(wǎng)絡(luò)信息缺乏甄別能力,對(duì)網(wǎng)絡(luò)虛假信息防備心理較弱,利用網(wǎng)絡(luò)散播非法信息以及導(dǎo)向性虛假廣告,使得部分網(wǎng)民信以為真,進(jìn)而使得網(wǎng)民的財(cái)產(chǎn)安全受到威脅[3],因此針對(duì)這一問題,設(shè)計(jì)并實(shí)現(xiàn)一套廣告圖片檢測(cè)系統(tǒng)顯得至關(guān)重要,通過該系統(tǒng)對(duì)可能為虛假廣告的圖片自動(dòng)加以鑒別和標(biāo)記,有助于管理員盡早地發(fā)現(xiàn),減少了大量的人力物力,從而從一定程度上可以避免網(wǎng)民的財(cái)產(chǎn)損失。
2 系統(tǒng)功能需求
基于圖文識(shí)別的廣告圖片檢測(cè)系統(tǒng)完成對(duì)需監(jiān)管的指定網(wǎng)站進(jìn)行內(nèi)容圖片的爬取,內(nèi)容圖片的自動(dòng)鑒別標(biāo)記,以及將該信息傳遞至網(wǎng)絡(luò)管理員處,因此該系統(tǒng)分為三個(gè)模塊,分別為圖片爬取模塊、廣告圖片識(shí)別模塊以及數(shù)據(jù)處理模塊。
系統(tǒng)總體流程如圖1所示。
首先,系統(tǒng)通過爬蟲程序爬取網(wǎng)絡(luò)管理員需要監(jiān)測(cè)的指定鏈接的圖片內(nèi)容,并將其存入指定目錄下,針對(duì)圖庫中的爬取 的圖片,通過廣告識(shí)別程序?qū)D片進(jìn)行檢測(cè),如果識(shí)別該圖片疑似為廣告圖片,便對(duì)其進(jìn)行標(biāo)記,并通知管理員,否則繼續(xù)進(jìn)行圖像處理。
廣告圖片一般形如“加QQ*******”“辦證139********”“網(wǎng)絡(luò)兼職+152********”等,用戶如果在瀏覽網(wǎng)頁時(shí)正好有廣告所述需求時(shí),可能就會(huì)通過QQ號(hào)、手機(jī)號(hào)聯(lián)系對(duì)方,進(jìn)而一步一步落入不法分子的圈套,并可能造成巨大的財(cái)產(chǎn)損失,因此,當(dāng)圖像中包含上述類似內(nèi)容時(shí),系統(tǒng)將認(rèn)定其為疑似廣告圖片,并通知管理員。
為此,首先對(duì)圖像進(jìn)行預(yù)處理,預(yù)處理的過程如圖2所示。
圖片中的文字信息(只要是數(shù)字和字母),可能出現(xiàn)在一張圖片中的任何一個(gè)位置,針對(duì)圖像的大小不一、信息在圖像中的位置坐標(biāo)的不確定性,在預(yù)處理時(shí),要經(jīng)歷如圖2所示的圖像壓縮、灰度化、灰度拉伸、開運(yùn)算、二值化、Canny邊緣檢測(cè)、多次的形態(tài)學(xué)操作等才能將圖片中的信息,其中對(duì)于圖像的形態(tài)學(xué)操作(開、閉運(yùn)算)主要目的是將圖片的中文字信息剝離出來。
對(duì)圖像進(jìn)行預(yù)處理之后,便得出字母、數(shù)字信息在圖像中大致位置。接著,對(duì)該圖像進(jìn)行前景與背景的分割,即將除有效信息外的其他的圖片中的像素點(diǎn)作置0處理,得到分割后的圖片僅包含有效信息。
然后對(duì)有效信息進(jìn)行二值化處理,生成有效信息的黑白圖像,這里可適當(dāng)?shù)母淖冮撝狄詫?shí)現(xiàn)更好地分辨效果。
最后,對(duì)有效二值圖像進(jìn)行信息分割,得到單獨(dú)的數(shù)字或字母,并對(duì)其個(gè)數(shù)進(jìn)行計(jì)數(shù),由于0Q號(hào)一般為8-11位,手機(jī)號(hào)一般為11位,因此,系統(tǒng)設(shè)置閾值為8,當(dāng)上述計(jì)數(shù)結(jié)果大于該閾值時(shí),系統(tǒng)即判定該圖片為廣告圖片。
當(dāng)某張圖像被系統(tǒng)檢測(cè)為疑似廣告圖片之后,系統(tǒng)對(duì)其進(jìn)行標(biāo)記,并通知管理員,以便讓管理員進(jìn)行進(jìn)一步的判斷,并及時(shí)進(jìn)行處理。
3 系統(tǒng)測(cè)試
為了驗(yàn)證對(duì)疑似廣告圖片的處理過程,選取一張如圖3所示的“辦證刻章”的廣告圖片。
其中,圖3(a)為廣告原圖(圖像處理時(shí)為原圖,后期作了馬賽克處理),圖3(b)為程序在圖像中標(biāo)出有效信息的位置,圖3(c)為將有效信息和背景進(jìn)行分離,圖3(d)為對(duì)圖像進(jìn)行二值化處理。最后,得出計(jì)數(shù)值為12(左側(cè)邊框被誤認(rèn)為有效信息,產(chǎn)生值為1的誤差),大于閾值,該圖片被認(rèn)定為疑似廣告圖片。
4 結(jié)束語
針對(duì)不法分子可能利用網(wǎng)絡(luò)傳播虛假廣告或者違法廣告信息,本文設(shè)計(jì)了一種基于圖文識(shí)別的廣告檢測(cè)系統(tǒng),在一定程度上可較為準(zhǔn)確地標(biāo)記出疑似廣告的圖片,以便讓網(wǎng)絡(luò)管理員對(duì)圖片進(jìn)行進(jìn)一步處理;系統(tǒng)下一步的目標(biāo)是針對(duì)違規(guī)圖片的不同的類別,設(shè)計(jì)出更加普適的網(wǎng)絡(luò)圖片檢測(cè)系統(tǒng),以便更好地對(duì)網(wǎng)絡(luò)環(huán)境進(jìn)行監(jiān)管和進(jìn)化。
參考文獻(xiàn):
[1] 2019年上半年我國互聯(lián)網(wǎng)發(fā)展呈現(xiàn)六大趨勢(shì)特點(diǎn)[J].新聞世界,2019(10):15.
[2]馮洪玉.網(wǎng)絡(luò)普及背景下的計(jì)算機(jī)網(wǎng)絡(luò)安全問題研究[J].煤炭技術(shù),2013(1):242-244.
[3]蘇雯.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)詐騙犯罪偵查策略探析[J].法制與經(jīng)濟(jì),2019(9):101-102.
推薦閱讀:計(jì)算機(jī)科學(xué)與探索CSCD
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >