日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

樹人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹人論文網(wǎng)

改進(jìn)型協(xié)同過濾的圖書推薦算法

來源: 樹人論文網(wǎng)發(fā)表時(shí)間:2020-07-01
簡要:摘 要: 針對(duì)用戶從海量圖書中選擇喜歡圖書較難的問題,提出一種基于圖書屬性分組的改進(jìn)協(xié)同過濾算法。該算法首先根據(jù)用戶喜歡的圖書類型去選擇相似用戶,縮小數(shù)據(jù)集,再根據(jù)

  摘 要: 針對(duì)用戶從海量圖書中選擇喜歡圖書較難的問題,提出一種基于圖書屬性分組的改進(jìn)協(xié)同過濾算法。該算法首先根據(jù)用戶喜歡的圖書類型去選擇相似用戶,縮小數(shù)據(jù)集,再根據(jù)基于用戶的協(xié)同過濾算法尋找最近鄰居集合,然后根據(jù)項(xiàng)目推薦值的方法向用戶推薦感興趣的圖書序列。實(shí)驗(yàn)結(jié)果表明:在同一數(shù)據(jù)量下,該算法在推薦數(shù)據(jù)量以及覆蓋率方面均優(yōu)于同類算法。

  關(guān)鍵詞: 協(xié)同過濾; 用戶分組; 用戶相似度

  0 引言

  互聯(lián)網(wǎng)規(guī)模的迅速發(fā)展帶來了信息超載問題,由于信息量過大,使得人們?cè)诰W(wǎng)上搜索信息時(shí)降低了信息的使用率,圖書信息也是如此。網(wǎng)絡(luò)上的圖書資源越來越豐富,為了充分利用信息資源,解決用戶復(fù)雜的需求和龐大圖書信息之間的矛盾,協(xié)同過濾算法因此產(chǎn)生。

  目前,協(xié)同過濾算法包括基于物品的協(xié)同過濾算法和基于用戶的協(xié)同過濾算法[1]。基于物品的協(xié)同過濾算法是根據(jù)商品屬性進(jìn)行推薦的,不過它需要透徹的內(nèi)容分析,只能推薦內(nèi)容相似的物品,并且存在用戶冷啟動(dòng)問題[2],不能給用戶帶來驚喜。基于用戶的協(xié)同過濾算法在所有用戶中找出與目標(biāo)用戶相似的用戶,然后根據(jù)這些用戶對(duì)項(xiàng)目的不同評(píng)分,產(chǎn)生相似用戶,繼而通過相似用戶集合給目標(biāo)用戶推薦書籍,雖然協(xié)同過濾推薦算法在信息過濾方面體現(xiàn)出了極大的優(yōu)勢(shì),但由于用戶對(duì)項(xiàng)目的評(píng)分較少,數(shù)據(jù)冷啟動(dòng)問題嚴(yán)重,并且隨著信息量的不斷增加,這種方法耗時(shí)耗力。總體來講,算法在不同領(lǐng)域中的應(yīng)用存在以下3種問題:① 冷啟動(dòng)問題;② 最初評(píng)價(jià)問題;③ 稀疏性問題。

  為解決這些問題,文獻(xiàn)[3]中通過利用用戶注冊(cè)信息或者選擇適當(dāng)物品以啟動(dòng)用戶興趣來解決。針對(duì)物品冷啟動(dòng)問題,可以通過利用物品的內(nèi)容信息來計(jì)算物品間的相似度,進(jìn)而對(duì)新物品產(chǎn)生關(guān)聯(lián)。對(duì)于新系統(tǒng),則可以通過對(duì)物品進(jìn)行多維度的特征標(biāo)記來計(jì)算更為準(zhǔn)確的物品相似度以減少系統(tǒng)冷啟動(dòng)的影響。文獻(xiàn)[4]中提出了一種遞歸預(yù)測算法,該算法讓那些最近鄰的用戶加入到預(yù)測處理中。即使他們沒有對(duì)給定的項(xiàng)目進(jìn)行評(píng)分,但對(duì)項(xiàng)目評(píng)分值不明確的用戶,可以預(yù)測它的遞歸,整合到預(yù)測過程中。此方法用另一種方式緩解了矩陣稀疏對(duì)推薦質(zhì)量的影響,提供了推薦精度。文獻(xiàn)[5]中分析了基于項(xiàng)目評(píng)分預(yù)測的協(xié)同過濾推薦算法存在的問題,繼而采用了修正的條件概率方法計(jì)算項(xiàng)目之間的相似性,使得數(shù)據(jù)稀疏性對(duì)計(jì)算結(jié)果的負(fù)面影響變小。

  本文算法通過分析項(xiàng)目屬性從而對(duì)數(shù)據(jù)集縮小,得到粒度較粗但相似度較高的用戶集合,以及使用皮爾遜相關(guān)系數(shù)計(jì)算用戶相似度,之后采用本文提出的圖書推薦值計(jì)算方法對(duì)用戶進(jìn)行推薦,最終的實(shí)驗(yàn)測試結(jié)果符合預(yù)期效果。

  1 改進(jìn)型協(xié)同過濾的圖書推薦算法

  1.1 簡述

  基于用戶的協(xié)同過濾算法的主要步驟是尋找各用戶的鄰居用戶,并根據(jù)鄰居用戶對(duì)目標(biāo)用戶未評(píng)分項(xiàng)目的評(píng)分進(jìn)行預(yù)測,鄰居是和目標(biāo)用戶相似度最高的k個(gè)用戶,k的具體數(shù)目由系統(tǒng)的特性決定,實(shí)際中往往會(huì)通過實(shí)驗(yàn)來確定。在確定鄰居用戶后,需要根據(jù)鄰居已評(píng)分且目標(biāo)用戶未評(píng)分的項(xiàng)目的評(píng)分值進(jìn)行評(píng)分預(yù)測。

  本文改進(jìn)型協(xié)同過濾推薦算法通過獲取目標(biāo)用戶所喜歡圖書的所屬類別,然后在所有用戶數(shù)據(jù)集中大致尋找出和目標(biāo)用戶喜歡同種類書籍的用戶群體,這樣極大的增加了用戶群體中包含較多與目標(biāo)用戶相似度高的概率,可以方便快速解決數(shù)據(jù)稀疏性問題。將這些用戶構(gòu)造成一個(gè)用戶集合,采用皮爾遜相關(guān)系數(shù)計(jì)算方法,依次計(jì)算目標(biāo)用戶與該集合中每一個(gè)用戶的相似度,使用圖書推薦值公式計(jì)算用戶集合內(nèi)每一本圖書的圖書推薦值,最后通過實(shí)驗(yàn)分析確定一個(gè)合適的參量rc,將加權(quán)推薦值大于等于rc的圖書推薦給目標(biāo)用戶。

  1.2 用戶集合的獲取

  由于圖書推薦中圖書的數(shù)量和用戶很多,但用戶選擇的圖書數(shù)量卻很少,如果直接使用協(xié)同過濾算法將面臨嚴(yán)重的數(shù)據(jù)稀疏性問題。因此本文首先根據(jù)目標(biāo)用戶所選擇圖書的類別,確定對(duì)目標(biāo)用戶進(jìn)行推薦的用戶集合,縮小了使用協(xié)同過濾的數(shù)據(jù)集,并在一定程度上緩解了數(shù)據(jù)稀疏性問題,具體執(zhí)行過程如下:

  (1) 統(tǒng)計(jì)目標(biāo)用戶所加入的圖書種類;

  (2) 在所有用戶集合尋找與目標(biāo)用戶加入相同圖書種類的用戶。

  1.3 計(jì)算用戶相似度

  用戶相似度的度量方法是算法的核心,常使用的方法包括皮爾遜相關(guān)系數(shù)、夾角余弦相似度和Jaccard系數(shù)等[6]。本文采用皮爾遜相關(guān)系數(shù)作為用戶相似度的測量,如式(1)所示。

  其中,sim(i,j)表示用戶i與用戶j的相似度,Ri與Rj分別表示用戶i和j收藏的每一個(gè)項(xiàng)目的評(píng)分,Ri與Rj分別表示用戶i,j的收藏項(xiàng)目評(píng)分的平均值。

  1.4 計(jì)算圖書推薦值

  通過皮爾遜相關(guān)系數(shù)計(jì)算出的用戶相似度,能夠找出與目標(biāo)用戶相似的用戶,為了向目標(biāo)用戶推薦系統(tǒng)預(yù)測的項(xiàng)目,采用圖書推薦值的計(jì)算方法,如式(2)所示。

  r為圖書推薦值,scoreu∈jk為用戶j收藏的每本圖書的評(píng)分,n為與目標(biāo)用戶相似的用戶集合的數(shù)量。

  1.5 獲取推薦結(jié)果

  為了篩選出準(zhǔn)確度較高的圖書,設(shè)置一個(gè)參數(shù)——項(xiàng)目推薦臨界值rc,將圖書推薦值大于rc的圖書推薦給用戶,其中參數(shù)rc的取值通過實(shí)驗(yàn)測試得來,最終得到向目標(biāo)用戶推薦的項(xiàng)目集合。

  1.6 算法整體執(zhí)行步驟

  Step1.獲取目標(biāo)用戶的用戶集合資源:查找與目標(biāo)用戶所收藏圖書種類相同的用戶,構(gòu)成用戶集合資源。

  Step2.分別計(jì)算目標(biāo)用戶與用戶集合中每一個(gè)用戶的相關(guān)系數(shù)。在用戶集合資源中,使用皮爾遜相關(guān)系數(shù)計(jì)算用戶的相似性,得到的結(jié)果保存在二維數(shù)組中。

  Step3.計(jì)算每一本圖書的圖書推薦值。使用用戶相似度數(shù)據(jù)及每本圖書對(duì)應(yīng)的評(píng)分,帶入圖書推薦值計(jì)算公式中,將每一本圖書的圖書推薦值再次保存在二維數(shù)組中。

  Step4.獲取推薦結(jié)果。使用步驟3中的數(shù)據(jù),將圖書推薦值大于rc的圖書推薦給用戶。

  2 數(shù)據(jù)測試及結(jié)果分析

  2.1 數(shù)據(jù)源的獲取

  由于目前在電商網(wǎng)站上獲取用戶個(gè)人信息比較困難,為了收集數(shù)據(jù)順利進(jìn)行數(shù)據(jù)分析,我們采用了目前大多數(shù)數(shù)據(jù)分析人員普遍采用的方法——數(shù)據(jù)仿真模擬,創(chuàng)建nUsers表,包含用戶的姓名、性別、年級(jí)、學(xué)院、專業(yè)、書名、評(píng)分、書類等七個(gè)字段列。數(shù)據(jù)模擬采用以下3種方式:

  (1) 從校圖書館獲取2015級(jí)、2016級(jí)、2017級(jí)學(xué)生的姓名、性別、年級(jí)、學(xué)院、專業(yè),仿真模擬的各年級(jí)的學(xué)生人數(shù)、學(xué)院、專業(yè),數(shù)據(jù)量依據(jù)實(shí)際各學(xué)院對(duì)應(yīng)的學(xué)生人數(shù)、性別所占比例、專業(yè)人數(shù)等同比例縮小。

  其中學(xué)院及其包含的專業(yè)有:計(jì)算機(jī)學(xué)院(所屬專業(yè)有:計(jì)科、軟件、物聯(lián)),資歷學(xué)院(所屬專業(yè)有:地理科學(xué)、歷史學(xué)),建筑學(xué)院(所屬專業(yè)有:建筑學(xué)、城鄉(xiāng)規(guī)劃、城市規(guī)劃),經(jīng)管學(xué)院(所屬專業(yè)有:經(jīng)濟(jì)學(xué)、財(cái)務(wù)管理、經(jīng)管學(xué))。

  (2) 書籍名稱以及書籍類別通過當(dāng)當(dāng)圖書網(wǎng)站來爬取。

  (3) 利用隨機(jī)方法生成書籍的評(píng)分。

  采用以上3種數(shù)據(jù)獲取方式,能夠最大限度的模擬和描述真實(shí)電商網(wǎng)絡(luò)的應(yīng)用情景,盡管實(shí)際電商網(wǎng)絡(luò)應(yīng)用場景比實(shí)驗(yàn)描述的要復(fù)雜,但以上實(shí)驗(yàn)數(shù)據(jù)的獲取基本接近實(shí)際電商網(wǎng)絡(luò)的基本情況,因此使用仿真模擬的數(shù)據(jù)同樣能夠反映出算法的特點(diǎn)。通過算法之間的比較可以體現(xiàn)算法的各種數(shù)據(jù)特征,進(jìn)而通過分析結(jié)果來證明算法的可用性,本文選取基于用戶的協(xié)同過濾圖書推薦算法與本文的改進(jìn)型協(xié)同過濾圖書推薦算法進(jìn)行比較。

  2.2 推薦系統(tǒng)中的評(píng)價(jià)指標(biāo)

  (1) 精確度如式(3)。

  C,+表示積極、成功的互動(dòng),C表示所有互動(dòng),生成的候選集中積極、成功的互動(dòng)數(shù)量占總互動(dòng)的比重稱作推薦的準(zhǔn)確度[7]。P值范圍是[0,1],當(dāng)P值越大時(shí),精確度越高,推薦的結(jié)果效果越好。

  (2) 覆蓋率如式(4)。

  其中,集合N是指為目標(biāo)用戶分組后所得到的用戶集合,n(N)是用戶數(shù)量;集合M是用戶集合N中相關(guān)系數(shù)大于等于0.8的用戶集合,n(M)是用戶集合M的數(shù)量,相關(guān)系數(shù)大于等于0.8的用戶數(shù)量占總用戶集合的比重稱作覆蓋率[7]。K值范圍是[0,1],當(dāng)K值越大,分組用戶集合中的高度相關(guān)的用戶所占的比重越大,尋找的用戶集合稀疏性越低。

  (3) 成功率如式(5)。

  成功率是候選集中成功互動(dòng)的數(shù)量占總互動(dòng)數(shù)量的比重[7]。SR值范圍是[0,1],當(dāng)SR值越大,推薦的圖書質(zhì)量越高。

  2.3 實(shí)驗(yàn)內(nèi)容與實(shí)驗(yàn)結(jié)果

  2.3.1 rc參數(shù)選取

  一般來講rc越高,被推薦的圖書越精確,但與此同時(shí),圖書數(shù)量會(huì)變少,為了解決推薦準(zhǔn)確度與推薦數(shù)量的不平衡問題,我們提出rc*n計(jì)算公式,其中n為向目標(biāo)用戶推薦的圖書數(shù)量,n是向所有目標(biāo)用戶推薦的圖書數(shù)量的平均值。

  實(shí)驗(yàn)一:下列折線圖中橫坐標(biāo)代表用戶數(shù)量,縱坐標(biāo)為rc*n。實(shí)驗(yàn)開始之前,有目的的尋找6個(gè)目標(biāo)用戶,目標(biāo)用戶需要滿足得到的用戶集合數(shù)量分別是10,20,30,40,50,60。采用二分法來獲取本次實(shí)驗(yàn)數(shù)據(jù)集的rc值:實(shí)驗(yàn)開始時(shí),我們找出較準(zhǔn)確的rc值介于5和11之間。

  采用二分法比較rc=5,rc=8,rc=11,觀察圖1,可知rc*n依次大小為rc=8>rc=5>rc=11;

  再次查找rc=5,rc=6.5,rc=8;觀察圖2,可知rc*n依次大小為rc=8>rc=6.5>rc=5;[1] 2 [3]  摘 要: 針對(duì)用戶從海量圖書中選擇喜歡圖書較難的問題,提出一種基于圖書屬性分組的改進(jìn)協(xié)同過濾算法。該算法首先根據(jù)用戶喜歡的圖書類型去選擇相似用戶,縮小數(shù)據(jù)集,再根據(jù)基于用戶的協(xié)同過濾算法尋找最近鄰居集合,然后根據(jù)項(xiàng)目推薦值的方法向用戶推薦感興趣的圖書序列。實(shí)驗(yàn)結(jié)果表明:在同一數(shù)據(jù)量下,該算法在推薦數(shù)據(jù)量以及覆蓋率方面均優(yōu)于同類算法。

  關(guān)鍵詞: 協(xié)同過濾; 用戶分組; 用戶相似度

  0 引言

  互聯(lián)網(wǎng)規(guī)模的迅速發(fā)展帶來了信息超載問題,由于信息量過大,使得人們?cè)诰W(wǎng)上搜索信息時(shí)降低了信息的使用率,圖書信息也是如此。網(wǎng)絡(luò)上的圖書資源越來越豐富,為了充分利用信息資源,解決用戶復(fù)雜的需求和龐大圖書信息之間的矛盾,協(xié)同過濾算法因此產(chǎn)生。

  目前,協(xié)同過濾算法包括基于物品的協(xié)同過濾算法和基于用戶的協(xié)同過濾算法[1]。基于物品的協(xié)同過濾算法是根據(jù)商品屬性進(jìn)行推薦的,不過它需要透徹的內(nèi)容分析,只能推薦內(nèi)容相似的物品,并且存在用戶冷啟動(dòng)問題[2],不能給用戶帶來驚喜。基于用戶的協(xié)同過濾算法在所有用戶中找出與目標(biāo)用戶相似的用戶,然后根據(jù)這些用戶對(duì)項(xiàng)目的不同評(píng)分,產(chǎn)生相似用戶,繼而通過相似用戶集合給目標(biāo)用戶推薦書籍,雖然協(xié)同過濾推薦算法在信息過濾方面體現(xiàn)出了極大的優(yōu)勢(shì),但由于用戶對(duì)項(xiàng)目的評(píng)分較少,數(shù)據(jù)冷啟動(dòng)問題嚴(yán)重,并且隨著信息量的不斷增加,這種方法耗時(shí)耗力。總體來講,算法在不同領(lǐng)域中的應(yīng)用存在以下3種問題:① 冷啟動(dòng)問題;② 最初評(píng)價(jià)問題;③ 稀疏性問題。

  為解決這些問題,文獻(xiàn)[3]中通過利用用戶注冊(cè)信息或者選擇適當(dāng)物品以啟動(dòng)用戶興趣來解決。針對(duì)物品冷啟動(dòng)問題,可以通過利用物品的內(nèi)容信息來計(jì)算物品間的相似度,進(jìn)而對(duì)新物品產(chǎn)生關(guān)聯(lián)。對(duì)于新系統(tǒng),則可以通過對(duì)物品進(jìn)行多維度的特征標(biāo)記來計(jì)算更為準(zhǔn)確的物品相似度以減少系統(tǒng)冷啟動(dòng)的影響。文獻(xiàn)[4]中提出了一種遞歸預(yù)測算法,該算法讓那些最近鄰的用戶加入到預(yù)測處理中。即使他們沒有對(duì)給定的項(xiàng)目進(jìn)行評(píng)分,但對(duì)項(xiàng)目評(píng)分值不明確的用戶,可以預(yù)測它的遞歸,整合到預(yù)測過程中。此方法用另一種方式緩解了矩陣稀疏對(duì)推薦質(zhì)量的影響,提供了推薦精度。文獻(xiàn)[5]中分析了基于項(xiàng)目評(píng)分預(yù)測的協(xié)同過濾推薦算法存在的問題,繼而采用了修正的條件概率方法計(jì)算項(xiàng)目之間的相似性,使得數(shù)據(jù)稀疏性對(duì)計(jì)算結(jié)果的負(fù)面影響變小。

  本文算法通過分析項(xiàng)目屬性從而對(duì)數(shù)據(jù)集縮小,得到粒度較粗但相似度較高的用戶集合,以及使用皮爾遜相關(guān)系數(shù)計(jì)算用戶相似度,之后采用本文提出的圖書推薦值計(jì)算方法對(duì)用戶進(jìn)行推薦,最終的實(shí)驗(yàn)測試結(jié)果符合預(yù)期效果。

  1 改進(jìn)型協(xié)同過濾的圖書推薦算法

  1.1 簡述

  基于用戶的協(xié)同過濾算法的主要步驟是尋找各用戶的鄰居用戶,并根據(jù)鄰居用戶對(duì)目標(biāo)用戶未評(píng)分項(xiàng)目的評(píng)分進(jìn)行預(yù)測,鄰居是和目標(biāo)用戶相似度最高的k個(gè)用戶,k的具體數(shù)目由系統(tǒng)的特性決定,實(shí)際中往往會(huì)通過實(shí)驗(yàn)來確定。在確定鄰居用戶后,需要根據(jù)鄰居已評(píng)分且目標(biāo)用戶未評(píng)分的項(xiàng)目的評(píng)分值進(jìn)行評(píng)分預(yù)測。

  本文改進(jìn)型協(xié)同過濾推薦算法通過獲取目標(biāo)用戶所喜歡圖書的所屬類別,然后在所有用戶數(shù)據(jù)集中大致尋找出和目標(biāo)用戶喜歡同種類書籍的用戶群體,這樣極大的增加了用戶群體中包含較多與目標(biāo)用戶相似度高的概率,可以方便快速解決數(shù)據(jù)稀疏性問題。將這些用戶構(gòu)造成一個(gè)用戶集合,采用皮爾遜相關(guān)系數(shù)計(jì)算方法,依次計(jì)算目標(biāo)用戶與該集合中每一個(gè)用戶的相似度,使用圖書推薦值公式計(jì)算用戶集合內(nèi)每一本圖書的圖書推薦值,最后通過實(shí)驗(yàn)分析確定一個(gè)合適的參量rc,將加權(quán)推薦值大于等于rc的圖書推薦給目標(biāo)用戶。

  1.2 用戶集合的獲取

  由于圖書推薦中圖書的數(shù)量和用戶很多,但用戶選擇的圖書數(shù)量卻很少,如果直接使用協(xié)同過濾算法將面臨嚴(yán)重的數(shù)據(jù)稀疏性問題。因此本文首先根據(jù)目標(biāo)用戶所選擇圖書的類別,確定對(duì)目標(biāo)用戶進(jìn)行推薦的用戶集合,縮小了使用協(xié)同過濾的數(shù)據(jù)集,并在一定程度上緩解了數(shù)據(jù)稀疏性問題,具體執(zhí)行過程如下:

  (1) 統(tǒng)計(jì)目標(biāo)用戶所加入的圖書種類;

  (2) 在所有用戶集合尋找與目標(biāo)用戶加入相同圖書種類的用戶。

  1.3 計(jì)算用戶相似度

  用戶相似度的度量方法是算法的核心,常使用的方法包括皮爾遜相關(guān)系數(shù)、夾角余弦相似度和Jaccard系數(shù)等[6]。本文采用皮爾遜相關(guān)系數(shù)作為用戶相似度的測量,如式(1)所示。

  其中,sim(i,j)表示用戶i與用戶j的相似度,Ri與Rj分別表示用戶i和j收藏的每一個(gè)項(xiàng)目的評(píng)分,Ri與Rj分別表示用戶i,j的收藏項(xiàng)目評(píng)分的平均值。

  1.4 計(jì)算圖書推薦值

  通過皮爾遜相關(guān)系數(shù)計(jì)算出的用戶相似度,能夠找出與目標(biāo)用戶相似的用戶,為了向目標(biāo)用戶推薦系統(tǒng)預(yù)測的項(xiàng)目,采用圖書推薦值的計(jì)算方法,如式(2)所示。

  r為圖書推薦值,scoreu∈jk為用戶j收藏的每本圖書的評(píng)分,n為與目標(biāo)用戶相似的用戶集合的數(shù)量。

  1.5 獲取推薦結(jié)果

  為了篩選出準(zhǔn)確度較高的圖書,設(shè)置一個(gè)參數(shù)——項(xiàng)目推薦臨界值rc,將圖書推薦值大于rc的圖書推薦給用戶,其中參數(shù)rc的取值通過實(shí)驗(yàn)測試得來,最終得到向目標(biāo)用戶推薦的項(xiàng)目集合。

  1.6 算法整體執(zhí)行步驟

  Step1.獲取目標(biāo)用戶的用戶集合資源:查找與目標(biāo)用戶所收藏圖書種類相同的用戶,構(gòu)成用戶集合資源。

  Step2.分別計(jì)算目標(biāo)用戶與用戶集合中每一個(gè)用戶的相關(guān)系數(shù)。在用戶集合資源中,使用皮爾遜相關(guān)系數(shù)計(jì)算用戶的相似性,得到的結(jié)果保存在二維數(shù)組中。

  Step3.計(jì)算每一本圖書的圖書推薦值。使用用戶相似度數(shù)據(jù)及每本圖書對(duì)應(yīng)的評(píng)分,帶入圖書推薦值計(jì)算公式中,將每一本圖書的圖書推薦值再次保存在二維數(shù)組中。

  Step4.獲取推薦結(jié)果。使用步驟3中的數(shù)據(jù),將圖書推薦值大于rc的圖書推薦給用戶。

  2 數(shù)據(jù)測試及結(jié)果分析

  2.1 數(shù)據(jù)源的獲取

  由于目前在電商網(wǎng)站上獲取用戶個(gè)人信息比較困難,為了收集數(shù)據(jù)順利進(jìn)行數(shù)據(jù)分析,我們采用了目前大多數(shù)數(shù)據(jù)分析人員普遍采用的方法——數(shù)據(jù)仿真模擬,創(chuàng)建nUsers表,包含用戶的姓名、性別、年級(jí)、學(xué)院、專業(yè)、書名、評(píng)分、書類等七個(gè)字段列。數(shù)據(jù)模擬采用以下3種方式:

  (1) 從校圖書館獲取2015級(jí)、2016級(jí)、2017級(jí)學(xué)生的姓名、性別、年級(jí)、學(xué)院、專業(yè),仿真模擬的各年級(jí)的學(xué)生人數(shù)、學(xué)院、專業(yè),數(shù)據(jù)量依據(jù)實(shí)際各學(xué)院對(duì)應(yīng)的學(xué)生人數(shù)、性別所占比例、專業(yè)人數(shù)等同比例縮小。

  其中學(xué)院及其包含的專業(yè)有:計(jì)算機(jī)學(xué)院(所屬專業(yè)有:計(jì)科、軟件、物聯(lián)),資歷學(xué)院(所屬專業(yè)有:地理科學(xué)、歷史學(xué)),建筑學(xué)院(所屬專業(yè)有:建筑學(xué)、城鄉(xiāng)規(guī)劃、城市規(guī)劃),經(jīng)管學(xué)院(所屬專業(yè)有:經(jīng)濟(jì)學(xué)、財(cái)務(wù)管理、經(jīng)管學(xué))。

  (2) 書籍名稱以及書籍類別通過當(dāng)當(dāng)圖書網(wǎng)站來爬取。

  (3) 利用隨機(jī)方法生成書籍的評(píng)分。

  采用以上3種數(shù)據(jù)獲取方式,能夠最大限度的模擬和描述真實(shí)電商網(wǎng)絡(luò)的應(yīng)用情景,盡管實(shí)際電商網(wǎng)絡(luò)應(yīng)用場景比實(shí)驗(yàn)描述的要復(fù)雜,但以上實(shí)驗(yàn)數(shù)據(jù)的獲取基本接近實(shí)際電商網(wǎng)絡(luò)的基本情況,因此使用仿真模擬的數(shù)據(jù)同樣能夠反映出算法的特點(diǎn)。通過算法之間的比較可以體現(xiàn)算法的各種數(shù)據(jù)特征,進(jìn)而通過分析結(jié)果來證明算法的可用性,本文選取基于用戶的協(xié)同過濾圖書推薦算法與本文的改進(jìn)型協(xié)同過濾圖書推薦算法進(jìn)行比較。

  2.2 推薦系統(tǒng)中的評(píng)價(jià)指標(biāo)

  (1) 精確度如式(3)。

  C,+表示積極、成功的互動(dòng),C表示所有互動(dòng),生成的候選集中積極、成功的互動(dòng)數(shù)量占總互動(dòng)的比重稱作推薦的準(zhǔn)確度[7]。P值范圍是[0,1],當(dāng)P值越大時(shí),精確度越高,推薦的結(jié)果效果越好。

  (2) 覆蓋率如式(4)。

  其中,集合N是指為目標(biāo)用戶分組后所得到的用戶集合,n(N)是用戶數(shù)量;集合M是用戶集合N中相關(guān)系數(shù)大于等于0.8的用戶集合,n(M)是用戶集合M的數(shù)量,相關(guān)系數(shù)大于等于0.8的用戶數(shù)量占總用戶集合的比重稱作覆蓋率[7]。K值范圍是[0,1],當(dāng)K值越大,分組用戶集合中的高度相關(guān)的用戶所占的比重越大,尋找的用戶集合稀疏性越低。

  (3) 成功率如式(5)。

  成功率是候選集中成功互動(dòng)的數(shù)量占總互動(dòng)數(shù)量的比重[7]。SR值范圍是[0,1],當(dāng)SR值越大,推薦的圖書質(zhì)量越高。

  2.3 實(shí)驗(yàn)內(nèi)容與實(shí)驗(yàn)結(jié)果

  2.3.1 rc參數(shù)選取

  一般來講rc越高,被推薦的圖書越精確,但與此同時(shí),圖書數(shù)量會(huì)變少,為了解決推薦準(zhǔn)確度與推薦數(shù)量的不平衡問題,我們提出rc*n計(jì)算公式,其中n為向目標(biāo)用戶推薦的圖書數(shù)量,n是向所有目標(biāo)用戶推薦的圖書數(shù)量的平均值。

  實(shí)驗(yàn)一:下列折線圖中橫坐標(biāo)代表用戶數(shù)量,縱坐標(biāo)為rc*n。實(shí)驗(yàn)開始之前,有目的的尋找6個(gè)目標(biāo)用戶,目標(biāo)用戶需要滿足得到的用戶集合數(shù)量分別是10,20,30,40,50,60。采用二分法來獲取本次實(shí)驗(yàn)數(shù)據(jù)集的rc值:實(shí)驗(yàn)開始時(shí),我們找出較準(zhǔn)確的rc值介于5和11之間。

  采用二分法比較rc=5,rc=8,rc=11,觀察圖1,可知rc*n依次大小為rc=8>rc=5>rc=11;

  再次查找rc=5,rc=6.5,rc=8;觀察圖2,可知rc*n依次大小為rc=8>rc=6.5>rc=5;[1] 2 [3]

主站蜘蛛池模板: 99国产热视频在线观看 | 天美传媒色情原创精品 | 日本无翼恶漫画大全优优漫画 | 内地同志男16china16 | 香蕉鱼视频观看在线视频下载 | 6080yy 久久 亚洲 日本 | 国产成人精品免费视频下载 | 久久精品国产欧美成人 | 欧美亚洲国内日韩自拍视频 | 最近免费中文字幕MV免费高清 | 日韩中文字幕欧美在线视频 | 亚洲成在人线视频 | 高h超辣bl文 | 国产h视频在线观看网站免费 | 美女议员被泄裸照 | 末班车动漫无删减免费 | 小夫妻天天恶战 | 日日噜噜噜噜夜夜爽亚洲精品 | 亚洲AV久久久噜噜噜久久 | 精品国产一区二区三区久久影院 | 国内精品偷拍在线观看 | 中文字幕 亚洲 有码 在线 | 4480yy午夜私人影院 | 色人阁影视 | 黄色免费在线网址 | 菊地凛子av | 久久99热这里只有精品66 | 天天色狠狠干 | 亚洲色欲啪啪久久WWW综合网 | 第七色男人天堂 | 久久久精品日本一区二区三区 | 超碰久久国产vs | 俄罗斯14一18处交 | 年轻夫妇韩剧中文版免费观看 | 中文字幕亚洲男人的天堂网络 | 国产AV99激情久久无码天堂 | 日韩精品无码久久一区二区三 | 亚洲欧美中文字幕高清在线 | 99re 这里只有精品 | 好硬好湿好爽再深一点视频 | 老师的丝袜脚 |