摘 要: 針對用戶從海量圖書中選擇喜歡圖書較難的問題,提出一種基于圖書屬性分組的改進(jìn)協(xié)同過濾算法。該算法首先根據(jù)用戶喜歡的圖書類型去選擇相似用戶,縮小數(shù)據(jù)集,再根據(jù)基于用戶的協(xié)同過濾算法尋找最近鄰居集合,然后根據(jù)項目推薦值的方法向用戶推薦感興趣的圖書序列。實驗結(jié)果表明:在同一數(shù)據(jù)量下,該算法在推薦數(shù)據(jù)量以及覆蓋率方面均優(yōu)于同類算法。
關(guān)鍵詞: 協(xié)同過濾; 用戶分組; 用戶相似度
0 引言
互聯(lián)網(wǎng)規(guī)模的迅速發(fā)展帶來了信息超載問題,由于信息量過大,使得人們在網(wǎng)上搜索信息時降低了信息的使用率,圖書信息也是如此。網(wǎng)絡(luò)上的圖書資源越來越豐富,為了充分利用信息資源,解決用戶復(fù)雜的需求和龐大圖書信息之間的矛盾,協(xié)同過濾算法因此產(chǎn)生。
目前,協(xié)同過濾算法包括基于物品的協(xié)同過濾算法和基于用戶的協(xié)同過濾算法[1]。基于物品的協(xié)同過濾算法是根據(jù)商品屬性進(jìn)行推薦的,不過它需要透徹的內(nèi)容分析,只能推薦內(nèi)容相似的物品,并且存在用戶冷啟動問題[2],不能給用戶帶來驚喜。基于用戶的協(xié)同過濾算法在所有用戶中找出與目標(biāo)用戶相似的用戶,然后根據(jù)這些用戶對項目的不同評分,產(chǎn)生相似用戶,繼而通過相似用戶集合給目標(biāo)用戶推薦書籍,雖然協(xié)同過濾推薦算法在信息過濾方面體現(xiàn)出了極大的優(yōu)勢,但由于用戶對項目的評分較少,數(shù)據(jù)冷啟動問題嚴(yán)重,并且隨著信息量的不斷增加,這種方法耗時耗力。總體來講,算法在不同領(lǐng)域中的應(yīng)用存在以下3種問題:① 冷啟動問題;② 最初評價問題;③ 稀疏性問題。
為解決這些問題,文獻(xiàn)[3]中通過利用用戶注冊信息或者選擇適當(dāng)物品以啟動用戶興趣來解決。針對物品冷啟動問題,可以通過利用物品的內(nèi)容信息來計算物品間的相似度,進(jìn)而對新物品產(chǎn)生關(guān)聯(lián)。對于新系統(tǒng),則可以通過對物品進(jìn)行多維度的特征標(biāo)記來計算更為準(zhǔn)確的物品相似度以減少系統(tǒng)冷啟動的影響。文獻(xiàn)[4]中提出了一種遞歸預(yù)測算法,該算法讓那些最近鄰的用戶加入到預(yù)測處理中。即使他們沒有對給定的項目進(jìn)行評分,但對項目評分值不明確的用戶,可以預(yù)測它的遞歸,整合到預(yù)測過程中。此方法用另一種方式緩解了矩陣稀疏對推薦質(zhì)量的影響,提供了推薦精度。文獻(xiàn)[5]中分析了基于項目評分預(yù)測的協(xié)同過濾推薦算法存在的問題,繼而采用了修正的條件概率方法計算項目之間的相似性,使得數(shù)據(jù)稀疏性對計算結(jié)果的負(fù)面影響變小。
本文算法通過分析項目屬性從而對數(shù)據(jù)集縮小,得到粒度較粗但相似度較高的用戶集合,以及使用皮爾遜相關(guān)系數(shù)計算用戶相似度,之后采用本文提出的圖書推薦值計算方法對用戶進(jìn)行推薦,最終的實驗測試結(jié)果符合預(yù)期效果。
1 改進(jìn)型協(xié)同過濾的圖書推薦算法
1.1 簡述
基于用戶的協(xié)同過濾算法的主要步驟是尋找各用戶的鄰居用戶,并根據(jù)鄰居用戶對目標(biāo)用戶未評分項目的評分進(jìn)行預(yù)測,鄰居是和目標(biāo)用戶相似度最高的k個用戶,k的具體數(shù)目由系統(tǒng)的特性決定,實際中往往會通過實驗來確定。在確定鄰居用戶后,需要根據(jù)鄰居已評分且目標(biāo)用戶未評分的項目的評分值進(jìn)行評分預(yù)測。
本文改進(jìn)型協(xié)同過濾推薦算法通過獲取目標(biāo)用戶所喜歡圖書的所屬類別,然后在所有用戶數(shù)據(jù)集中大致尋找出和目標(biāo)用戶喜歡同種類書籍的用戶群體,這樣極大的增加了用戶群體中包含較多與目標(biāo)用戶相似度高的概率,可以方便快速解決數(shù)據(jù)稀疏性問題。將這些用戶構(gòu)造成一個用戶集合,采用皮爾遜相關(guān)系數(shù)計算方法,依次計算目標(biāo)用戶與該集合中每一個用戶的相似度,使用圖書推薦值公式計算用戶集合內(nèi)每一本圖書的圖書推薦值,最后通過實驗分析確定一個合適的參量rc,將加權(quán)推薦值大于等于rc的圖書推薦給目標(biāo)用戶。
1.2 用戶集合的獲取
由于圖書推薦中圖書的數(shù)量和用戶很多,但用戶選擇的圖書數(shù)量卻很少,如果直接使用協(xié)同過濾算法將面臨嚴(yán)重的數(shù)據(jù)稀疏性問題。因此本文首先根據(jù)目標(biāo)用戶所選擇圖書的類別,確定對目標(biāo)用戶進(jìn)行推薦的用戶集合,縮小了使用協(xié)同過濾的數(shù)據(jù)集,并在一定程度上緩解了數(shù)據(jù)稀疏性問題,具體執(zhí)行過程如下:
(1) 統(tǒng)計目標(biāo)用戶所加入的圖書種類;
(2) 在所有用戶集合尋找與目標(biāo)用戶加入相同圖書種類的用戶。
1.3 計算用戶相似度
用戶相似度的度量方法是算法的核心,常使用的方法包括皮爾遜相關(guān)系數(shù)、夾角余弦相似度和Jaccard系數(shù)等[6]。本文采用皮爾遜相關(guān)系數(shù)作為用戶相似度的測量,如式(1)所示。
其中,sim(i,j)表示用戶i與用戶j的相似度,Ri與Rj分別表示用戶i和j收藏的每一個項目的評分,Ri與Rj分別表示用戶i,j的收藏項目評分的平均值。
1.4 計算圖書推薦值
通過皮爾遜相關(guān)系數(shù)計算出的用戶相似度,能夠找出與目標(biāo)用戶相似的用戶,為了向目標(biāo)用戶推薦系統(tǒng)預(yù)測的項目,采用圖書推薦值的計算方法,如式(2)所示。
r為圖書推薦值,scoreu∈jk為用戶j收藏的每本圖書的評分,n為與目標(biāo)用戶相似的用戶集合的數(shù)量。
1.5 獲取推薦結(jié)果
為了篩選出準(zhǔn)確度較高的圖書,設(shè)置一個參數(shù)——項目推薦臨界值rc,將圖書推薦值大于rc的圖書推薦給用戶,其中參數(shù)rc的取值通過實驗測試得來,最終得到向目標(biāo)用戶推薦的項目集合。
1.6 算法整體執(zhí)行步驟
Step1.獲取目標(biāo)用戶的用戶集合資源:查找與目標(biāo)用戶所收藏圖書種類相同的用戶,構(gòu)成用戶集合資源。
Step2.分別計算目標(biāo)用戶與用戶集合中每一個用戶的相關(guān)系數(shù)。在用戶集合資源中,使用皮爾遜相關(guān)系數(shù)計算用戶的相似性,得到的結(jié)果保存在二維數(shù)組中。
Step3.計算每一本圖書的圖書推薦值。使用用戶相似度數(shù)據(jù)及每本圖書對應(yīng)的評分,帶入圖書推薦值計算公式中,將每一本圖書的圖書推薦值再次保存在二維數(shù)組中。
Step4.獲取推薦結(jié)果。使用步驟3中的數(shù)據(jù),將圖書推薦值大于rc的圖書推薦給用戶。
2 數(shù)據(jù)測試及結(jié)果分析
2.1 數(shù)據(jù)源的獲取
由于目前在電商網(wǎng)站上獲取用戶個人信息比較困難,為了收集數(shù)據(jù)順利進(jìn)行數(shù)據(jù)分析,我們采用了目前大多數(shù)數(shù)據(jù)分析人員普遍采用的方法——數(shù)據(jù)仿真模擬,創(chuàng)建nUsers表,包含用戶的姓名、性別、年級、學(xué)院、專業(yè)、書名、評分、書類等七個字段列。數(shù)據(jù)模擬采用以下3種方式:
(1) 從校圖書館獲取2015級、2016級、2017級學(xué)生的姓名、性別、年級、學(xué)院、專業(yè),仿真模擬的各年級的學(xué)生人數(shù)、學(xué)院、專業(yè),數(shù)據(jù)量依據(jù)實際各學(xué)院對應(yīng)的學(xué)生人數(shù)、性別所占比例、專業(yè)人數(shù)等同比例縮小。
其中學(xué)院及其包含的專業(yè)有:計算機(jī)學(xué)院(所屬專業(yè)有:計科、軟件、物聯(lián)),資歷學(xué)院(所屬專業(yè)有:地理科學(xué)、歷史學(xué)),建筑學(xué)院(所屬專業(yè)有:建筑學(xué)、城鄉(xiāng)規(guī)劃、城市規(guī)劃),經(jīng)管學(xué)院(所屬專業(yè)有:經(jīng)濟(jì)學(xué)、財務(wù)管理、經(jīng)管學(xué))。
(2) 書籍名稱以及書籍類別通過當(dāng)當(dāng)圖書網(wǎng)站來爬取。
(3) 利用隨機(jī)方法生成書籍的評分。
采用以上3種數(shù)據(jù)獲取方式,能夠最大限度的模擬和描述真實電商網(wǎng)絡(luò)的應(yīng)用情景,盡管實際電商網(wǎng)絡(luò)應(yīng)用場景比實驗描述的要復(fù)雜,但以上實驗數(shù)據(jù)的獲取基本接近實際電商網(wǎng)絡(luò)的基本情況,因此使用仿真模擬的數(shù)據(jù)同樣能夠反映出算法的特點。通過算法之間的比較可以體現(xiàn)算法的各種數(shù)據(jù)特征,進(jìn)而通過分析結(jié)果來證明算法的可用性,本文選取基于用戶的協(xié)同過濾圖書推薦算法與本文的改進(jìn)型協(xié)同過濾圖書推薦算法進(jìn)行比較。
2.2 推薦系統(tǒng)中的評價指標(biāo)
(1) 精確度如式(3)。
C,+表示積極、成功的互動,C表示所有互動,生成的候選集中積極、成功的互動數(shù)量占總互動的比重稱作推薦的準(zhǔn)確度[7]。P值范圍是[0,1],當(dāng)P值越大時,精確度越高,推薦的結(jié)果效果越好。
(2) 覆蓋率如式(4)。
其中,集合N是指為目標(biāo)用戶分組后所得到的用戶集合,n(N)是用戶數(shù)量;集合M是用戶集合N中相關(guān)系數(shù)大于等于0.8的用戶集合,n(M)是用戶集合M的數(shù)量,相關(guān)系數(shù)大于等于0.8的用戶數(shù)量占總用戶集合的比重稱作覆蓋率[7]。K值范圍是[0,1],當(dāng)K值越大,分組用戶集合中的高度相關(guān)的用戶所占的比重越大,尋找的用戶集合稀疏性越低。
(3) 成功率如式(5)。
成功率是候選集中成功互動的數(shù)量占總互動數(shù)量的比重[7]。SR值范圍是[0,1],當(dāng)SR值越大,推薦的圖書質(zhì)量越高。
2.3 實驗內(nèi)容與實驗結(jié)果
2.3.1 rc參數(shù)選取
一般來講rc越高,被推薦的圖書越精確,但與此同時,圖書數(shù)量會變少,為了解決推薦準(zhǔn)確度與推薦數(shù)量的不平衡問題,我們提出rc*n計算公式,其中n為向目標(biāo)用戶推薦的圖書數(shù)量,n是向所有目標(biāo)用戶推薦的圖書數(shù)量的平均值。
實驗一:下列折線圖中橫坐標(biāo)代表用戶數(shù)量,縱坐標(biāo)為rc*n。實驗開始之前,有目的的尋找6個目標(biāo)用戶,目標(biāo)用戶需要滿足得到的用戶集合數(shù)量分別是10,20,30,40,50,60。采用二分法來獲取本次實驗數(shù)據(jù)集的rc值:實驗開始時,我們找出較準(zhǔn)確的rc值介于5和11之間。
采用二分法比較rc=5,rc=8,rc=11,觀察圖1,可知rc*n依次大小為rc=8>rc=5>rc=11;
再次查找rc=5,rc=6.5,rc=8;觀察圖2,可知rc*n依次大小為rc=8>rc=6.5>rc=5;[1] 2 [3] 摘 要: 針對用戶從海量圖書中選擇喜歡圖書較難的問題,提出一種基于圖書屬性分組的改進(jìn)協(xié)同過濾算法。該算法首先根據(jù)用戶喜歡的圖書類型去選擇相似用戶,縮小數(shù)據(jù)集,再根據(jù)基于用戶的協(xié)同過濾算法尋找最近鄰居集合,然后根據(jù)項目推薦值的方法向用戶推薦感興趣的圖書序列。實驗結(jié)果表明:在同一數(shù)據(jù)量下,該算法在推薦數(shù)據(jù)量以及覆蓋率方面均優(yōu)于同類算法。
關(guān)鍵詞: 協(xié)同過濾; 用戶分組; 用戶相似度
0 引言
互聯(lián)網(wǎng)規(guī)模的迅速發(fā)展帶來了信息超載問題,由于信息量過大,使得人們在網(wǎng)上搜索信息時降低了信息的使用率,圖書信息也是如此。網(wǎng)絡(luò)上的圖書資源越來越豐富,為了充分利用信息資源,解決用戶復(fù)雜的需求和龐大圖書信息之間的矛盾,協(xié)同過濾算法因此產(chǎn)生。
目前,協(xié)同過濾算法包括基于物品的協(xié)同過濾算法和基于用戶的協(xié)同過濾算法[1]。基于物品的協(xié)同過濾算法是根據(jù)商品屬性進(jìn)行推薦的,不過它需要透徹的內(nèi)容分析,只能推薦內(nèi)容相似的物品,并且存在用戶冷啟動問題[2],不能給用戶帶來驚喜。基于用戶的協(xié)同過濾算法在所有用戶中找出與目標(biāo)用戶相似的用戶,然后根據(jù)這些用戶對項目的不同評分,產(chǎn)生相似用戶,繼而通過相似用戶集合給目標(biāo)用戶推薦書籍,雖然協(xié)同過濾推薦算法在信息過濾方面體現(xiàn)出了極大的優(yōu)勢,但由于用戶對項目的評分較少,數(shù)據(jù)冷啟動問題嚴(yán)重,并且隨著信息量的不斷增加,這種方法耗時耗力。總體來講,算法在不同領(lǐng)域中的應(yīng)用存在以下3種問題:① 冷啟動問題;② 最初評價問題;③ 稀疏性問題。
為解決這些問題,文獻(xiàn)[3]中通過利用用戶注冊信息或者選擇適當(dāng)物品以啟動用戶興趣來解決。針對物品冷啟動問題,可以通過利用物品的內(nèi)容信息來計算物品間的相似度,進(jìn)而對新物品產(chǎn)生關(guān)聯(lián)。對于新系統(tǒng),則可以通過對物品進(jìn)行多維度的特征標(biāo)記來計算更為準(zhǔn)確的物品相似度以減少系統(tǒng)冷啟動的影響。文獻(xiàn)[4]中提出了一種遞歸預(yù)測算法,該算法讓那些最近鄰的用戶加入到預(yù)測處理中。即使他們沒有對給定的項目進(jìn)行評分,但對項目評分值不明確的用戶,可以預(yù)測它的遞歸,整合到預(yù)測過程中。此方法用另一種方式緩解了矩陣稀疏對推薦質(zhì)量的影響,提供了推薦精度。文獻(xiàn)[5]中分析了基于項目評分預(yù)測的協(xié)同過濾推薦算法存在的問題,繼而采用了修正的條件概率方法計算項目之間的相似性,使得數(shù)據(jù)稀疏性對計算結(jié)果的負(fù)面影響變小。
本文算法通過分析項目屬性從而對數(shù)據(jù)集縮小,得到粒度較粗但相似度較高的用戶集合,以及使用皮爾遜相關(guān)系數(shù)計算用戶相似度,之后采用本文提出的圖書推薦值計算方法對用戶進(jìn)行推薦,最終的實驗測試結(jié)果符合預(yù)期效果。
1 改進(jìn)型協(xié)同過濾的圖書推薦算法
1.1 簡述
基于用戶的協(xié)同過濾算法的主要步驟是尋找各用戶的鄰居用戶,并根據(jù)鄰居用戶對目標(biāo)用戶未評分項目的評分進(jìn)行預(yù)測,鄰居是和目標(biāo)用戶相似度最高的k個用戶,k的具體數(shù)目由系統(tǒng)的特性決定,實際中往往會通過實驗來確定。在確定鄰居用戶后,需要根據(jù)鄰居已評分且目標(biāo)用戶未評分的項目的評分值進(jìn)行評分預(yù)測。
本文改進(jìn)型協(xié)同過濾推薦算法通過獲取目標(biāo)用戶所喜歡圖書的所屬類別,然后在所有用戶數(shù)據(jù)集中大致尋找出和目標(biāo)用戶喜歡同種類書籍的用戶群體,這樣極大的增加了用戶群體中包含較多與目標(biāo)用戶相似度高的概率,可以方便快速解決數(shù)據(jù)稀疏性問題。將這些用戶構(gòu)造成一個用戶集合,采用皮爾遜相關(guān)系數(shù)計算方法,依次計算目標(biāo)用戶與該集合中每一個用戶的相似度,使用圖書推薦值公式計算用戶集合內(nèi)每一本圖書的圖書推薦值,最后通過實驗分析確定一個合適的參量rc,將加權(quán)推薦值大于等于rc的圖書推薦給目標(biāo)用戶。
1.2 用戶集合的獲取
由于圖書推薦中圖書的數(shù)量和用戶很多,但用戶選擇的圖書數(shù)量卻很少,如果直接使用協(xié)同過濾算法將面臨嚴(yán)重的數(shù)據(jù)稀疏性問題。因此本文首先根據(jù)目標(biāo)用戶所選擇圖書的類別,確定對目標(biāo)用戶進(jìn)行推薦的用戶集合,縮小了使用協(xié)同過濾的數(shù)據(jù)集,并在一定程度上緩解了數(shù)據(jù)稀疏性問題,具體執(zhí)行過程如下:
(1) 統(tǒng)計目標(biāo)用戶所加入的圖書種類;
(2) 在所有用戶集合尋找與目標(biāo)用戶加入相同圖書種類的用戶。
1.3 計算用戶相似度
用戶相似度的度量方法是算法的核心,常使用的方法包括皮爾遜相關(guān)系數(shù)、夾角余弦相似度和Jaccard系數(shù)等[6]。本文采用皮爾遜相關(guān)系數(shù)作為用戶相似度的測量,如式(1)所示。
其中,sim(i,j)表示用戶i與用戶j的相似度,Ri與Rj分別表示用戶i和j收藏的每一個項目的評分,Ri與Rj分別表示用戶i,j的收藏項目評分的平均值。
1.4 計算圖書推薦值
通過皮爾遜相關(guān)系數(shù)計算出的用戶相似度,能夠找出與目標(biāo)用戶相似的用戶,為了向目標(biāo)用戶推薦系統(tǒng)預(yù)測的項目,采用圖書推薦值的計算方法,如式(2)所示。
r為圖書推薦值,scoreu∈jk為用戶j收藏的每本圖書的評分,n為與目標(biāo)用戶相似的用戶集合的數(shù)量。
1.5 獲取推薦結(jié)果
為了篩選出準(zhǔn)確度較高的圖書,設(shè)置一個參數(shù)——項目推薦臨界值rc,將圖書推薦值大于rc的圖書推薦給用戶,其中參數(shù)rc的取值通過實驗測試得來,最終得到向目標(biāo)用戶推薦的項目集合。
1.6 算法整體執(zhí)行步驟
Step1.獲取目標(biāo)用戶的用戶集合資源:查找與目標(biāo)用戶所收藏圖書種類相同的用戶,構(gòu)成用戶集合資源。
Step2.分別計算目標(biāo)用戶與用戶集合中每一個用戶的相關(guān)系數(shù)。在用戶集合資源中,使用皮爾遜相關(guān)系數(shù)計算用戶的相似性,得到的結(jié)果保存在二維數(shù)組中。
Step3.計算每一本圖書的圖書推薦值。使用用戶相似度數(shù)據(jù)及每本圖書對應(yīng)的評分,帶入圖書推薦值計算公式中,將每一本圖書的圖書推薦值再次保存在二維數(shù)組中。
Step4.獲取推薦結(jié)果。使用步驟3中的數(shù)據(jù),將圖書推薦值大于rc的圖書推薦給用戶。
2 數(shù)據(jù)測試及結(jié)果分析
2.1 數(shù)據(jù)源的獲取
由于目前在電商網(wǎng)站上獲取用戶個人信息比較困難,為了收集數(shù)據(jù)順利進(jìn)行數(shù)據(jù)分析,我們采用了目前大多數(shù)數(shù)據(jù)分析人員普遍采用的方法——數(shù)據(jù)仿真模擬,創(chuàng)建nUsers表,包含用戶的姓名、性別、年級、學(xué)院、專業(yè)、書名、評分、書類等七個字段列。數(shù)據(jù)模擬采用以下3種方式:
(1) 從校圖書館獲取2015級、2016級、2017級學(xué)生的姓名、性別、年級、學(xué)院、專業(yè),仿真模擬的各年級的學(xué)生人數(shù)、學(xué)院、專業(yè),數(shù)據(jù)量依據(jù)實際各學(xué)院對應(yīng)的學(xué)生人數(shù)、性別所占比例、專業(yè)人數(shù)等同比例縮小。
其中學(xué)院及其包含的專業(yè)有:計算機(jī)學(xué)院(所屬專業(yè)有:計科、軟件、物聯(lián)),資歷學(xué)院(所屬專業(yè)有:地理科學(xué)、歷史學(xué)),建筑學(xué)院(所屬專業(yè)有:建筑學(xué)、城鄉(xiāng)規(guī)劃、城市規(guī)劃),經(jīng)管學(xué)院(所屬專業(yè)有:經(jīng)濟(jì)學(xué)、財務(wù)管理、經(jīng)管學(xué))。
(2) 書籍名稱以及書籍類別通過當(dāng)當(dāng)圖書網(wǎng)站來爬取。
(3) 利用隨機(jī)方法生成書籍的評分。
采用以上3種數(shù)據(jù)獲取方式,能夠最大限度的模擬和描述真實電商網(wǎng)絡(luò)的應(yīng)用情景,盡管實際電商網(wǎng)絡(luò)應(yīng)用場景比實驗描述的要復(fù)雜,但以上實驗數(shù)據(jù)的獲取基本接近實際電商網(wǎng)絡(luò)的基本情況,因此使用仿真模擬的數(shù)據(jù)同樣能夠反映出算法的特點。通過算法之間的比較可以體現(xiàn)算法的各種數(shù)據(jù)特征,進(jìn)而通過分析結(jié)果來證明算法的可用性,本文選取基于用戶的協(xié)同過濾圖書推薦算法與本文的改進(jìn)型協(xié)同過濾圖書推薦算法進(jìn)行比較。
2.2 推薦系統(tǒng)中的評價指標(biāo)
(1) 精確度如式(3)。
C,+表示積極、成功的互動,C表示所有互動,生成的候選集中積極、成功的互動數(shù)量占總互動的比重稱作推薦的準(zhǔn)確度[7]。P值范圍是[0,1],當(dāng)P值越大時,精確度越高,推薦的結(jié)果效果越好。
(2) 覆蓋率如式(4)。
其中,集合N是指為目標(biāo)用戶分組后所得到的用戶集合,n(N)是用戶數(shù)量;集合M是用戶集合N中相關(guān)系數(shù)大于等于0.8的用戶集合,n(M)是用戶集合M的數(shù)量,相關(guān)系數(shù)大于等于0.8的用戶數(shù)量占總用戶集合的比重稱作覆蓋率[7]。K值范圍是[0,1],當(dāng)K值越大,分組用戶集合中的高度相關(guān)的用戶所占的比重越大,尋找的用戶集合稀疏性越低。
(3) 成功率如式(5)。
成功率是候選集中成功互動的數(shù)量占總互動數(shù)量的比重[7]。SR值范圍是[0,1],當(dāng)SR值越大,推薦的圖書質(zhì)量越高。
2.3 實驗內(nèi)容與實驗結(jié)果
2.3.1 rc參數(shù)選取
一般來講rc越高,被推薦的圖書越精確,但與此同時,圖書數(shù)量會變少,為了解決推薦準(zhǔn)確度與推薦數(shù)量的不平衡問題,我們提出rc*n計算公式,其中n為向目標(biāo)用戶推薦的圖書數(shù)量,n是向所有目標(biāo)用戶推薦的圖書數(shù)量的平均值。
實驗一:下列折線圖中橫坐標(biāo)代表用戶數(shù)量,縱坐標(biāo)為rc*n。實驗開始之前,有目的的尋找6個目標(biāo)用戶,目標(biāo)用戶需要滿足得到的用戶集合數(shù)量分別是10,20,30,40,50,60。采用二分法來獲取本次實驗數(shù)據(jù)集的rc值:實驗開始時,我們找出較準(zhǔn)確的rc值介于5和11之間。
采用二分法比較rc=5,rc=8,rc=11,觀察圖1,可知rc*n依次大小為rc=8>rc=5>rc=11;
再次查找rc=5,rc=6.5,rc=8;觀察圖2,可知rc*n依次大小為rc=8>rc=6.5>rc=5;[1] 2 [3]
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >