對個性化新聞建模研究論文
1用戶興趣模型的表示
本文采用基于本體的加權關鍵詞興趣表示方法。用戶興趣模型是新聞領域本體的部分映射,由其中部分興趣類別和特征詞組成。用戶興趣的層次結構如圖2所示。該方法通過不同組合的概念節點及其權值構成用戶個體興趣本體來表示用戶的興趣概念。通過調整各個節點的權值或增加相應的主題節點適應用戶興趣的變化。
2用戶興趣模型的更新
用戶興趣分為長期興趣和短期興趣,興趣是不斷發生變化的。長期興趣反映出用戶長期的偏好特征,短期興趣隨著時間的推移發生改變。一般情況下,每個用戶都會對某種類型的新聞內容有穩定的興趣。比如某用戶喜歡足球新聞,且喜歡科技類新聞等類別,這屬于長期興趣,不易改變。除長期興趣外,用戶可能在某個特定時期臨時關注某些信息,這屬于短期興趣。比如某用戶某段時間想購買電腦,所以對關于電腦的信息特別關注,但購買之后關于這方面的'信息就不再關注了。還有些短期興趣是周期性的,比如每到五一假期,很多人對旅游產生興趣。識別用戶的短期興趣,只能通過統計用戶使用系統的記錄,但是用戶的短期興趣持續時間短,很難與用戶偶然性的瀏覽相區分。本文所建立的用戶模型將用戶的長期興趣和短期興趣相結合,能同時反映出用戶的長期興趣和短期興趣的變化,所以使推薦更加準確有效。本文用戶興趣模型采用基于本體的加權關鍵詞興趣表示方法,它隨著用戶興趣的變化也進行相應的更新。從存儲的容量和運行的效率考慮,需淘汰用戶次要的和過時的興趣特征。本文用戶興趣模型主要通過調整用戶興趣的特征詞及其權重,來體現用戶興趣的變更。用戶興趣模型的更新方法:當系統發現用戶一個興趣特征時,查詢該用戶現有的興趣特征。如果此興趣特征已經包含在興趣模型中,則對該特征詞的權重和時間進行修改。如果發現此興趣特征不在用戶興趣模型中,且用戶興趣模型有剩余的存儲空間,則直接在用戶興趣模型中生成一個新的興趣特征。如果用戶興趣模型的存儲空間已滿,則需淘汰權重低的興趣特征后,添加新的興趣特征【10】。特征詞權重的更新方法如式(4)所示,不是將TF/IDF值直接累加,而是將原模型中的所有特征詞的權重乘以一個衰減系數。新的特征詞的權重也不是直接歸并進去,歸并的時候需要乘以用戶對該篇新聞的興趣度,興趣度在用戶興趣收集時已計算。
3相似度計算
前文提到新聞頁面的表示方法采用向量空間模型的方式。首先需要對新聞頁面內容進行分詞,特征詞提取以及對文本特征進行表示,然后計算特征值的權重。特征詞按照其TF/IDF值降序排列,因為權值高的特征詞能夠更好的反映該新聞文本的的內容,而權值低的詞與新聞本身的內容關系較弱。所以只需要使用最能夠代表新聞特征的前N個特征詞及其權值參與計算即可。在進行新聞頁面的匹配時,從用戶興趣模型除根節點外的第一層開始計算,取相似度最高的興趣子類作為該頁面的類別。同時該結點與新聞頁面的余弦相似度計算的值作為該頁面與用戶的興趣相似度,作為該頁面是否符合用戶的興趣的衡量標準。本文來自于《情報科學》雜志。情報科學雜志簡介詳見
4結語
本文研究了基于領域本體構建用戶興趣模型。在模型中設置三層用戶興趣類別,子層與父層是從屬關系,子層興趣度的衰減能夠影響父層的興趣度。根據用戶行為,分析用戶對新聞頁面的偏好程度,反映到用戶興趣模型中,能夠及時反映出用戶興趣的變化。該模型提高了人性化程度,能夠更好的為個性化新聞服務提供基礎。
【對個性化新聞建模研究論文】相關文章: