当前位置: > 论文中心 > 计算机论文 >

基于用户聚类的异构社交网络推荐算法(3)

时间:2015-12-21 09:02 点击:
(1)对于N个用户,M个主题,可分别表示为用户^集U-{叫,^2,}与^主^题集S-{^152,*,Sm}对于每个用户M,,有对应兴趣向量V,=(fli,《2,,m),所有用户的兴趣向量可构成NXM的兴趣矩阵m,对于存在订阅关系的用户w,和主

    (1)对于N个用户,M个主题,可分别表示为用户^集U-{叫,^2,}与^主^题集S-{^152,*…,Sm}对于每个用户M,,有对应兴趣向量V,=(fli,《2,…,m),所有用户的兴趣向量可构成NXM的兴趣矩阵m,对于存在订阅关系的用户w,和主题{,对应元素a,,>0,表示用户m,对主题{兴趣度,如不存在订阅关系,则对应一
    (2)基于兴趣矩阵m的兴趣图Gm可表示为有向图G(Y,E),其中V为用户和主题节构成的集合:V-UUS,
    (3)对于每个用户m,定义其兴趣密度值心,m为兴趣向量V中非零元素所占的比例,那么对于<i,(M,)大于密度阈值A(通常取10%)的用户M,定义为核心用户
由核心用户兴趣向量构成的兴趣矩阵为密集子矩阵m%基于密集子矩阵可构造出核心兴趣图Gw.
    4.2核心聚类
图摘要算法通常用于从拥有大量节点的复杂图中提取隐含信息,发现主体结构和普遍规律.不同于以往基于统计的图摘要方法,Tmn等人[11]提出了一种基于节点聚合的方法々-SNAP来进行图摘要计算.该算法优势在于,图的摘要计算过程中不会丢失任何原始节点的信息,同时,可以自由地调整图摘要的聚合程度和迭代次数,得到对图不同粒度的分析结果.我们注意到,々-SNAP在图摘要迭代过程中同时完成了对节点的聚类,每个节点聚类是一系列与外部节点拥有相似连接度的节点的聚合.因此,我们认为通过对用户兴趣图进行々-SNAP摘要,可以对用户节点实现兴趣聚类.基于々-SNAP,我们设计了SNAP-Cluster算法,使得(1)聚合过程仅发生在用户节点之间;(2)仅将々-SNAP算法应用于核心兴趣图,以保证能产生足够多有效信息的聚类;(3)通过计算模糊度和差异性指数来表示聚类结果的特征,并以此来估计对最终推荐结果的影响.
    基于之前的定义,我们给出图摘要聚类算法SNAP-Cluster的过程.
    算法1.SNAP-Cluster图摘要聚类算法.
    输入:核心用户集LT,主题集S,核心兴趣图Gm.
    输出:核心聚类lu
    1.Clus=U,,?7taxAmb=0,srcCi=null,arget=n\Al;
    2.whileAmb-0或达到目标迭代次数是
    3.forCinludo
    对于最优聚类的选择,我们基于这样观察:当差异性指数越大时,表明类间的兴趣越不相同,这使得每一个聚类的兴趣特征越明显,增加了对兴趣预测的精确性.相反,模糊值越大,则在一个聚类的内部保留了更大的差异性,因而增加了产生多样性推荐的可能.因此我们考虑将二者综合考虑,在最后的实验中我们也将验证上述结论.图    4(a)展示了一个来自于新浪微博中500个用户和50个主题所构成的兴趣图(平均兴趣密度72%),图4(b)是通过SNAP-Cluster计算之后的核心聚类图(平均密度15%,小点为主题,大圆为用户聚类,中心数字为聚类大小).
    4.3全用户聚类
    得到用户核心聚类Szmrt之后,我们需要提取核心聚类以及非核心用户的内容特征向量.
    对于用户u,其发表的微博为OrgiwTwees,首先对原始微博数据进行预处理,比如去掉微博中的表情符号,去掉某人的信息等等.我们采用改进的编辑距离算法来计算内容特征向量相似度[13],编辑距离最初用于衡量字符串之间的相似程度,并以单个的字符作为基本的计算单位,为了使其更加适合具有语义的汉语句子相似度计算,算法采用对句子进行自动分词后的单个词作为基本的编辑单元.此外算法还考虑编辑操作代价和句子长度对相似度的影响,提出了新的块交换操作,并根据词汇之间的语义相似度赋予不同的编辑操作不同的权重,在不用经过词义消歧和句法分析的前提下,兼顾了句子结构和词汇语义信息.对于用户%,我们用改进的编辑距离算法来计算他和所有核心聚类CZm]的相似度SiTOy,若最大值为Si%,则将用户u加入到聚类CZss中.将所有的非核心用户加入到相应的聚类之后就可以得到全用户聚类GcLus.
    4.4推荐阶段
      得到全用户聚类GC%,可计算出其中每个用户聚类C在主题集S上的类兴趣向量:cvt=(can,ca2,???,catM),所有聚类的类兴趣向量可构成类兴趣矩阵m,对于其中的零值,利用SlopeOne算法[14]进行预测.将原向量C中的零值用预测值填充,得到预测兴趣向量C,对每个分量表示的兴趣值进行排序,对每个用户,除开其已经关注的主题,对其余主题按照Top-K兴趣值进行推荐.在实践中,我们通常取K值为用户己关注主题数或该数量的一半.
    对于在线推荐的情况,首先对于需要进行推荐用户,可以提取其发布内容的特征向量,利用全用户聚类过程中的归类过程,将用户分配到合适的聚类之中,再利用该聚类的预测向量C,对其进行推荐.可以看到,整个流程中,除用户归类的过程需要实时计算之外,用户聚类和兴趣值预测均可直接采用事先离线处理之后的结果.在线推荐的计算复杂度,仅与用户聚类个数有关,而用户聚类个数在实际情况下是非常有限的,这也保证了本算法的在线推荐效率.对于聚类和推荐的结果,需要在新用户增加到一定数量并对兴趣分布产生明显影响时进行调整.
    5实验分析

   论文榜(www.zglwb.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导代理,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


栏目列表
联系方式
推荐内容
 
QQ在线咨询
投稿辅导热线:
189-6119-6312
微信号咨询:
18961196312