5.4各参数对推荐效果的影响 5.4.1模糊度和差异性指数 模糊度是对一个聚类内部成员间,对于主题关注的差异程度的度量,用表示.在图7中我们可以看到,当前聚类结果的全局模糊度随着聚类个数的增加而减少,这是因为当聚类变小时,会更容易形成强关注关系.同时,推荐算法的整体效果则随着模糊度的减少而提高,并且随着数据集密度的增加,这一差距显得更加明显.然而当聚类数量过多时,推荐的准确率会出现降低的情况,这是由于过小的聚类使得兴趣矩阵变得稀疏. 差异性指数反应聚类之间的的兴趣平均差异程度,其随着聚类数量的增加而升高.在图8中我们可以看到随着差异性指数的升高,用表示.推荐 效果的多样性逐渐降低.聚类数为10时,=0.524取值最低,此时具有更强的推荐多样性,当聚类个数达到80时,取值最小,此时较小的聚类使得此时推荐的多样性显著降低.这可以理解为聚类间的兴趣差异增大,而聚类内部兴趣更加一致时,更难产生跨类别的推荐. 我们可以从上述实验结果中看到,选择最优的聚类数量时,需要同时考虑对推荐多样性和准确率的影响.更多聚类个数使得每个聚类的模糊度降低,在提高了推荐的准确率的同时缩小了兴趣的预测范围,从而减少了产生跨类推荐的可能.相反,较少聚类的个数,能够提供更广的推荐范围,从而提高在冷启动时的推荐效果.因此,聚类数量的确定依赖于具体的推荐需求.实践中,在没有明确倾向的情况下,我们选择使得差异性指数和模糊度乘积达到最大值时的聚类结果. 5.4.2关系强度阈值 定义强关注关系在一个聚类中需要满足的最小覆盖度,取值决定了在聚类过程中对聚类兴趣的置信程度.当我们需要推定一个聚类对某主题是有兴趣时,若ff取值越大,则需要此类中更多的成员满足对该主题的关注关系.而ff值越小时,对于聚类兴趣的判定条件则趋于宽松.图9显示了ff取值对预测准确率的影响. ff定义强关注关系在一个聚类中需要满足的最小覆盖度,在Tian等人[11]的论文中,将ff取值为0.5,而GCCR的实现中,面对更加稀疏的数据集,相对宽松的强关系判断条件(ff=0.3时达到最优),使得由图摘要形成的聚类具有更多的非零兴趣值,从而能达到更好的推荐效果.而当强度阈值过低时推荐效果有所下降的原因是由对于类兴趣判断过于模糊所致. 6总结与展望 为了解决微博类异构社交网络中存在的数据稀疏性和冷启动问题,本文提出了基于图摘要和内容相似混合聚类的推荐算法GCCR.GCCR在极端稀疏的数据集上具有较高的准确度,同时在冷启动的场景下能够提供多样性的推荐结果,从而避免推荐结果收敛过快的问题.最后,我们通过真实的数据集验证了算法的效果,并且分析了各参数对推荐结果的影响. 在接下来的工作中,我们准备将系统实际部署实施,并且希望引入反馈机制,根据用户对推荐结果的实际兴趣反馈,实现推荐算法的动态优化.同时希望能够将离线计算的部分并行化处理,以获得更高的算法执行效率. |