虽然推荐系统是帮助人们选择物品的最强大的工具,但为了满足人们的需求,需要更高的推荐精度。基于这一需求,本研究提出了一种新的协同过滤(CF)算法,该算法是推荐系统的底层技术。它根据类似用户的反应为目标用户过滤项目。聚类分析通过对一组用户进行分组,使同一组中的用户彼此之间的相似性大于其他组中的用户,从而帮助检测相似的用户。然而,在大多数具有代表性的CF算法中,如GroupLens算法,将用户视为球形数据,并且在先前的研究中,在聚类阶段将用户视为分类多元数据。本研究提出了一种基于q-散度的球形数据模糊聚类的CF方法,作为聚类阶段和GroupLens算法一致地将用户作为球形数据处理,从而克服了这一逻辑缺口。在bookcrossing、Epinions、Jester、LibimSeTi、MovieLens和SUSHI 6个真实数据集上进行了实验,比较了该方法与GroupLens和基于q-divergence的分类多元数据模糊聚类方法的性能,后者是传统方法,其性能以接受者工作曲线下的面积来衡量。实验结果表明,该算法在推荐精度方面优于其他算法。
目前,数字平台上存在着大量的信息,因此,选择真正与每个用户相关的信息是非常困难的。推荐系统是最强大的工具,可以帮助人们从许多有代表性的选项中选择产品、活动和朋友。虽然像Amazon.com这样的推荐系统已经无处不在,但是它们的推荐精度还不足以满足人们日益增长的需求。本研究的动机是推荐系统对更高准确率的要求。
在推荐系统中结合的许多技术中,协同过滤(CF)是最基本的技术(Paul et al. 1994;Sarwar et al. 2001),它可以根据类似用户的偏好过滤用户可能喜欢的项目(产品、活动或朋友)。最具代表性的CF方法是GroupLens (Herlocker et al. 1999),该方法简单、省时。然而,“相似用户”的相似性是启发式定义的。适当的相似性定义可以帮助CF向用户推荐更合适的项目。我们认为用户隐式地属于一个潜在群体,其中用户在同一群体中具有相似的偏好。如果我们可以确定这样的群体,我们就可以确定与目标用户相似的用户,然后CF可以根据相似用户的偏好帮助向目标用户推荐商品。
聚类只是一种检测潜在群体的技术。基于给定数据的类型,已经提出并应用了许多聚类方法。Honda(2016)建议对多项混合模型(FCCMM)诱导的分类多元数据应用模糊聚类,该模型基于聚类智能词袋概念。Kondo和Kanzawa(2018)修改了FCCMM算法,将其称为基于q-发散的模糊聚类,用于多项混合模型(QFCCMM)诱导的分类多元数据。q-散度之所以受到关注,是因为它不仅是FCCMM中使用的标准Kullback-Leibler散度的推广,而且也是Tsallis统计中讨论的散度,通过该散度,在广泛的复杂系统中证实了预测和结果(Tsallis 2009)。在聚类任务中使用q-散度而不是Kullback-Leibler散度,有可能充分捕获聚类,实际上QFCCMM比FCCMM获得了更高的聚类精度(Kondo and Kanzawa 2018)。此外,在之前的研究(Kondo and Kanzawa 2019)中,我们提出将QFCCMM作为GroupLens用于CF任务的准备步骤,并指出基于QFCCMM的CF算法不仅优于GroupLens算法,而且优于基于fccmm的CF算法。
应该基于给定的数据类型应用聚类方法。FCCMM (Honda et al. 2015)和QFCCMM (Kondo and Kanzawa 2018)最初是针对分类多元数据(如文档数据)提出的。在对CF任务应用FCCMM或QFCCMM的情况下,我们将用户给出的项目评级向量(评级向量)视为分类多变量数据。另一方面,GroupLens不将评级向量作为分类多变量数据处理。GroupLens中使用的Pearson系数关注的是用户物品评分向量的方向,而不是它们的大小。由于用户的物品评价向量是由均匀大小构成的,因此它们与物品的维度在单位超球上。换句话说,GroupLens将评级向量作为球形数据处理。因此,在基于qfccmm的CF算法中,用户被视为分类多元数据,而在GroupLens算法中,用户被视为球形数据,这是一个逻辑缺口。有必要为球形数据设计一种聚类方法,它有可能解决这种逻辑差距。在之前的研究中,Higashi等人提出了基于q-divergence的球形数据模糊聚类,称为QFCS (Higashi et al. 2019),并证明了所提出的聚类算法在多个文档数据集上实现了更高的聚类精度。虽然QFCS不仅值得应用于聚类文档,而且值得应用于CF任务的聚类评级向量,但在文献中没有应用。
在本研究中,我们提出了一种CF算法,并结合QFCS聚类算法。首先,对给定评价矩阵中所有未评价的元素,暂定所有已评价值中的最低值。随后,将所有值归一化,使所有用户的物品评分向量都在单位超球上。其次,QFCS算法将用户的物品评分向量分成若干类;第三,对每个用户的物品评分聚类应用GroupLens算法。最后,如果每个项目对应的估计值高于预定义的截止值,则推荐该项目。通过6个真实数据集的数值实验,将该方法与两种候选算法(GroupLens和基于qfccmm的算法)的结果进行了比较。实验结果表明,该算法在推荐精度上优于两种算法。
本文的其余部分组织如下:第2节介绍了具有代表性的CF算法GroupLens;基于聚类的CF算法,基于qfccmm的CF算法;球形数据的模糊聚类算法,QFCS算法。第3节给出了提出的CF算法。第4节是数值实验,第5节给出结论。
最常用的CF算法是基于“邻域”的概念(Herlocker et al. 1999),即根据目标用户的偏好选择用户的邻居,然后根据目标用户邻居的偏好估计目标用户的潜在偏好。
设N为用户数量,M为商品数量。设(,)为用户对物品的评价值。第-个元素值为的矩阵用X表示。由于所有用户并不总是评估所有项目,因此X的一些元素缺失。然后,CF的目标是估计这些缺失值。设为用户是否评估该物品的指示器,定义为
(1)
Y表示第-个元素值所在的矩阵。设为用户评估的项目集合。设为目标用户与目标用户邻居之间的相似度度量。相似度度量由Pearson相关系数定义,使用用户和已评估的项目的评级值,如
(2)
对于用户和被评估的项目,用户的平均评分值在哪里
(3)
如果为空,则设置为零。设为目标用户尚未评价的物品的缺失值,设为用户评价过的物品的平均评分值,为
GroupLens方法(Herlocker et al. 1999)估计目标用户的未知评级值,使得和之间的偏差是和之间偏差的Pearson相关系数加权平均值,其中表示与目标用户有正相关的每个用户。然后,将目标用户的估计评分值描述为
(4)
其中是评估该项目的用户集。对于目标用户,如果不存在同时满足和的用户,则式(4)中正好。
GroupLens算法总结为[GroupLens]
步骤1。根据用户的偏好得到用户之间的相似度,如Eq.(2)所示。
步骤2。估计缺失值(,),如Eq.(4)。
在GroupLens方法中,启发式地将与目标用户相似的用户()定义为满足的用户,如式(4)所示。需要注意的是,这个定义是有理论依据的,并且有很多方法可以定义与目标用户相似的用户。我们专注于根据用户的偏好对其进行聚类。Kondo and Kanzawa提出的QFCCMM (Kondo and Kanzawa 2018)算法如下:设为一个分类多元数据集,其中表示第k个用户与第-个项目之间的共现关系。第i个簇的隶属度记为,集合的隶属度记为U, U服从约束
(5)
第i类的第i项的典型性表示为;的集合用w表示,它服从约束
(6)
控制第i个簇大小的变量表示为。向量的第i个元素记为,它服从以下约束:
(7)
通过求解优化问题,得到了QFCCMM算法
(8)
以等式为准。(5)、(6)、(7),其中为满足、、的模糊化参数。由于目标函数的第二项是q-散度,因此该方法被命名为“基于q-散度的分类多元数据模糊聚类”。该算法如下(Kondo and Kanzawa 2018)。
步骤1。设置模糊化参数和簇数c。初始化典型性w和控制簇大小的初始变量。
步骤2。计算s为
(9)
对所有和。
步骤3。计算U为
(10)
对所有和。
步骤4。计算w as
(11)
对所有和。
第5步。计算为
(12)
对所有人来说。
步骤6。检查的限制标准。如果不满足,请转步骤2。
用户的簇索引由
此外,Kondo和Kanzawa提出将上述QFCCMM算法用于CF任务如下(Kondo和Kanzawa 2019):
步骤1。定义一个截止值,。
步骤2。用所有评级值中的最低值替换每个缺失值。
步骤3。2.2.过程算法
步骤4。计算使用
(13)
为了所有人,如果。如果没有用户同时满足和目标用户,则设置。
第5步。用和向目标用户推荐所有项目。
通过一些数值实验表明,该算法在推荐精度方面优于GroupLens算法(Kondo and Kanzawa 2019)。
Higashi等人(2019)提出了一种基于q-Divergence (QFCS)的球形数据模糊聚类方法,定义为
(14)
它受等式的约束。(5)、(7)、及
(15)
其中为在维单位球上,模糊化参数满足和。由于目标函数的第二项是q-散度,因此该方法被命名为“基于q-散度的球形数据模糊聚类”。QFCCMM和QFCS方法都基于q-散度,两者的区别在于目标数据类型;顾名思义,QFCCMM方法用于分类多元数据,QFCS方法用于球形数据。QFCS算法描述为(Higashi et al. 2019)。
步骤1。固定,。假设初始集群中心v和初始变量控制集群大小。
步骤2。更新U
(16)
对所有和。
步骤3。更新为
(17)
对所有人来说。
步骤4。计算为
(18)
对所有人来说。
第5步。检查的限制标准。如果不满足,请转步骤2。
Higashi等人(2019)通过使用16个真实文档数据集的数值实验表明,QFCS在聚类精度方面优于传统方法。
摘要。
1 介绍
2 预赛
3 该方法
4 数值实验
5 结论
参考文献。
作者信息
道德声明
# # # # #
在之前的工作(Kondo and Kanzawa 2019)中,使用QFCCMM聚类算法定义目标用户的邻域。
QFCCMM (Kondo and Kanzawa 2018)最初是针对分类多变量数据(如文档数据)提出的。在将QFCCMM应用于CF任务的情况下,我们将用户的项目评级向量视为分类多元数据。另一方面,GroupLens不将用户的物品评分向量作为分类多变量数据来处理。对于GroupLens中使用的Pearson’s系数,如Eq.(2)所示,所有评级向量的大小都是一致的,并且它们都在具有项目维数的单位超球上。换句话说,GroupLens将用户的项目评级向量作为球形数据处理。
因此,我们建议采用QFCS代替QFCCMM来分割用户的物品评分向量,并对目标用户所属的用户段应用GroupLens。结合算法2.3,我们提出了以下缺失值估计算法:
步骤1。定义一个截止值,。
步骤2。用所有评级值中的最低值替换每个缺失值。
步骤3。将()规范化为(),如
(19)
步骤4。过程算法2.3为。
第5步。估计缺失值(,),如Eq.(13)。
步骤6。用和向目标用户推荐所有项目。
算法3的流程如表1-6所示。表1显示了5个用户与4个物品的初始评价矩阵,其中用户1还没有对物品4进行评价,用“N/ a”表示。将算法3的第2步应用到表1中,得到的评级矩阵如表2所示。因此,,以“N/A”表示,改为。将算法3的第3步应用到表2中,得到的评级矩阵如表3所示。从而对每个用户的评分值进行归一化处理,为球形数据的聚类应用做准备。将算法3的步骤4应用到表3中,我们得到的评分矩阵如表4所示,其中用户#1被放置在集群#1中。在对表3中的集群#1应用算法3的步骤5之前,将值恢复为“N/A”,待预测,如表5所示。将算法3的步骤4应用于表5中的聚类#1,将恢复的“N/A”替换为预测的评分值,如表6所示。如果估计值高于给定的临界值,则向目标用户推荐相应的产品。
表1初始评分矩阵示例:、、和为用户的实际评分值,需要进行预测
表2评级矩阵示例后一步算法3中的2:和
表3评级矩阵示例后一步算法3的第3条:和
表4评级矩阵示例后一步算法3中的4:,,和
表5算法3第5步前的评分矩阵示例
表6算法3步骤5后的评分矩阵示例
数值实验比较了以下三种算法的CF精度:算法2.1、算法2.2和算法3,使用六个真实数据集:“BookCrossing”(Ziegler et al. 2005)、“Epinions”(Massa et al. 2008)、“Jester”(Goldberg et al. 2001)、“LibimSeTi”(Brozovsky和Petricek 2007)、“MovieLens”(Harper和Konstan 2015)和“SUSHI”(Kamishima和Akaho 2009)。
“BookCrossing”数据集是由caii - nicolas Ziegler在BookCrossing社区进行了为期四周的爬行,并得到了human Systems首席技术官Ron Hornbaker的许可。它包含278,858名用户提供的约271,379本书的1,149,780个评级(Ziegler et al. 2005)。然而,只有来自1091个用户对2248本书的35179个评分被用于这个实验。因此,每本书都有超过8个用户评价,每个用户评价超过15本书。在这种情况下,评级从1到10,10是最好的得分。“Epinions”数据集(Massa et al. 2008)是由Paolo Massa从Epinions.com网站抓取5周收集的,它包含用户对软件、音乐、电视节目等产品的评分。在“Epinions”中,49290名用户对139738个产品进行了664824次评分;然而,在我们的实验中,我们使用了1022名用户对835种产品的42,808个评分。此外,评分从1分到5分,5分是最高分。“Jester”数据集(Goldberg et al. 2001)由Ken Goldberg从Jester在线笑话网站收集,它包含用户对笑话的评分。在“小丑”中,59,132名用户为150个笑话记录了约170万个评分;然而,在我们的实验中,我们使用了2916个用户对140个产品的373338个评分。此外,评分从- 10到10,10分是最高分。“LibimSeTi”数据集(Brozovsky and Petricek 2007)由eHarmony.com的Vaclav Petricek发布。这个数据集包括135359名LibimSeTi用户在2006年4月4日创建的168791个个人资料的17359346个匿名评分。评分从1到10分,10分是最高分。因此,每个概要由至少230个用户评估,并且每个用户评估至少230个概要。在我们的实验中,只有来自866个用户的400,955个评价被用于1156个配置文件。“MovieLens”数据集是通过“MovieLens”网站编制的(Harper and Konstan 2015)。这个数据集包含用户对各种电影的评分。在“MovieLens”中,6040名用户为3900部电影记录了1,000,000个评分,但在我们的实验中,我们使用了905名用户对684部电影的277,546个评分。因此,每部电影都有240多人评价,每个用户评价200多部电影。此外,评分从1分到5分,5分是最高分。“寿司”数据集(Kamishima and Akaho 2009)由Toshihiro Kamishima编译,包含用户对寿司种类的评分。在“寿司”中,5000名用户对100种寿司进行了5万次评分。此外,评分从1分到5分,5分是最高分。
2.1算法不包含参数设置。在算法2.2中,设置聚类数和模糊化参数为、、、和。在算法2.2的步骤1中,所有控制簇大小的变量都以簇数的倒数初始化,项目典型性值随机初始化。对于10个初始设置,选择目标函数值最大的聚类结果进行算法2.2的步骤3。在算法3中,除了t不需要设置外,聚类数和模糊化参数的设置与算法2.2相同。在算法2.3的步骤1中,所有控制簇大小的变量都以簇数的倒数初始化,并且随机初始化簇中心值。对于10个初始设置,选择目标函数值最小的聚类结果进行算法3的步骤3。
实验方法如下:首先,“BookCrossing”数据集中的10,000个评级值,“Epinions”数据集中的20,000个评级值,“Jester”数据集中的20,000个评级值,“LibimSeTi”数据集中的20,000个评级值,“MovieLens”数据集中的20,000个评级值,以及“SUSHI”数据集中的10,000个评级值,被随机选择从原始评估值中缺失。这是因为最初的评估值被用来评估算法的推荐精度。注意,最初缺少的值没有被使用。将这些真实评级值从原始数据集中隐藏后,算法2.1、2.2和3预测这些隐藏评级值。然后,使用预测评分值和真实评分值计算算法推荐精度的评价度量,这将在下一小节中提到。这些实验在选择缺失值的五种设置下进行。
我们将三种算法(算法2.1,2.2和3)应用于这六个真实数据集,然后使用接收者工作特征(ROC)曲线(AUROC)下的面积来比较获得的推荐精度(Swets 1979;Hanley and McNeil 1982),定义如下。
所有算法都会在评分值的相应估计值高于预定义的截止值时推荐项目。如果真实评级值高于,则应推荐该产品。在这里,考虑以下四个数字:
真正(TP)是算法在应该推荐这些项目时推荐的项目数。
真负(TN)是当这些项目不应该被推荐时,算法没有推荐的项目数量。
假阳性(FP)是算法在不应该推荐的项目时推荐的项目数。
假阴性(FN)是算法在应该推荐的项目中没有推荐的项目数量。
真阳性率(TPR)为TP在TP和TN中的百分比。假阳性率(FPR)为FP在FP和FN中的百分比。TPR和FPR,包括TP、TN、FP和FN,根据截止值变化。然后,将不同截止点得到的FPR和TPR的几对进行连接,绘制ROC曲线,AUROC为ROC曲线下的面积。AUROC值越高,CF算法的结果越准确。在本实验中,AUROC是使用从0.1到最大额定值的离散截止值以0.1的增量计算的。
表7、8、9、10、11、12显示了每种方法的最高AUROC值以及达到最高AUROC值的参数值。表13显示了它们的摘要,其中下划线显示了三种方法中AUROC值最高的方法。
表13表明,所有算法对Epinions和SUSHI两个数据集产生相同的AUROC值;算法2.2和算法3对MovieLens数据集的AUROC值相同,且高于算法2.1;对于Epinions、Jester和LibimSeTi数据集,算法3产生的AUROC值高于其他方法。
从表13可以看出,对于所有数据集,算法3得到的AUROC值都大于或等于其他方法得到的AUROC值。因此,该算法在推荐精度方面优于其他算法。该方法具有更好的推荐精度,这是由于球形数据的聚类比分类多元数据的聚类更能准确地分割用户。
表7每种方法的最高AUROC值及其对应“BookCrossing”数据集的结束参数值
表8每种方法的最高AUROC值及相应的“Epinions”数据集的结束参数值
表9每种方法的最高AUROC值及相应的“Jester”数据集的结束参数值
表10每种方法的最高AUROC值及其对应的LibimSeTi数据集的结束参数值
表11每种方法的最高AUROC值及相应的“MovieLens”数据集的结束参数值
表12每种方法的最高AUROC值及对应的“SUSHI”数据集的结束参数值
表13所有真实数据集的最高AUROC值总结
在本研究中,我们提出了一种基于q-散度模糊聚类的球形数据CF算法。实验在六个数据集上进行,使用了三种不同的算法。实验结果表明,本文提出的算法在推荐精度方面优于传统方法,这是由于球形数据的聚类比分类多元数据的聚类能够更准确地分割用户。结果表明,为了获得更好的推荐精度,用户的物品评分向量应该被视为球形数据,而不是分类多元数据。
这项研究有一个主要的局限性。该算法必须具有预定义的聚类数和两个模糊化参数值。通过多个聚类数和模糊化参数进行了实验,并与常规方法比较了最佳AUROC值。这意味着在适当设置预定义的聚类数和模糊化参数的情况下,该方法可以获得较高的推荐精度。但是,如果没有适当地设置它们,则推荐的准确性会降低,并且可能比传统方法更差。
为了克服这一局限性,未来的研究目标是为所提出的方法选择合适的聚类数和模糊化参数值;例如,采用聚类效度指标(Dunn 1974;迦特和基瓦1989;Xie and Beni 1991;Wang and Zhang 2007)并进行交叉验证。
ccDownload: /内容/ pdf / 10.1007 / s12652 - 021 - 03128 - 6. - pdf
点击分享到









