欢迎光临超级机器人网站,专业制造,信誉卓著,十年优质保证

超级机器人

以诚信赢得用户,以品牌开拓市场

推荐算法:协同过滤

作者:jcmp      发布时间:2021-04-20      浏览量:0
<;lt;集体智慧:从随机人群收集、

<;lt;<强>集体智慧:从随机人群收集、组合和分析数据通常用于机器学习算法和统计方法。>;

<;<强>机器学习(机器学习):从算法中推断出一组数据的属性相关信息,并预测未来可能出现的其他数据。总结了数据中的“模式”,并利用数据中所识别的重要特征对数据进行了训练,得到了模型。>;

<;<强>协作过滤(协作过滤):搜索数据并找到您感兴趣的一些数据。(如“电影”的偏好过滤)>;

建立偏好数据

根据用户对项目或相关操作的评分(例如与x点对应的“收集”操作)生成数据。

相似度评估值

要根据数据确定用户(项目)的相似度,必须计算“相似性评估值”。引入了以下两组简单系统:<强>欧氏距离、<强>Pearson相关

欧氏距离

欧氏距离评分。以用户统一评价的项目为坐标,在图上绘制参与评估的用户,考察用户与对方之间的距离。在“偏好空间”中,两者之间的距离越近,相似性越高。
坐标空间可以是二维的或多维的(多项偏好的相似比较)

项目2
s12

s22s23

如上表,User 1和user 2费用评估Item1~3,那么user 1与user 2之间的欧几里德距离为
sim_距离=1/(S_Of_Square)=1/(s11-s21)^2+(S12-S22)^2+(s13-s23)^2)
是方差和的倒数。如果两个人的分数完全相同,那么上述公式值是无限的,因此方差和+1往往是相反的,即sim_距离=1/(1+s_x2)

Pearson相关性

Pearson相关是判断两组数据对直线拟合程度的一种度量。
以用户得分为坐标轴,在坐标空间中绘制项目,绘制最佳拟合线。如果两个人的得分相同,最佳拟合线是对角线,相关性为1。该方法修正了“夸张得分”(例如,user 1比user 2更倾向于给出更高的评价,或者更严格地由user 1评分给出的分数偏低)。算法的计算过程如下:
和1=s11+s12+s13;SUM 2=s21+s22+s23//和
SUM 1_sqrt=s11^2+s12^2+s13^2_sqrt=S21^2+S 22^2+s 23^2/平方和
psum=s 11*s21+S 12*s22+s 13*s 23//积
den=sqrt((sum1_sqrt-1^2/n)*(2 sqrt-2^2/n))//拟合公式

sim=(psum-sum1*sum2/n)Code>

选择相似性度量

Pearson相关在数据不规则(大偏差)时比欧氏距离有更好的结果。但计算也比较复杂。
的相似度取决于具体的应用,其他常见的相似系数有Jaccard系数、曼哈顿距离等。相似度计算函数满足以下共同条件:以浮点数作为返回值,该值越大,相似度越大,

当基于用户/项过滤

生成大数据集推荐列表时,基于项的过滤明显加快,但需要对项相似度表进行额外维护。对于稀疏数据集,基于项的传递更好;对于密集数据集,效果几乎相同。基于用户的实现更容易实现,但每次推荐时都会将一个用户与其他用户进行比较,这是效率较低的,而且通常适用于在较小规模上频繁更改的内存数据集。