推荐系统的常见方法总结
2016-09-06 21:34
211 查看
1.Content based
TF-IDF
Term Frequency - Inverse Document Frequency
词频-逆向文件频率
倾向于过滤掉常见的词语,保留重要的词语
i 指术语(特征),j 指文件(项目)
D是文件(项目)的集合,分母部分指术语t出现过的文件的集合
这里的分子母分部分均指集合元素数量数量统计
通常选用得分最高的几个术语作为标签进行推荐
2.Collaborative
Collaborative Filtering 协同过滤
假设我们要推荐产品给用户x,
首先找到n个产品反馈相似的(评分、购买、反馈相似)其他的用户
通过这些用户对x的评价来进行推荐
寻找相似用户的方法
Jaccard 相关系数
J=|A∩B|/|A∪B|
Cosine similarity measure 余弦相似度
n维
Pearson correlation coefficient 皮尔森相关系数
或
注意这里求得的相似度可能为负值
3.Latent factor based
潜在因子算法
RMSE 均方根误差
Root Mean Square Error
此方法另外找时间详细描述
我认为其基本思想基于最小二乘法 http://blog.csdn.net/joshualiunsw/article/details/52223887
其实就是个多维的最小二乘
Regularization
正则化
主要的思想是避免预测向量(函数)过拟合,因此要限制pq的过大波动
通常的方法是在最小化的误差函数上加上参数值(梯度)的长度的影响
TF-IDF
Term Frequency - Inverse Document Frequency
词频-逆向文件频率
倾向于过滤掉常见的词语,保留重要的词语
i 指术语(特征),j 指文件(项目)
D是文件(项目)的集合,分母部分指术语t出现过的文件的集合
这里的分子母分部分均指集合元素数量数量统计
通常选用得分最高的几个术语作为标签进行推荐
2.Collaborative
Collaborative Filtering 协同过滤
假设我们要推荐产品给用户x,
首先找到n个产品反馈相似的(评分、购买、反馈相似)其他的用户
通过这些用户对x的评价来进行推荐
寻找相似用户的方法
Jaccard 相关系数
J=|A∩B|/|A∪B|
Cosine similarity measure 余弦相似度
n维
Pearson correlation coefficient 皮尔森相关系数
或
注意这里求得的相似度可能为负值
3.Latent factor based
潜在因子算法
RMSE 均方根误差
Root Mean Square Error
此方法另外找时间详细描述
我认为其基本思想基于最小二乘法 http://blog.csdn.net/joshualiunsw/article/details/52223887
其实就是个多维的最小二乘
Regularization
正则化
主要的思想是避免预测向量(函数)过拟合,因此要限制pq的过大波动
通常的方法是在最小化的误差函数上加上参数值(梯度)的长度的影响
相关文章推荐
- 推荐系统中常见的几种相似度计算方法和其适用数据
- 阶段总结--业务系统代码中常见的异常错误总结以及避免方法
- 个人总结出的49条网众无盘系统常见故障解决方法
- 推荐系统中的相似度计算方法总结
- 推荐系统中的相似度计算方法总结及实现代码(python)
- 常见系统问题及其解决方法
- 路由重分发、路由过滤方法及难点总结(EIGRP、OSPF实例) 推荐
- 常见拒绝服务攻击行为特征与防御方法 推荐
- 系统分析中写 需求说明书 的方法--个人经验总结
- CDP技术——系统安全的更深层保护方法 推荐
- 推荐Sql server一些常见性能问题的解决方法
- 实现div可编辑的常见方法总结
- 自己多年总结的一些系统常见应用程序的具体位置(高手免看)
- windows系统常见端口关闭方法
- 关闭系统常见端口的方法
- GRUB常见问题的解决方法 - 系统应用 - 男人莫哭
- windows 常见小故障解决方法(总结)
- Linux系统常见紧急情况的处理方法
- Linux系统下6个常见紧急情况的应急处理方法
- 总结:几种常见的内部排序方法