推荐系统实践
电子商务
- 相关推荐列表最重要的应用就是打包销售(cross selling)
- 亚马逊的前科学家Greg Linden在他的博客里曾经说过,在他离开亚马逊的时候,亚马逊至少有20%(之后的一篇博文则变更为35%)的销售来自于推荐算法。
电影和视频网站
- Netflix在宣传资料中宣称,有60%的用户是通过其推荐系统找到自己感兴趣的电影和视频的
- YouTube个性化推荐的点击率是 热门视频点击率的两倍
个性化音乐网络电台
- 个性化推荐的成功应用需要两个条件
- 信息过载
- 用户大部分时候没有特别明确的需求
- Pandora:音乐基因工程
- 基于内容,标注,相似度
- Last.fm:利用用户行为计算歌曲的相似度
社交网络
- Facebook
- 用户之间的社交网络关系
- 用户的偏好信息
- API:Instant Personalization
- 每个分享和它的所有评论被称为一个会话,如何给这些会话排序?EdgeRank算法使用户能够尽量看到熟悉的好友的最新会话。
个性化阅读
- Google Reader关注自己感兴趣的人
- Zite是收集用户对文章的偏好信息
- Digg
基于位置的服务
- Foursquare给用户推荐好友在附近的行为
个性化邮件
- Tapestry 分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序,从而提高用户的工作效率
- 谷歌邮件箱:优先级收件箱:该产品可以帮助用户节约6%的时间
个性化广告
- 广告定向投放(Ad Targeting)
- 个性化推荐着重于帮助用户找到可能令他们感兴趣的物品,
- 广告推荐着重于帮助广告找到可能对它们感兴趣的用户
- 个性化广告投放技术
- 雅虎
推荐系统评测
三个参与方:用户、物品提供者和提供推荐系统的网站
准确度/覆盖度…
推荐系统实验方法
- 离线实验
- 用户调查
- 在线实验
评测指标
- 用户满意度
- 预测准确度(用户的行为和兴趣模型)
- 评分预测:RMSE和MAE计算
- TopN推荐:预测准确率=准确率/召回率
- 覆盖率
- 信息熵
- 基尼指数(基尼指数与马太效应)
- 多样性
- 新颖性
- 惊喜度
- 信任度
- 实时性
- 健壮性
- 商业目标
评测维度
- 用户维度
- 物品维度
- 时间维度
利用用户行为数据
- 基于用户行为分析的推荐算法(协同过滤算法)
- 用户兴趣模型
- 用户行为的统一表示
- 长尾分布PowerLaw
- ML-1M测试
基于邻域的算法
- 基于用户的协同过滤算法(1992,邮件过滤)
- UserCF(余弦相似度公式)
- 物品-用户的倒叙表
- 用户相似度矩阵W
- W除以分母得到用户兴趣相似度
- User-ⅡF(惩罚共同兴趣列表中热门物品对相似度的影响)
- Random
- MostPopular
- UserCF(余弦相似度公式)
- 基于物品的协同过滤算法(亚马逊)
- 步骤:
- 计算物品之间的相似度
- 根据物品的相似度和用户的历史行为给用户生成推荐列表
- 基础算法
- 用户-物品倒排表
- C矩阵
- 相加,归一化得到物品之间的余弦相似度矩阵W
- 性能指标:精度/流行度/覆盖率
- 步骤:
- UserCF和ItemCF优缺点的对比(P61)
- UserCF和ItemCF算法在不同K值下的召回率曲线
- 哈利波特问题
隐语义模型
- 采取基于用户行为统计的自动聚类
- 有pLSA、LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解(matrix factorization)
- 以LFM模型为例介绍隐含语义分析技术
- 隐形反馈数据集
- LFM确实可以实现通过用户行为将物品聚类的功能
- LFM和基于邻域的方法的比较
基于图的模型
- 用户行为数据的二分图表示(用户物品二分图模型)
- 基于图的推荐算法
- PersonalRank算法
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达,可以邮件至 963614756@qq.com。