推荐系统实践学习

推荐系统实践

电子商务

  1. 相关推荐列表最重要的应用就是打包销售(cross selling)
  2. 亚马逊的前科学家Greg Linden在他的博客里曾经说过,在他离开亚马逊的时候,亚马逊至少有20%(之后的一篇博文则变更为35%)的销售来自于推荐算法。

电影和视频网站

  1. Netflix在宣传资料中宣称,有60%的用户是通过其推荐系统找到自己感兴趣的电影和视频的
  2. YouTube个性化推荐的点击率是 热门视频点击率的两倍

个性化音乐网络电台

  1. 个性化推荐的成功应用需要两个条件
    1. 信息过载
    2. 用户大部分时候没有特别明确的需求
  2. Pandora:音乐基因工程
    1. 基于内容,标注,相似度
  3. Last.fm:利用用户行为计算歌曲的相似度

社交网络

  1. Facebook
    1. 用户之间的社交网络关系
    2. 用户的偏好信息
    3. API:Instant Personalization
    4. 每个分享和它的所有评论被称为一个会话,如何给这些会话排序?EdgeRank算法使用户能够尽量看到熟悉的好友的最新会话。
  2. Twitter

个性化阅读

  1. Google Reader关注自己感兴趣的人
  2. Zite是收集用户对文章的偏好信息
  3. Digg

基于位置的服务

  1. Foursquare给用户推荐好友在附近的行为

个性化邮件

  1. Tapestry 分析用户阅读邮件的历史行为和习惯对新邮件进行重新排序,从而提高用户的工作效率
  2. 谷歌邮件箱:优先级收件箱:该产品可以帮助用户节约6%的时间

个性化广告

  1. 广告定向投放(Ad Targeting)
    1. 个性化推荐着重于帮助用户找到可能令他们感兴趣的物品,
    2. 广告推荐着重于帮助广告找到可能对它们感兴趣的用户
  2. 个性化广告投放技术
  3. 雅虎
  4. facebook

推荐系统评测

  1. 三个参与方:用户、物品提供者和提供推荐系统的网站

  2. 准确度/覆盖度…

  3. 推荐系统实验方法

    1. 离线实验
    2. 用户调查
    3. 在线实验
  4. 评测指标

    1. 用户满意度
    2. 预测准确度(用户的行为和兴趣模型)
      1. 评分预测:RMSE和MAE计算
      2. TopN推荐:预测准确率=准确率/召回率
    3. 覆盖率
      1. 信息熵
      2. 基尼指数(基尼指数与马太效应)
    4. 多样性
    5. 新颖性
    6. 惊喜度
    7. 信任度
    8. 实时性
    9. 健壮性
    10. 商业目标
  5. 评测维度

    1. 用户维度
    2. 物品维度
    3. 时间维度

利用用户行为数据

  1. 基于用户行为分析的推荐算法(协同过滤算法)
  2. 用户兴趣模型
  3. 用户行为的统一表示
  4. 长尾分布PowerLaw
  5. ML-1M测试

基于邻域的算法

  1. 基于用户的协同过滤算法(1992,邮件过滤)
    1. UserCF(余弦相似度公式)
      1. 物品-用户的倒叙表
      2. 用户相似度矩阵W
      3. W除以分母得到用户兴趣相似度
    2. User-ⅡF(惩罚共同兴趣列表中热门物品对相似度的影响)
    3. Random
    4. MostPopular
  2. 基于物品的协同过滤算法(亚马逊)
    1. 步骤:
      1. 计算物品之间的相似度
      2. 根据物品的相似度和用户的历史行为给用户生成推荐列表
    2. 基础算法
      1. 用户-物品倒排表
      2. C矩阵
      3. 相加,归一化得到物品之间的余弦相似度矩阵W
    3. 性能指标:精度/流行度/覆盖率
  3. UserCF和ItemCF优缺点的对比(P61)
  4. UserCF和ItemCF算法在不同K值下的召回率曲线
  5. 哈利波特问题

隐语义模型

  1. 采取基于用户行为统计的自动聚类
  2. 有pLSA、LDA、隐含类别模型(latent class model)、隐含主题模型(latent topic model)、矩阵分解(matrix factorization)
  3. LFM模型为例介绍隐含语义分析技术
  4. 隐形反馈数据集
  5. LFM确实可以实现通过用户行为将物品聚类的功能
  6. LFM和基于邻域的方法的比较

基于图的模型

  1. 用户行为数据的二分图表示(用户物品二分图模型)
  2. 基于图的推荐算法
  3. PersonalRank算法

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达,可以邮件至 963614756@qq.com。