推荐算法入门

首页 > 代码库 > 推荐算法入门

1. 基于流行度的算法

能够依照一个项目的流行度进行排序，将最流行的项目推荐给用户。比方在微博推荐中。将最为流行的大V用户推荐给普通用户。

微博每日都有最热门话题榜等等。
算法十分简单，通过简单热度排序就可以。

文章> Predict Whom One Will Follow:Followee Recommendation in Microblogs中推荐好友有一部分採取的策略是Item-popularity.通过计算在训练集中项目（能够是人、群组、公众号）被接受的次数来得到项目的流行度信息。

文章> A Social and Popularity-based Tag Recommender通过结合标签的流行度和另据意见向用户推荐标签。

缺点：无法提供个性化推荐
长处：算法简单。对于新注冊的用户比較有效
改进或者新的思路：增加用户分群的流行度排序。比如把热榜上的体育内容优先推荐给体育迷。这里能否够考虑社区发现聚类等算法？？

2.协同过滤算法

协同过滤算法(Collaborative Filtering, CF)是非经常常使用的一种算法。在非常多电商站点上都实用到。CF算法包含基于用户的CF(User-based CF)和基于物品的CF(Item-based CF)。

2.1 基于用户的CF

1、分析各个用户对item的评价（通过浏览记录、购买记录等）；
2、依据用户对item的评价计算得出全部用户之间的类似度。
3、选出与当前用户最类似的N个用户。
4、将这N个用户评价最高而且当前用户又没有浏览过的item推荐给当前用户。
首先我们依据站点的记录计算出一个用户与item的关联矩阵。例如以下，以微博数据为例
技术分享

图中，行是不同的用户，列是全部物品，(x, y)的值则是x用户对y物品的评分（喜好程度）。我们能够把每一行视为一个用户对物品偏好的向量。然后计算每两个用户之间的向量距离。这里我们用余弦类似度来算：
技术分享

然后得出用户向量之间类似度例如以下，当中值越接近1表示这两个用户越类似：
技术分享

最后，我们要为用户1推荐物品，则找出与用户1类似度最高的N名用户（设N=2）评价的物品，去掉用户1评价过的物品。则是推荐结果。

基于物品的CF原理大同小异。仅仅是主体在于物品：

1、分析各个用户对item的浏览记录。
2、依据浏览记录分析得出全部item之间的类似度；
3、对于当前用户评价高的item。找出与之类似度最高的N个item。
4、将这N个item推荐给用户。
2、基于物品的CF

计算方式大致同样。仅仅是关联矩阵变为了item和item之间的关系，若用户同一时候浏览过item1和item2，则(1,1)的值为1。最后计算出全部item之间的关联关系例如以下：
对于微博数据集，item能够指的是被关注者（followee）,而item之间的类似度能够通过用户对于item的行为来统计。假设用户对于item有过行为，则能够令偏好值为1。针对用户关注行为列表，能够通过统计item在用户关注列表中的共现次数来计算。

技术分享
长处：算法简单，一定程度上准确率高
缺点：

1、依赖于准确的用户评分。
2、在计算的过程中，那些大热的物品会有更大的几率被推荐给用户；
3、冷启动问题。当有一名新用户或者新物品进入系统时，推荐将无从依据；
4、在一些item生存周期短（如新闻、广告）的系统中。因为更新速度快，大量item不会实用户评分，造成评分矩阵稀疏，不利于这些内容的推荐。

3 基于内容的算法

大量的语料库中通过计算（比方典型的TF-IDF算法），我们能够算出新闻中每个关键词的权重。在计算类似度时引入这个权重的影响，就能够达到更精确的效果。
利用word2vec一类工具，能够将文本的关键词聚类，然后依据topic将文本向量化。

如能够将德甲、英超、西甲聚类到“足球”的topic下。将lv、Gucci聚类到“奢侈品”topic下，再依据topic为文本内容与用户作类似度计算。
利用word2vec一类工具，能够将文本的关键词聚类。然后依据topic将文本向量化。如能够将德甲、英超、西甲聚类到“足球”的topic下，将lv、Gucci聚类到“奢侈品”topic下，再依据topic为文本内容与用户作类似度计算。

4 基于模型的算法

基于模型的方法有非常多。用到的诸如机器学习的方法也能够非常深，这里仅仅简介下比較简单的方法——Logistics回归预測。我们通过分析系统中用户的行为和购买记录等数据，得到例如以下表：
技术分享
中的行是一种物品，x1~xn是影响用户行为的各种特征属性。如用户年龄段、性别、地域、物品的价格、类别等等，y则是用户对于该物品的喜好程度，能够是购买记录、浏览、收藏等等。通过大量这类的数据，我们能够回归拟合出一个函数，计算出x1~xn相应的系数。这即是各特征属性相应的权重，权重值越大则表明该属性对于用户选择商品越重要。

在拟合函数的时候我们会想到，单一的某种属性和还有一种属性可能并不存在强关联。

比方，年龄与购买护肤品这个行为并不呈强关联，性别与购买护肤品也不强关联，但当我们把年龄与性别综合在一起考虑时，它们便和购买行为产生了强关联。比方（我仅仅是比方），20~30岁的女性用户更倾向于购买护肤品，这就叫交叉属性。通过重复測试和经验，我们能够调整特征属性的组合。拟合出最准确的回归函数。最后得出的属性权重例如以下：
技术分享

基于模型的算法因为高速、准确，适用于实时性比較高的业务如新闻、广告等。而若是须要这样的算法达到更好的效果，则须要人工干预重复的进行属性的组合和筛选，也就是常说的Feature Engineering。

而因为新闻的时效性。系统也须要重复更新线上的数学模型，以适应变化。

5 混合算法

现实应用中，事实上非常少有直接用某种算法来做推荐的系统。

在一些大的站点如Netflix。就是融合了数十种算法的推荐系统。我们能够通过给不同算法的结果加权重来综合结果，或者是在不同的计算环节中运用不同的算法来混合，达到更贴合自己业务的目的。

‘).text(i)); }; $numbering.fadeIn(1700); }); }); </script>