分析：基于机器学习的个性化推荐系统

本文主要跟讲解的是基于机器学习的个性化推荐系统，一起来看看~

需求场景：
在获知用户潜在的若干个兴趣点的情况下，如何快速的捕获用户的兴趣点，并给予持续的满足，并形成消费转化，让用户能够快速的找到有价值的内容

概括的说，推荐系统是信息分发的一种手段，用于用户需求不明确或难以简单表述的场景

需求分类：
明确：延续性&周期性行为
利用：围绕用户兴趣点进行推荐

探索：拓展用户新兴趣点进行推荐

应用场景业务目标
用户消费行为的最大化

推荐评价指标

准确率、覆盖率、惊喜度、稳定性、可解释性、多样性

衡量标准
整体衡量指标：整个产品的的留存时长、用户留存数
局部衡量指标：推荐模块人均的展现量、点击量、消费时长、频道留存率、点击率、点击用户比、评论点赞数

细节衡量指标：推荐内容的点击率（CTR）、消费完成度、消费时长、下拉数

主要步骤 – 召回 – 排序 – 策略干预

在召回环节，通过召回策略，初选出用户可能感兴趣的内容候，形成一个召回的一个候选集

在排序环节，结合用户特征，产品环境信息推荐内容特征，使用机器学习的模型算法，对召回后的内容进行经排序，以满足核心的业务目标

在策略干预环节，对机器学习形成的排序进行策略干预。例如需要去做多元打散来，以及兼顾其他特定的业务目标等等

1. 召回环节
推荐模型计算开销较大，完全依赖模型推荐成本过高，因此需要设计召回策略，从海量的数据中筛选出用于推荐的内容候选集。

简单召回；
用户历史消费内容相似的内容。
历史：用户的兴趣有长线的还有即时的兴趣，长线兴趣即用户在平台上过去的一周或者过去的一月一年在平台上说表现的兴趣，即时兴趣用户在今天突然对某个的内容产生了兴趣。

相似：我们可以通过基于内容的相似，或者基于协同过滤，从这两面都出发，构成内容候选集。（协同过滤 : 利用兴趣相投群体的喜好来推荐用户感兴趣的信息）

基于以上的两个维度，我们可以找到一个用户历史内容相似的内容的一个候选集。

（1）基于用户画像的匹配
通过用户画像对用户进行细分，去收集每一个细分领域内的关注的热点是什么，比如：IT行业、24岁、男性、本科、产品汪，你可以收集产品汪喜欢看的内容，也可以售后机24岁、男性这个画像喜欢看的内容，
基于用户画像的推荐，有两个实体：内容和用户。需要有一个联系这两者的东西，即为标签。内容转换为标签即为内容特征化，用户则称为用户特征化。

（2）排序召回
最新、最热、最近、最新光顾、人工精选。

（3）规则召回
天气、近期搜索浏览、朋友的购买、同期过往习惯等业务性策略。

2. 排序环节
（1）模型简介
机器学习本质上来说就是通过已有的数据，进行算法的选择，并基于算法和数据构建模型，最终对未来进行预测，简单的来说就是总结过去、预测未来。

什么是模型呢？
一般来说给定自变量的值，通过表达式计算就可达到因变量的值，而在机器学习中给定了自变量和因变量的值，通过机器学习，得到这表达式，也就是模型。
在CV领域，模型可以把一个自变量的输入，也就是一张图片，转化成一个分类。在NLP领域，模型可以把一个自变量的输入，一段语音，转化成文字。
而模型当中参数会有无数种组合，而我们则需要从中找到一个最优的一组参数。

（2）模型的构建
确定输出Y：
期望模型预估的什么，比如：在推荐领域我们想得到的输出是用户点击这个推荐的内容的概率有多大；在预测肿瘤的性质中，希望得到是良性还是恶性；在NLP特征工程对文本进行处理中，我们期望的输出是一段文本。
确定输入X（特征）：
哪些业务因素会影响我们的结果，比如：在推荐系统中影响用户最后点击的可能有是否与用户喜爱匹配，内容的整体热度，当前所处的地理位置，等等；在预测肿瘤是结果，可能有肿瘤的面积、形状、方向等等。
输入输出的关系X﹣Y（算法的选择）：
需要根据我们想要的结果确定相应的模型，一般的结果分为两类：一类是离散型变量，一类是连续型变量。
输出的如果是离散型变量则是分类问题；
输出的如果是连续性变量则是回归问题。
比如：预测用户点击推送的内容的概率是多大，则是回归问题，而预测是否点击，则是分类问题。

线性：逻辑回归（LR）优点解释性比较强，缺点在变量是非线性关系的时候表现很差；
非线性：随机森林（RF）或梯度提升树（GBM），优点适应性强，有很好的鲁棒性，缺点可解释性差；

深度学习DNN：非线性，优点技术牛逼，表现优异，缺点解释性更差，对于数据的要求比较高。

（3）训练模型
基于已知的X和Y，收集推荐的历史数据，构建训练集和测试集。为了使我们的训练效果更好，我们需要根据内容消费行为的完成度进行有效的过滤，抛弃低完成度行为。
在训练数据集上运行模型(算法)并在测试数据集中测试效果，迭代进行数据模型的修改，进而找到最优参数。

（4）模型的评估
分类算法的评估方式有：精确度、召回率、F1指标、混淆矩阵、ROC曲线、ROC曲线下面的面积。
回归算法的评估方式有：一般使用的方法有平均方差、绝对误差、R平方值，而一般产生的结果可能有过拟合、欠拟合。

过拟合：算法太符合样本数据的特征，对于实际产生中的数据特征无法拟合

欠拟合：算法不太符合样本的数据特征

3. 策略干预
平台出于内容生态和社会责任的考量，像低俗内容的打压，标题党、低质内容打压，重要新闻的置顶、加权、强插，低级别账号内容降权都是算法本身无法完成，需要进一步对内容进行干预。

强插：对于重度投入的头部内容，不管从运营的角度还是产品的角度都是有实际需求。
分类打散：保证多样性，解决某种情况下，一个分类下的内容都被排在前面的问题。通过给每一个分类以一个合适的配比，进行展现。
内容配比：保证新内容在推荐结果很注重又一个占比，避免因马太效应导致没有用户数据的内容，无法进行推荐。

分析：基于机器学习的个性化推荐系统

78 thoughts on “分析：基于机器学习的个性化推荐系统”

发表评论取消回复

78 thoughts on “分析：基于机器学习的个性化推荐系统”

发表评论 取消回复

发表评论取消回复