我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 正例 >

万字干货 一文助你了解机器学习

归档日期:06-24       文本归类:正例      文章编辑:爱尚语录

  线上课程 产品新人如何快速提升Axure能力?这样学,标准低保真/高保线日

  非技术型产品经理福音来了,和程序员不再撕逼,10天在线学习,补齐产品经理必备技术知识。了解一下

  本文将通过大量案例和通俗易懂的“人话”,讲述机器学习建模逻辑和使用场景,让非数据科学专业的职场人都可以快速了解机器学习是什么,能做什么,如何用!

  全球知名创投研究机构CB Insights评选出了100家最有前途的AI公司,国内的商汤科技,旷视科技,第四范式等6家公司杀入到榜单中,同时各大互联网公司都在构建自己的AI实验室。一方面通过AI技术挖掘用户数据,通过+AI,优化现有业务,另一方面探索AI应用新场景,研发新产品,完成AI+,为企业寻找全新的增长引擎。

  笔者有幸参与了一个机器学习建模实验室项目,项目的本质是抽象机器学习建模流程,将机器学习建模过程组件化,通过在画布上对组件(算子)灵活连接,让非专家用户(不会写代码,不熟悉算法模型和调参的产品经理,市场运营,行政财务等职场人)可以快速搭建机器学习模型,实现业务预测,极大降低机器学习应用门槛。

  第一部分、介绍关于AI的常见误区,回答机器学习是什么,可以用来做什么,怎么用;

  第二分部、介绍机器学习为业务赋能的6个步骤,及非专家用户的应用难点和解决方案;

  这一轮AI的火爆始于AlphaGo战胜李世石,随后,智慧城市,智慧生活,智慧办公和智慧医疗等概念可谓是铺天盖地,在各种媒体上能看到各种AI的高大上应用场景,如阿里的鹿班系统双十一时每秒设计8000张海报,无人驾驶汽车在部分城市指定路段上路测试,机器人索菲亚获得了沙特“公民”身份,滴滴利用AI模型预测城市不同位置用车需求,AI读片进入各大医院辅助医生判断癌症,各种报道 让一些非AI相关领域从业者感觉其过于高大上,似乎离自己很远。

  基于历史数据对会员精准营销,挖掘用户潜在消费需求,个性化优惠券下发,流失预警,新会员转化路径个性化配置等

  预测未来X时间内销售量,库存量,订单量,关联销售,优化供应链,预测市场容量,新品定价,设定折扣策略和作弊检测。

  订单异常分析,用户异常分析,机械故障预测,羊毛党分析,动态预警分析等。

  除了上述场景外,只要业务需求可以抽象成分类预测问题,数值预测问题,都可以考虑利用机器学习辅助决策。

  自动化建模也是一大趋势,国外的datarobot就是其中的典型产品,只需要上传一份打好标签的csv数据,选择标签,点击开始,系统自动从数千开源模型中选择100个模型进行自动化调参训练,选出最优模型,并提易懂专业的数据和模型分析报告,指导非专家用户使用。

  但前提是读者需要先摒弃掉那种对抽象概念的恐惧,我相信,看完本文后,当你听到这些抽象概念时可以淡然一笑,既不恐惧也不敬畏,并且理解其本质。

  ai,机器学习和深度学习。这三个概念是包含关系,ai机器学习深度学习。

  通常情况下,会将完成特征工程和标签工程的数据拆成三份:一份训练数据,一份验证数据,一份预测数据,其比例大概可以设为数据集的60%,20%和20%。训练集用于训练模型,验证集用于验证训练集训练模型效果,通过调参逐步提高验证集上模型的预测效果,预测集用于判断模型对于新数据是否有效,是否存在过拟合。

  精确率(precision):是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP)

  召回率(recall):是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。

  正确率(accuracy):是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好。

  f1:是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。f1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0。f1=2*precision*recall/(precision+recall)

  二分类:可以把预测目标抽象成两类,如预测是否患有心脏病,预测用户对某个产品是否感兴趣,可以将预测结果抽象成0和1。阿里PI平台提供了心脏病预测案例

  多分类:可以把预测目标抽象成多个类别,如预测用户年龄段等,一般情况会将多分类问题转化成二分类处理。

  回归:预测某个时间点数值的模型,如预测房价,预测产品价格等。典型案例是预测波士顿房价。

  时间序列:预测某一段时间多个数值的模型,如预测未来一周每天股票价格,预测未来一段时间最高气温。

  聚类:无监督学习,数据无需标签,根据设定分组数自动进行分组,通过观察分组数据特征给用户分群打标,常用于用户分群,案例青少年市场细分。

  推荐模型:经典推荐模型是协同过滤,协同过滤分为两类,基于产品的协同过滤和基于用户的协同过滤。基于产品的协同过滤是用户A喜欢苹果,然后通过算法计算出其他水果与苹果的相似度,然后进行推荐给A;基于用户的协同过滤是用户A喜欢苹果,将同样喜欢苹果的用户B喜欢的额其他产品推荐给A。推荐阅读文章

  明确商业问题和数据挖掘目标,需要通过与一线业务和运营人员沟通,深入理解商业问题的背景,同时对项目所需资源进行评估,这个阶段就需要明确项目商业目标和成功的评估标准。实施要点,充分沟通调研,设定适合的机器学习应用场景。常见的场景有提升用户复购,优化用户推荐,预测用户流失实施召回。本质来说,商业的核心问题就是增加收入、减少流失和人员提效。

  第一步,进行预处理。处理缺失值和异常值问题,缺失值很容易理解,就是给那些没数据特征填一个数值,简单方法可以填充固定值(如-999),平均值,众数或中位数等,复杂的方法可以利用XXX,填充相似数据特征的缺失值。

  第二步,进行特征工程,因为算法模型本质就是数学,所以要把类别特征转换成数值,比如原始数据中性别那一列中是男,女,那么我们就需要将其变成数值0,1,其中0代表男,1代表女。

  one-hot特征编码也是一种常见的处理特征的方法,如一个特征包含0,1,2三个数值,那么可以一特征拆成三个,分别用0,0,1代表0,用0,1,0代表1,用户1,0,0代表2,也就是把不同的类别特征都用0和1去表示,还有很多其他方式,如结合业务规则构建特征,特征多项式交叉相乘,PCA降维等。

  第三步,模型训练和调参。也就是将完成预处理和特征工程的数据接入模型,找到相对最优的模型参数,并基于训练数据训练处最优模型。

  第四步,模型预测和评估。使用训练好的模型跑验证数据,查看预测效果,并根据模型效果继续调参,经过更多轮循环找到最有模型参数。

  第五步,模型应用和效果评估。使用历史数据完成模型训练和调优后我们需要应用到真实业务中,通过A/B测试查看模型的真实效果。

  第六步,模型优化,随着业务拓展和环境变化,可能产生新的特征,所以模型要进行持续调优。

  泰坦尼克号生还实验可谓是一个经典二分类预测,在kaggle平台上一直开放,截止到2019年5月2日,共有11374个队伍参加预测学习,训练数据和预测数据为泰坦尼克号上的所有乘客基础数据,训练集包含819条数据,11个特征和1个标签列,标签列告知用户是否生还,生还为1,去世了为0,预测数据包含了418条数据,11个特征,需要预测这418个人是否生还。

  对类别特征进行类别特征编码,对客舱等级,船票等级等类别特征进行onehot操作,并将处理完成后的数据分成训练集,验证集和预测集,使用逻辑回归模型,进行自动调参运算,选择最优参数后保存模型,将官方提供预测数据经过上述特征工程后接入最优模型,预测用户是否生还,得到的结果是一个概率,也称为阈值,当阈值大于0.5的则判定为1(生还),小于0.5判定为0(遇难),预测结果准确率为0.7799。

  前文中提到预测具体数值的模型可以称为回归预测,本案例也是经典回归预测案例,数据集大家可以到UCI机器学习知识库下载,波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。包含城市人均犯罪率,住在用地所占比例,城镇中非商业用地所占比例,CHAS查尔斯河虚拟变量,环保指数,没懂住在的房间数等特征,标签特征为自住房屋价格的中位数。

  R-square数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R-square 值为0还不如直接用平均值来预测效果好,而一个R-square 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。

  聚类模型是无监督模型,我们以前文中提到青少年市场细分为例,通过对30000个美国高中生社交网络信息数据集聚类,实现用户分群聚类,按照前文中所使用的异常特征平滑,归一化,类别特征编码,onehot等步骤,完成数据预处理和特征工程,模型我们选用常用聚类模型K-means,我们选择将数据聚成5类。

  而且前文中提到,大量的可视化建模工具和自动化建模工具出现,这将极大降低AI技术应用的门槛。其实从前文中的建模流程不难看出,算法工程师也需要先熟悉业务才能开始建模,这部分来看,如果有工具可以解决建模过程那么业务人员对业务的理解将更加深刻。所以还是建议对这方面感兴趣的同学可以打破心理枷锁,咬牙学一下python,前10个小时可能很痛苦,但是掌握了后续就非常简单了。

  这就是设计到特征拓展,比如可以设定一个时间段内用户A的订单数,购买总金额,购买A产品的数量,购买B产品的数量,单笔订单最大支付金额,单笔订单最小支付金额,订单平均间隔,订单最大间隔等,将单挑记录通过最小,最大,平均等维度拍平后,需要对类别特征变换,常用的特征工程方法有类别特征编码,onehot,离散化等操作。

  类别特征编码是指将业务类别特征变成数值,如使用优惠券满减,直降和未使用可以标记为0,1,2;onehot编码是将类别特征变成使用0和1表示的特征,如将上述优惠券一个特征变成了0,0,1和0,1,0,和1,0,0三个特征;离散化是指将连续的特征变成类别特征,如对年龄分段,0-10岁定为0,11-20定为1,以此类推,就可以对年龄特征变成一个类别特征,然后再做onebot。

  如下图所示,我们要预测7月份用户是否有购买商品A的欲望,我们可以使用2,3,4月三个月的数据作为训练数据,5月的数据作为标签数据制作训练集。因为5月份我们知道用户是否购买了A产品,然后再用3,4,5三个月的数据作为训练数据,通过6月份用户是否购买A产品作为标签,这样我们可以用历史数据完成模型训练,然后应用于对用户7月份是否购买某商品的预测。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。

本文链接:http://gilbertpromos.com/zhengli/200.html