一般来说,学习的过程通常意味着先犯错误以及选择错误的道路,然后再想明白如何在将来避免这些陷阱。机器学习也不例外。
当你在你的企业中运用机器学习时,要小心:一些技术营销可能会告诉你机器学习的过程是又快又好的,但这是一种对技术的不切实际的期望。事实是,机器学习过程中必定会出现错误。而且至少在相当一段时间内,这些错误会被编码到业务流程中。结果就是,这些错误现在大规模地发生,并且通常不受人的直接控制。
SPR咨询公司的首席数据科学家雷·约翰逊说:“只有盲目冒进的渴望而缺乏应有的务实和勤奋会导致机器学习带来的好处几乎沦为无用。”
检测机器学习过程中的错误并处理它们将有助于你在技术方面取得更大成功,以及满足你对机器学习的期望。
以下是一些关于机器学习工具在学习过程中所犯错误的问题,这些问题可能会使错误数量增加并延长犯错的时间——机器学习工具自身可能永远无法识别并纠正这些错误教训。
缺乏对问题的业务理解而使机器学习失败
一些使用机器学习模型的数据工作者并不真正理解机器学习正在试图解决的业务问题,而这可能会给流程引入错误。
金融服务网站LendingTree的副总裁兼战略分析主管Akshay Tandon表示,当他的团队使用机器学习工具时,他鼓励它从假设声明开始。该声明应该询问你要解决的问题是什么,以及你要构建哪些模型来解决该问题。
Tandon说,从统计学方面来看,今天可用的机器学习工具都非常强大。这样一来正确地使用它就成为更重大的责任,因为这些强大的工具,如果不仔细使用,可能导致错误决定而影响深远。如果数据分析团队不小心,他们最终得到的模型可能会不符合团队正在尝试学习的特定数据。快速恶化的结果,他说,就是事情可能很快就会出现重大事故。
此外,许多商业用户都不明白,从投入生产的那一刻起,模型的质量就会有一定程度的下降,Tandon说。认识到这一点后,就像汽车或任何其他机器一样,用户需要持续不断地监控它并注意它如何对决策产生影响。
数据质量差可能导致机器学习错误
垃圾进,垃圾出。如果数据质量不达标,机器学习将受到消极影响。数据质量差是数据管理员最忧心的问题之一。不管数据科学家和其他从事信息工作的专业人员原本的意图有多好,数据质量差都可能危及大数据分析工作并使他们的努力毁于一旦。它完全可以使机器学习模式一片混乱。
各界组织机构经常高估机器学习算法的韧性,却低估不良数据的影响。约翰逊说,糟糕的数据质量会导致糟糕的数据结果,进而导致组织做出不明智的商业决策。这些决策的结果将损害业务绩效,并使未来的计划难以获得支持。
根据过去和现在的经验,你可以从机器学习得出的结果中发现低质量数据的存在,因为这些数据结果看起来就是讲不通。
约翰逊说,探索性数据分析(EDA)是一个解决这一问题的主动方法。EDA可以识别基本数据质量问题,例如野值,空缺值和不一致的域值。您还可以使用统计抽样等技术来确定是否有足够的数据点实例来充分反映总体分布,并定义有关数据质量补救的规则和策略。
对机器学习的不正确使用
咨询公司Cambridge Consultants的专家级机器学习工程师Sally Epstein说:“我们仍然从公司看到的最常见的问题是,公司渴望运用机器学习没有其他原因,仅仅因为时髦而已。” 但她说,必须正确地使用该工具才能取得成功。而传统的工程方法可能更快地提供解决方案并且成本低很多。
约翰逊说,当机器学习可能不是解决问题的最佳选择而且用例并没有被完全理解时,可能会导致解决错误的问题。
此外,解决错误的问题将导致失去机会,因为组织正在努力将其用例定制为特定的,不合适的模型。这包括为了获得成果而在人员和基础设施方面部署的资源浪费,但这个成果本可以用更简单的替代方法来得到。
为避免对机器学习的错误使用,请考虑所需的业务成果,问题的复杂性,数据量和属性数量。约翰逊说,相对简单的问题,如分类,聚类和使用少量属性的少量数据的关联规则,可以通过视觉化或统计分析来处理。在这些情况下,采用机器学习可能需要更多的时间和资源。
当数据量变得庞大时,机器学习可能更合适。但是,先通过了一个机器学习练习,然后才发现业务结果尚未明确定义并导致解决了错的问题的情况并不罕见。
机器学习模型可能存在偏差
使用质量差的数据集可能会导致误导性的结论。它不仅会引入不准确性和缺失数据,还会引入偏差。人类肯定是可能会有偏见的,所以由人们创造或启发得出的模型也可能包含偏见。
Epstein说,每种机器学习算法对不平衡的类或分布都有不同的敏感性。如果没有解决这些问题,你最终可能会得到的结果会是,比如说,对肤色有依赖性的面部识别工具,或具有性别偏见的模型。事实上,这种情况已经多次在商业服务中发生过了。
结论的准确性——无论是经由算法还是人类得出的——都取决于被处理信息的广度和质量。咨询公司Deloitte咨询分析服务领域的负责人Vic Katyal表示,组织和个人面临的算法偏见带来的的财务,法律和声誉风险就是为什么任何使用机器学习的公司应该将道德规范作为组织要求的一个例子。
Katyal说,算法偏差的迹象已经被充分记录在了信用评分,教育课程,招聘和刑事司法判决等公共领域。收集,策划或应用不当的数据甚至可能在最精心设计和周密计划的机器学习应用程序中引入偏差。
他说,固有偏见的机器学习系统可能会使部分客户群体或社会利益相关者处于劣势,并可能造成或延续不公平的结果。
咨询公司麦肯锡在2017年的一份报告中指出,算法偏差是机器学习的最大风险之一,因为它会影响机器学习的实际目的。该公司表示,这是一个经常被忽视的缺陷,可以引发代价高昂的错误,如果不加以控制,可能会使项目和组织往完全错误的方向发展。
麦肯锡表示,如果在一开始就能有效地解决这个问题,将会获得丰厚回报,从而最大限度地实现机器学习的真正潜力。
资源不足,无法做好机器学习
在启动机器学习计划时,一个组织很容易低估自身在人员和基础架构方面所需的资源。机器学习可能对基础设施有大量的要求,尤其是在图像,视频和音频处理方面。
约翰逊说,如果没有所需的处理能力,而又要及时开发基于机器学习的解决方案,往好了说是困难的,往坏了说压根就是不可能的。
还存在部署和消费问题。如果没有先决条件基础设施来允许其部署和用户对结果的消费,那么开发机器学习解决方案有什么用呢?
部署可扩展的基础架构以支持机器学习可能既昂贵又难以维护。然而,有几种云服务可以提供可扩展的机器学习平台,可以按需配置。约翰逊说,云方法可以大规模地进行机器学习,而不会受到物理硬件采集,配置和部署的束缚。
一些组织希望将他们的基础设施内部化。如果是这种情况,云服务可以作为踏脚石和教育体验,从而这些组织可以在进行大量投资之前从基础架构的角度了解机器学习需要什么。
从人员角度来看,缺乏知识渊博的资源,如数据科学家和机器学习工程师,可能会使机器学习的开发和部署脱离正轨。拥有了解机器学习概念及其应用和解读的人才,以确定是否实现了特定的业务成果,这一点至关重要。
约翰逊说,不能低估拥有丰富的机器学习技能的重要性。知识渊博的人可以帮助识别数据质量问题,确保正确使用和部署机器学习工具,并帮助建立最佳实践和管理策略。
糟糕的计划和管理的缺乏会破坏机器学习
对机器学习的努力可能会以热情开始,但随后失去动力并陷入停顿。这表明计划不周,缺乏管理。
如果不采取适当的指导方针和限制,机器学习工作将无限期地继续存在,可能导致巨大的资源支出而不会取得任何好处,约翰逊说。
组织们需要记住,机器学习是一个迭代过程,模型的修改可能会随着时间的推移而不断发生,以支持不断变化的需求。结果就是,从事机器学习的人可能对完成工作缺乏兴趣,这可能导致不良结果。项目发起人可能会转向其他工作,机器学习工作最终会停滞不前。
约翰逊说,需要定期监控机器学习工作,以确保事情顺利进行。如果进度开始放缓,可能是时候休息一下并重新审视这个项目了。
364 thoughts on “机器学习失败的 6 种原因,你中招了吗”