>科技>>正文

为什么将数据科学应用于生产如此困难?

原标题:为什么将数据科学应用于生产如此困难?

纸上得来终觉浅,绝知此事要躬行。——陆游

您有没有感觉到公司里面的数据科学项目应用于实际生产,困难重重?您有没有发现公司里面的数据模型与期望值,差距越来越大?您有没有体验到公司里面的数据迁移与整合,极有挑战?这些问题,值得每一位数据工作者思考与践行。

在网上发现一篇英文文章,分享了数据科学项目应用于实际生产的一些见解。我把它翻译,希望对您有帮助。

作者:Sebastian Neubauer

https://www.datascience.com/blog/why-is-it-so-hard-to-put-data-science-in-production

在Blue Yonder,我们的团队拥有八年多为零售客户提供和操作数据科学应用的经验。在这段时间里,我们学到了一些惨痛的教训——包括将数据科学应用于生产是多么困难。

我相信你知道什么是数据科学,但让我与你分享我的个人定义:

数据科学的目标是建立支持和自动化数据驱动的运营决策系统。

根据我相当严格的定义(您甚至可能不同意),数据科学的唯一目的是支持和自动化决策。那么,我所说的“运营决策”是什么呢?它们是企业需要大量地、频繁地、定期地做出的决策,对业务kpi有直接的影响。这些决定的结果也需要在短期内加以评价。例如,企业可能需要回答以下问题:“明天每种产品的最佳价格是多少?”或“下一个发送给供应商X的订单中,每种产品的最优金额是多少?”

因为人们经常受到他们甚至不认识的方式的影响。在大多数情况下,自动化决策比人工操作决策表现得更好。因此,它们可以显著提高业务流程的效率。

这一切真正的意义在于,数据科学给运营决策带来的影响,就像工业机器人给制造业带来的影响一样。就像机器人自动化重复的手工制造任务一样,数据科学也可以自动化重复的运营决策。

DevOps是什么?它与数据科学有什么关系?

DevOps运动旨在通过建立独立的开发人员和操作团队来克服传统IT组织中普遍存在的问题。开发团队渴望尽早开发出新的特性。与此同时,操作团队负责系统的稳定性,并将尽可能长时间地阻止新特性,因为所有更改都伴随着风险。

在这种冲突中,两个团队都忽略了用高度稳定的新特性为客户交付价值的共同目标。开发人员和运营团队之间的鸿沟只是组织结构出错的一个例子;同样的论证也适用于其他按功能划分的组。在许多公司,数据科学也出现在类似的“功能筒仓”中。

数据科学,麻烦制造者

在一次会议上,两位经理之间有一段虚构但又现实的对话:“你已经在做数据科学方面的工作了吗?”一位经理问道。另一个回答说:“我们已经有一个数据科学家团队在那里工作了大约一年,但是进展非常缓慢。”

为了更好地理解为什么许多数据科学工作进展缓慢,我们需要查看用于自动化业务决策的典型数据科学工作流。下面的工作流程示例主要针对零售业,但也适用于其他行业,只需要做一些细微的修改:

  • 从各种来源获取各种必要的数据: 内部数据源,如ERP、CRM和POS系统,或来自在线商店的数据。 外部数据,如天气或公众假期
  • 提取、转换、加载数据: 关联和连接数据源 聚合和转换数据 最后,一切都变成了“一张大表”
  • 机器学习与决策: 利用历史数据训练机器学习模型 对于决策,使用最新的数据
  • 结果的决策被加载,或者返回到ERP系统或者其他数据仓库

这些步骤基本上涉及业务的所有部分,需要深入地集成到业务流程中,以便创建有效的决策系统。目前为止,这是数据科学努力的最大麻烦来源。为了成功地集成数据科学,需要对核心业务流程进行转换和修改,这是一项困难的任务。

数据科学本质上是贪婪的

“目前的数据库应该足够大,可以满足明年的需求,”从来没有数据科学家这样说过!

人们通常认为数据科学家贪婪,因为他们似乎对可用资源有着不切实际的理解。但实际上,数据科学本身本质上就是贪婪的。

人们通常认为数据科学家贪婪,因为他们似乎对可用资源有着不切实际的理解。但实际上,数据科学本身本质上就是贪婪的。

  • 更多的特征(“列”)
  • 更多历史数据(“行”)
  • 更独立的数据源(如天气、金融市场、社交媒体……)
  • 更复杂的算法(如深度学习)

看到了吗?这不是数据科学家的错!原则上,他们提出这样的要求是正确的。幸运的是,有一些方法可以克服资源短缺,我将在后面展示。

另一个问题是低估了决策的绝对数量。考虑一个拥有100家门店和5000种产品的小型连锁超市的每日需求预测。我们需要14天的每日预测才能对补货算法有所帮助。但这意味着每天需要计算、处理和存储700万个预测。

此外,由于建立一个有效的机器学习模型需要许多不同的数据源,部门之间可能会引入新的一致性和纠缠性。整个组织必须共同商定共同的标识符和数据类型。 以前断开连接的细分需要同步其数据流。 例如,自动每日补货系统可能取决于营销部门的促销数据和所有商店的库存数据。 所有必要的数据都需要在一天中的固定时间提供,以便系统可以计算决策并及时将其发送给供应商。 这种纠缠是一个大问题,可能导致公司严重的政治和情绪紧张。

数据科学家与公司其他人的对比

现在回到DevOps。 此举旨在克服开发人员和运营团队潜在的错位,如果您尝试与数据科学家团队在一个单独的孤岛中构建自动化决策系统,这个问题将不可避免地出现。 由于数据科学的纠缠和贪婪本质,数据科学团队很难将系统成功整合到“反对”以不同方式激励的运营团队。

为了预防或解决这些问题,必须接受DevOps心态的基本原则:

  • 调整所有团队的目标,使他们不会互相“反对”,而是共同努力实现共同目标
  • 撕下筒仓之间的墙壁并建立跨职能团队
  • 根据客户的测量附加值衡量改进并分配资源和功能
是关于承诺的

决策是任何公司成功的核心因此,在引入数据科学时,整个公司 - 所有层级和部门 - 都需要接受并理解使用数据科学的自动化决策是价值流的重要组成部分。 这很可能意味着您需要更改已建立的流程,重新组织团队并重新思考公司的架构。 此外,要成功完成这些变更,您需要获得必要的支持:每个人都需要了解变更发生的原因并支持决策。 没有这种全心全意的承诺,自动化决策就没有成功整合的机会。

反过来,您的数据科学工作必须强烈关注真正的附加值:人们需要评估实施成本(包括技术债务成本,增加的复杂性,增加纠缠等),并将其与由改进而得的预期增益进行比较。数据科学绝不是一种自我目的。

打破数据科学的藩篱

DevOps的主要目标之一是协调团队实现共同的公司目标以及在孤立的团队之间拆除墙壁。 将数据科学家放入单独房间的独立团队是一条确定的失败之路。

相反,将数据科学家嵌入到跨职能团队中。这将整个决策系统端到端地构建,并使这项工作与公司目标保持一致。 一旦每个部门都一致,数据科学家就不会与其他部门合作。 相反,决策系统的成功成为可分享的共同利益。通过共同努力实现共同目标的全球优化以取代以自我为中心和不结盟的目标的本地优化。

这个跨职能团队致力于与所有其他团队一样的质量标准。 在质量,弹性或稳健性方面没有任何妥协的余地。 相反,由于自动决策的高风险,应该采用更高的标准。 同时,遵循“精益思维”方法,创造一个同时便宜且安全的实验环境。

用奥卡姆剃刀对付贪婪

有一个叫做奥卡姆剃刀的解决问题的原则,它说:“在相互竞争的假设中,应该选择假设最少的那个。”“在数据科学领域,我们可以将这一原则重新表述为:

如果两个数据科学模型的结果是兼容的,那么选择资源占用较小的模型。

这条简单的规则为我们如何构建数据科学模型提供了清晰的指导,从而解决了数据科学固有的贪婪问题。如果不测度产出的值并在整个实现周期中应用这一原则,您可能会面临回报有限的爆炸式增长成本。确保数据科学家遵守这一重要原则,因为不可否认,反对数据科学家是非常困难的。他们有数据和专业知识来提出难以反驳的论点。创造一种效率文化,这种文化要尽可能简单,但也要尽可能复杂。

对于不同数据源的使用也是如此。在数据安全领域,存在“需要知道”的原则,该原则规定数据只能被需要访问的人访问。应用于数据科学,这意味着我们要测量添加更多数据源的价值,但是如果改进不够显著,不足以证明额外的数据依赖性,则要严格地地放弃它们。

总结

数据科学是关于支持和自动化决策的。对大多数公司来说,这比以往任何时候都重要。由于其作为决策系统的作用,数据科学必须处于业务流程的核心。这一事实带来了一系列严重的问题;其中一些,特别是具有文化性质的,可能是灾难性的。三心二意的尝试充其量只会浪费时间和金钱,并助长数据科学作为麻烦制造者的名声。

然而,适当集成的数据科学是一个你不能忽视的游戏规则改变者。以DevOps的心态拥抱数据科学。测量重要的kpi,从实验中学习,并一次又一次地相应地改进您的流程。这是一条成为真正的数据驱动型公司的道路。

最伟大的见解是最朴实的。(英国)戈尔丁《蝇王》

我是数据人王路情,专注于从数据中学习

我们创建数据人网http://shujuren.org,它是,一个数据人学习,交流和分享的场所。欢迎您,大家一起来创造和分享数据知识,共建和共享数据智库,为智能化社会助力。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日搜狐热点
今日推荐