菜单
菜单
文章目录
  1. 关键原理:
  2. 过程:
    1. 1. 定义业务问题
    2. 2. 分解成机器学习的任务
    3. 3. 数据准备
    4. 4. 探索性的数据分析
    5. 5. 建模
    6. 6. 部署和评估
  3. 机器学习问题分类:
    1. 有监督的学习
      1. 回归
      2. 分类
    2. 无监督的学习
  4. 由机器学习任务到模型到算法
  5. 总结

简明数据科学 part1:原理与过程

2006年,英国数学家、Tesco Clubcard的架构师Clive Humbly创造性地提出了“数据是新的原油”这个理念。他说:

数据是新的原油。它虽然有价值,但是不经提炼也没法被用。它必须转化成天然气、塑料、化学品等,

来创造一个便于实现的利益驱动体。所以我们必须细分数据、分析它的价值。

iPhone的革新、移动经济的增长、大数据技术领域的进步,为我们创造了一场完美的风暴。2012年,HBR发表了一篇文章使人们对数据科学家开始赶住。这篇文章《数据科学家:21世纪最伟大的工作》(Data Scientist: The Sexiest Job of the 21st Century)把数据科学家看做人类的“新物种”;一个数据黑客、分析师、交流学者、可信赖顾问的混合体。

每个组织正在试图使用更多的数据驱动。 机器学习技术为他们在这一方面的努力提供了帮助。 我意识到很多材料过于技术化、太难理解。 在本系列文章中,我的目的是简化数据科学。 我将以斯坦福大学课程/书(统计学习导论)为线索。 试图让大家更易于理解数据科学。

本文我将首先介绍数据科学的基本原理、一般过程和问题类型。

数据科学是一个多学科交叉领域。 它是以下领域之间的交集:

  • 商业知识
  • 统计学习,又称机器学习
  • 电脑编程

该系列文章的重点是将数据科学的机器学习方面进行简化。 在本文中,我将首先介绍数据科学中的原理,一般过程和问题类型。

关键原理

key-principles

  • 数据是一种战略资产:这个概念是一个结构性的思维。你可能要问“我们是否正在使用我们在收集和存储的所有数据?我们能从中提取出有意义的信息吗?”我认为这些问题的答案都是“否”。由云产生的公司本质上是由数据驱动的。正是因为他们心里将数据视为战略资产,所以对于他们中的大多数来说实现这些为“否”的大部分问题,并不是问题。
  • 知识提取的系统过程:我们需要有一个有效的过程来从数据中提取知识。这个过程应该在有清楚的交付成果下,同时具备清晰明确的阶段层次。跨行业数据挖掘标准流程(CRISP-DM)就是这样的一个过程。
  • 和数据睡觉(热爱数据):组织机构都需要投资于热衷于数据的人。将数据转化为知识不是炼金术。也不存在炼金术士。他们需要的是能够理解数据价值的布道师。他们需要的是有数据素养和创造力的布道师。他们需要的是可以把数据,技术和业务联系起来的人员。
  • 拥抱不确定性:数据科学不是一个银子弹(极其有效的解决方法)。它不是水晶球(预言未来)。像总结报告和KPI一样,它其实是一个决策推动者。数据科学是一种工具,而不是一种手段。它不意味着绝对,它只是代表了一种概率。管理者和决策者得接受这个事实。他们需要在决策过程中接受量化的不确定性。如果一个组织的文化是急于求成,这种不确定性只会影响更深。如果组织选择的是一种试验性的文化,数据科学才能发展。
  • BAB原则:我认为这是最重要的原则。数据科学文献的重点是模型和算法。公式并没有业务背景。业务 - 分析 - 业务(BAB)恰恰是强调公式要应用在业务中的原则。把公式应用在业务场景中才是关键:定义业务问题,使用分析来解决它,将输出集成到业务流程中 。记住BAB。

过程:

img

从第2条原则出发,我来强调一下数据科学的处理过程。 以下是数据科学项目中的比较典型的几个阶段:

1. 定义业务问题

爱因斯坦曾说道: “事情应该力求简单,但不能过于简单”。 这句话点出了定义业务问题的关键。问题的陈述应该被仔细研究过后并规范化。 清晰成功的规范需要被制定。 就我经历来说,业务团队虽忙于手上操作性的任务,但 这也不意味着他们没有需要解决的挑战。 头脑风暴会议,研讨会和访谈可以帮助他们发现这些挑战并研究假设。举例个例子,我们假设一家电信公司随着客户群的减少,收入也同比下降。在这种情况下,业务问题可能定义为:

  • 该公司需要通过瞄准新的群体和减少客户流失来扩大客户群。

2. 分解成机器学习的任务

业务问题一旦被定义,就需要被分解成机器学习的任务。 接下来详细说明下刚刚举的例子。 如果组织需要通过瞄准新的群体和减少客户流失来扩大客户群,那么我们如何将其分解为机器学习的问题呢? 以下是分解的一个例子:

  • 减少 x%的客户流失.
  • 为瞄准的市场识别新的客户群

3. 数据准备

一旦我们定义了业务问题,并且分解成了机器学习问题,我们接下来需要深入了解数据。 对于手头上的问题,数据的理解应该清晰。 这能帮助我们制定正确的分析策略。 要注意的事项是数据来源,数据质量,数据偏差等。

4. 探索性的数据分析

宇航员要穿越未知的宇宙, 同样,数据科学家也要经历数据中未知模式,探知其特征的关键点,并构想出未探索的那一部分。 探索性的数据分析(EDA)是一项令人兴奋的任务。 我们可以更好地了解数据,调查细微差别,发现隐藏的模式,开发新特性并制定建模策略。

5. 建模

在EDA之后,我们进入建模阶段。 这里,基于具体的机器学习问题,我们要应用有效的算法,如回归,决策树,随机森林等。

6. 部署和评估

最后,开发的模型被部署。 它们会被不断监测,以观察它们在实际中的性能,并进行相应的校准。

通常,建模和部署部分只占工作的20%,80%是需要你亲自上手,探索并了解数据。

机器学习问题分类:

img

通常机器学习被分成两类任务:

有监督的学习

监督学习是一类机器学习任务,它有一个已知的目标。 理论上,建模者能用监督的机器学习模型达成可分类的目标。 监督学习可以进一步分为两类:

回归

回归是机器学习的主要任务。 它们用于估计或预测数值变量。 回归模型的几个例子可以是:

  • 下季度潜在收入的估计是多少?
  • 明年可以完成多少交易?

分类

顾名思义,分类模型分类了一些东西。 它来估计这些东西最适合放在哪些桶。 分类模型经常被用于各种类型的应用。 分类模型的几个例子有:

  • 垃圾邮件过滤是分类模型很常见的一种应用。 这里每个传来的电子邮件都将基于某些特征被分类成垃圾邮件、非垃圾邮件。
  • 流失预测是分类模型的另一个重要应用。 流失预测被广泛应用于电信领域,主要是识别一个给定的客户是否要流失(即停止使用服务)。

无监督的学习

无监督的学习是另一类机器学习任务,它没有目标。 由于无监督学习没有任何指定的目标,因此它们产生的结果有时候也很难解释。 有很多类型的无监督学习任务, 主要有:

  • 聚类: 聚类是一个讲类似事物组合起来的过程。 客户细分就使用了聚类方法。

  • 关联: 关联是寻找经常相互搭配在一起的产品的方法。 在零售方面,市场购物篮分析就是使用关联的方法将产品捆绑在一起。

  • 链路预测: 链路预测用于查找数据项之间的连接。 Facebook、亚马逊和Netflix采用的推荐引擎就大量使用了链接预测算法来个性化的推荐给我们朋友、要购买的物品和电影。

  • **数据压缩:**数据压缩的思想被用于从具备许多特征的数据集中简化出一些特征。 它就是寻找能用较少属性来表达具有许多属性的大数据集的方式。

由机器学习任务到模型到算法

一旦将业务问题分解为机器学习任务,一个或多个算法可以用于解决给定的机器学习任务。 通常,该模型是要针对多种算法进行训练的, 选择算法或算法集合提供的最佳结果来进行部署。

Azure机器学习有30多种预先构建的算法,可用于训练机器学习模型。

img

Azure机器学习的简要说明表将有助于你浏览它。

总结

数据科学是一个宽广的领域,也是一个令人兴奋的领域。 这是一门艺术。 这是一门科学。 在这篇文章中,我们刚刚只是探索了冰山一角。 如果“ Whys”都不知道,那么知道“Hows”也将是徒劳的。 在接下来的文章中,我们将探讨机器学习的“Hows”。