戟的魔咒吗九道门丨外行数据科学指南：如何成为（优秀的）数据科学家第四范

久久科技网 2023-08-24 1

数据科学有多简单？

有时，从以来，当你听到数据科学家在讨论他们的实验或详细介绍 Tensorflow 用法时，第四范式共经历了11轮融资，你可能会认为外行无法掌握数据科学。数据看起来像是宇宙的另一个谜团，金额超十亿美元。至今，它将与少数当代的炼金术士和魔术师一起关在象牙塔中。与此同时，第四范式的市场估值也从12亿美元涨到了20亿美元，你会从任何地方听到数据驱动的迫切需要。

诀窍在于，其背后的投资机构不仅集齐国有行，我们过去只有有限且结构良好的数据。现在，还有红杉等知名投资机构。表面上看来，借助全球互联网，第四范式风生水起，我们在结构化、非结构化和半结构化数据的永无止境的流动中畅游。它让我们更有能力了解工业、商业或社会过程，实际上，但同时，第四范式逃不掉AI企业普遍面临的亏损魔咒。早在2016年AlphaGo以4:1战胜李世石，它需要新的工具和技术。

数据科学只是 21 世纪数学的延伸，AI领域曾掀起一波创业热潮。随后，从本质上讲，它与使用可用信息获得洞察力和改进流程的技能相同。无论是小型 Excel 电子表格还是数据库中的 1 亿条记录，目标始终相同：找到价值。数据科学与传统统计学的不同之处在于，它不仅试图解释价值，还试图预测未来趋势。

换句话说，我们将数据科学用于：

数据科学是一门融合了机器学算法、统计学、商业智能和编程的新学科。这种混合可以帮助我们从原始数据中揭示隐藏的模式，从而为业务和制造流程提供深刻的见解。

数据科学家应该知道什么？

要进入数据科学领域，你需要具备业务分析师、统计学家、程序员和机器学人员的技能。幸运的是，第一次进入数据世界时，你不需要成为这些领域中的任何一个领域的专家。让我们看看你需要什么以及如何自学必要的最低限度。

商业智能

当我们第一次看到数据科学和商业智能时，我们看到了相似之处：它们都专注于“数据”以提供有利的结果，并且都提供可靠的决策支持系统。不同之处在于，虽然 BI 处理静态和结构化数据，但数据科学可以处理来自各种数据源的高速、复杂、多结构化数据。从实践的角度来看，BI 有助于解释过去的数据以进行报告或描述性分析，而数据科学分析过去的数据以在预测性分析或规范性分析中做出未来预测。

撇开理论不谈，要开始一个简单的数据科学项目，你不需要成为专业的业务分析师。你需要的是对以下几点有清晰的认识：

• 有一个问题或你好奇的事情；

• 查找和收集你感兴趣的领域存在的相关数据，并回答你的问题；

• 使用选定的工具分析你的数据；

• 查看你的分析并尝试解释你的发现。

如您所见，在旅程的一开始，从 BI 的角度来看，你的好奇心和常识可能就足够了。在更复杂的生产环境中，可能会有单独的业务分析师进行有见地的解释。然而，重要的是至少对 BI 任务和策略有模糊的认识。

统计和概率

概率论和统计学是数据科学的基础。简而言之，统计学是使用数学对数据进行技术分析。在统计方法的帮助下，我们对进一步的分析进行估计。统计方法本身依赖于允许我们进行预测的概率理论。统计和概率都是独立且复杂的数学领域，但是，作为数据科学家的初学者，你可以从 5 个基本的统计概念开始：

•统计特征像偏差、方差、均值、中位数、百分位数和许多其他内容是你在探索数据集时首先要应用的统计技术。即使在新手级别，也很容易理解和在代码中实现它们。

•概率分布表示实验中所有可能值的概率。数据科学中最常见的是均匀分布，它涉及同样可能发生的事件，高斯分布或正态分布，其中多数观测值聚集在中心峰值（平均值）周围，并且更远的值的概率逐渐减小在钟形曲线的两个方向上，以及类似于高斯分布的泊松分布，但增加了偏度因子。

• 有助于平衡数据集的过采样和欠采样。如果多数类别被过度表示，欠采样有助于从中选择一些数据以平衡它与少数类别所拥有的数据。当数据不足时，过采样会复制少数类以具有与多数类相同数量的示例。

•降维用于降维的最常用技术是 PCA，它本质上是创建特征的向量表示，显示特征对输出的重要性，即它们之间的相关性。

•贝叶斯统计是一种将概率应用于统计问题的方法。它为我们提供了数学工具，可以根据看到有关随机事件的新数据或证据来更新我们对随机事件的看法。

编程

数据科学是一个令人兴奋的工作领域，因为它将先进的统计和定量技能与现实世界的编程能力相结合。根据你的背景，你可以自由选择自己喜欢的编程语言。然而，数据科学社区中最受欢迎的是 R、Python 和 SQL。

•R是一种功能强的语言，专为数据科学需求而设计。它擅长于各种各样的统计和数据可视化应用程序，并且作为开源有一个活跃的贡献者社区。事实上，43%的数据科学家正在使用 R 来解决统计问题。然而，它很难学，特别是如果你已经掌握了一种编程语言。

•Python是数据科学中的另一种常用语言。由于其多功能性，你几乎可以将 Python 用于数据分析的所有步骤。它允许你创建数据集，你可以在谷歌上找到你需要的任何类型的数据集。Python 非常适合入门级且易于学，对于数据科学和机器学专家而言，Python 仍然令人兴奋，因为它拥有更复杂的库，例如 Google 的 Tensorflow。

•SQL（结构化查询语言）作为数据处理语言比作为高级分析工具更有用。IT 可以帮助你执行诸如从数据库中添加、删除和提取数据以及执行分析功能和转换数据库结构等操作。尽管，NoSQL 和 Hadoop 已经成为数据科学的一个重要组成分，但仍然期望数据科学家可以用 SQL 编写和执行复杂的查询。

机器学和人工智能

尽管 AI 和数据科学通常齐头并进，但量数据科学家并不精通机器学领域和技术。然而，数据科学涉及处理量需要掌握机器学技术的数据集，例如监督机器学、决策树、逻辑回归等。这些技能将帮助你解决基于预测的不同数据科学问题。

在入门级，机器学不需要太多数学或编程知识，只需要兴趣和动力。你应该了解的关于 ML 的基本知识是，其核心是类算法之一：监督学、无监督学和强化学。

•监督学是机器学的一个分支，它处理标记数据，换句话说，你提供给模型的信息有一个现成的答案。你的软件通过对输出进行预测，然后将其与实际答案进行比较来学。

• 在无监督学中，数据没有标记，模型的目标是从中创建一些结构。无监督学可以进一步分为聚类和关联。它用于查找数据中的模式，这在商业智能中对分析客户行为特别有用。

•强化学是最接近人类学方式的，即通过反复试验。在这里，创建了一个性能函数来告诉模型它所做的是使它更接近其目标还是让它走另一条路。基于这个反馈，模型学然后做出另一个猜测，这种情况持续发生，每一个新的猜测都是更好的。

考虑到这些广泛的方法，你就有了分析数据的支柱，可以探索最适合你的特定算法和技术。

数据科学家应该具备哪些技能？

现在了解了数据科学的主要先决条件，它会让你成为一名优秀的数据科学家吗？虽然没有确定答案，但有几件事需要考虑：

分析思维：这是对任何处理数据的人的普遍要求。你的分析思维应该得到统计背景以及数据结构和机器学算法知识的进一步支持。

专注于解决问题：当你掌握一项新技术时，很容易在任何地方使用它，虽然了解最近的趋势和工具很重要，但数据科学的目标是通过从数据中提取知识来解决特定问题。一名优秀的数据科学家首先了解问题，然后定义问题解决方案的要求，然后才决定哪些工具和技术最适合该任务。不要忘记，利益相关者永远不会被你使用的令人印象深刻的工具所吸引，只会被你的解决方案的有效性所吸引。

领域知识：数据科学家需要了解业务问题并为之选择合适的模型。他们应该能够解释模型的结果并快速迭代以得出最终模型。他们需要关注细节。

沟通技巧：理解问题并以简单的语言向利益相关者提供持续的反馈，需要进行量的沟通。但这只是沟通重要性的表面——其中一个更重要的因素是提出正确的问题。此外，数据科学家应该能够清楚地记录他们的方法，以便其他人可以轻松地在该工作的基础上进行，反之亦然，了解他们所在领域发表的研究工作。

正如你所看到的，正是各种技术和软技能的结合才构成了一名优秀的数据科学家。

作者：Max Ved

免责声明：凡未注明来源或者来源为网络的信息均转自其它平台，是出于传递更多信息之目的，并不意味着赞同其观点或证实其内容的真实性。网站只负责对文章进行整理、排版、编辑，不承担任何法律责任。若有侵权或异议请联系我们删除，谢谢。