亚马逊建“数据湖”，让数据治理水到渠成

商学院杂志

2024-09-23 13:46发布于北京《商学院》杂志官方账号

文｜刘青青

ID | BMR2004

又一家企业在亚马逊云科技（Amazon Web Services ，下称“亚马逊AWS”）的“数据湖”（Data Lake）里面实现了数据驱动，完成数据治理体系的“进化”。

近日，全球最大的清洁能源公司之一Iberdrola宣布，已选择亚马逊AWS作为其生成式人工智能AI工作负载的首选云提供商。接下来，Iberdrola将使用亚马逊AWS技术来开发生成式 AI 应用程序，以提高效率、个性化面向客户的交互能力并改进能源生产流程。

数据显示，迄今为止，亚马逊AWS在全球已经拥有数百万活跃客户和成千上万个合作伙伴，服务245个国家和区域。而在此背后，是一片神奇的“数据湖”，支撑着亚马逊AWS的一次次升级变化、创新迭代。

建一片“数据湖”

数据湖是一个融合了大数据集成、存储、处理、机器学习、数据挖掘、数据可视化等技术，促进数据价值变现的完整解决方案。

亚马逊集团在1994年成立之时还只是一家网络书店；1997年上市之后开启扩张之路，涵盖各类商品的市集业务发展起来；到2005年，亚马逊“进化”成拥有28大类、近600万种产品的品牌电商平台。

快速发展的同时，亚马逊集团每天都要处理无数的商品交易和物流数据。亚马逊AWS于2006年正式推出，标志着云服务市场的正式诞生，并逐渐成为亚马逊集团日益庞大的内部数据服务中心。

2015年，亚马逊AWS已经服务超过100万用户，包括Pinterest、爱彼迎、通用电气、意大利国家电力公司、Capital One、Intuit、强生、菲利普、Hess、Adobe、麦当劳和时代公司等，云服务已深入各个行业。

然而，数据浪潮的来临比人们预期得更加汹涌澎湃，指数级的数据刷新让数据存储和处理变得捉襟见肘。

为此，亚马逊AWS在2019年有了一个新主意：建立一个可以支撑地球上最大的物流网络之一的数据湖———Galaxy数据湖。

“数据湖”的概念早在2010年已被行业首次提出，是一个以原始格式存储数据的存储库或系统，它按原样存储数据，而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）和二进制数据（如图形、音频、视频）。

亚马逊AWS则对数据湖做了进一步解释，数据湖是一个集中式存储库，允许以任意规模存储所有结构化和非结构化数据。可以按原样存储数据（无需先对数据进行结构化处理），从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

由此，数据湖能够在更短的时间内从更多来源运用更多数据，并使用户能够以不同方式协同处理和分析数据，从而做出更好、更快的决策，降低运营成本和提高质量。

数据治理专家、《一本书讲透数据治理》作者之一石秀峰在接受《商学院》杂志访谈时表示，数据湖技术是不断发展的，它可以以更方便、更廉价的方式解决不同类型数据结构的统一存储问题，同时还能够为机器学习提供全局数据。

“我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘、数据可视化等技术，促进数据价值变现的完整解决方案。”石秀峰解释道。

解析“湖架构”

数据湖并不是一个产品，也不是一项技术，而是由多个大数据组件、云服务组成的一套解决方案。

石秀峰指出，亚马逊AWS算是数据湖技术的“鼻祖”。早在2006年3月，亚马逊就推出了全球首款公有云服务Amazon S3，其强大的数据存储能力，奠定了亚马逊AWS数据湖领导地位的基础。

如今，数据湖已经在各大企业云上大展身手，除了亚马逊AWS，阿里云、华为云等也纷纷部署数据湖。

在石秀峰看来，数据湖并不是一个产品、也不是一项技术，而是由多个大数据组件、云服务组成的一套解决方案。

数据存储方面，数据湖最核心的组件是Amazon S3，它可以存储二进位为基础的任何信息，包含结构化和非结构化的数据，例如：企业信息系统ERP、CRM等系统中的关系型数据，从手机、摄像机来的照片、音视频文件，从汽车、风力发电机等各种设备来的数据文件等。

数据源连接方面，亚马逊AWS 提供了一个叫Amazon Glue产品，支持不同的数据库服务之间的连接。Glue主要有两个功能，一个是ETL，即数据的抽取、转换和加载。另一个是数据目录服务的功能，因为把这些数据都存在数据湖里，在这个过程中，要对这些数据打上标签并进行分类。Glue就像爬虫一样对数据湖里的海量数据进行自动爬取，生成数据目录的功能。

大数据处理方面，亚马逊AWS数据湖可以将其分为三个阶段。第一阶段批处理，通过把各种类型的原始数据加载到Amazon S3上，然后通过Amazon Glue对数据湖中的数据进行数据处理，也可以使用Amazon EMR进行数据的高级处理分析。第二阶段流处理和分析，这个任务是基于Amazon EMR、Amazon Kinesis来完成的。第三阶段为机器学习，数据通过 Amazon Machine Learning、Amazon Lex、Amazon Rekognition进行深度加工，形成可利用的数据服务。

数据服务方面，亚马逊AWS数据湖可为不同角色的用户提供不同的数据服务，数据科学家可以基于数据湖进行数据探索和数据挖掘，数据分析师可以基于数据进行数据建模、数据分析等；业务人员可以查询、浏览数据分析师的分析结果，也基于数据目录自助式进行数据分析。基于数据湖可以开发各类SaaS应用，同时数据湖提供数据开放能力，支持将数据以API接口的形式开放出去以供外部应用调用。

安全与运维方面，由于亚马逊AWS数据湖运行在云端，亚马逊的Amazon VPC为云端数据湖提供了管理和监控功能， VPC 支持指定 IP 地址范围、添加子网、关联安全组以及配置路由表，Amazon IAM、Amazon KMS为数据湖的安全保驾护航，为构建出一个安全的云数据湖提供支撑。

用数据湖服务

兼具灵活性和安全性的数据湖构建本应是件困难的事情，但亚马逊AWS实现了。

作为全球最全面、应用最广泛的云，在过去18年里，亚马逊AWS一直在为全球数百万客户提供云服务。其数据湖也在其中发挥了极为重要的作用。

以Coca-Cola Andina在南美洲生产和分销经可口可乐公司许可的产品品牌为例，作为一家快消品公司，Coca-Cola Andina与客户和消费者有着直接的联系。不过，在快消品行业会产生海量数据，并且这些数据往往存储在不同的系统中，相互隔绝，因此很难对信息进行分析。

“在不同系统或传统数据仓库中存储数据让事情变得非常复杂，”Coca-Cola Andina 地区首席技术官 Luis Valderrama 说道。

为此，Coca-Cola Andina 想要一种易于访问、数据可靠且对存储、响应或处理能力没有限制的架构，于是选择亚马逊AWS作为其数据湖的所有技术和架构的提供商。

2021年，Coca-Cola Andina 在亚马逊AWS上构建数据湖，成功将分析团队的生产力提高了80%，将来自不同业务领域的 95% 的数据统一存放到一个数据湖中，同时使公司自身和客户根据可靠的数据做出决策，从而推动整个生态系统的共同增长，不仅保持了其竞争优势，而且还增加了公司收入。

在亚马逊AWS上开发数据湖的“云”服务还发生在众多企业身上。

例如，宝马集团将其本地数据湖迁移到亚马逊AWS，以实现扩展和支持全球用户所需的敏捷性与灵活性；纳斯达克在Amazon S3上构建新数据湖的基础，率先在云中存储股票交易所数据等；道琼斯公司拥抱数据湖，通过转变亚马逊AWS上的数据分析来推动业务价值；国际生鲜电商公司HelloFresh实现了其数据功能的现代化，从其传统数据库迁移到亚马逊AWS数据湖……

值得一提的是，兼具灵活性和安全性的数据湖构建本应当是件困难的事情。

石秀峰表示，数据湖从技术层面也是一个大数据平台，传统上搭建一个集数据存储、数据处理、机器学习、数据分析等应用为一体的大数据平台需要十几个甚至几十个大数据组件，同时还需要为相关组件构建集群，以满足大批量数据处理、计算和存储的需要，“这个过程往往是非常复杂的，可能需要数月才能完成。”

直到2018年，亚马逊AWS推出了Amazon Lake Formation，宣称可以帮助企业在几天内就能构建出安全的数据湖。

对于亚马逊AWS数据湖从创建到应用的过程，石秀峰将其归纳为“建湖、聚数、治数、用数”八个字。建湖即初始化存储；聚数即迁移数据；治数即数据清洗、数据准备、元数据管理、数据安全和合规性管理；用数即数据分析、数据服务。

在数据湖的支撑下，亚马逊AWS“云”之旅持续为数百万企业赋能，让企业数据治理变得更加智慧便捷。

仍在路上

有效地利用“数据湖”，充分的挖掘数据潜在价值，能帮助企业更好的细分市场，以助于企业有针对性的为企业发展提供决策支撑。

数字智能时代，机器学习、人工智能、物联网、大数据、大模型等新兴技术接连涌现，这给数据湖运作发展带来更多挑战和思考，也给企业的数据治理带来新的机遇。

从2006年云服务市场诞生至今，云技术都在不断迭代，推动企业步步前行。石秀峰指出，传统信息系统是由流程驱动的，企业的所有业务都是围绕着流程进行，这个阶段数据并没有引起人们的重视。

到了数据仓库阶段，企业对数据的应用也仅是处于辅助层面，企业的管理决策、业务创新主要还是靠人的经验，数据只是一个参考。

“随着数字化时代的来临，大数据技术不断地深入应用，人们发现大数据的问题发现能力、预测能力要远远超过人们的经验。越来越多的企业选择基于数据进行企业的经营决策、提升组织绩效、做产品的创新。”石秀峰表示。

可以看到，企业正在从“流程驱动”的信息化时代，走向“数据驱动”的数字化时代。

石秀峰直言：数据湖的出现，最初就是为了补充数据仓库的缺陷和不足，为了解决数据仓库漫长的开发周期，高昂的开发成本，细节数据丢失、信息孤岛无法彻底解决、出现问题无法真正溯源等问题。

如今随着大数据技术的发展，数据湖不断演变，汇集了各种技术，数据湖逐渐发展成为一个统一数据管理平台，为企业提供数据“采集、存储、治理、分析、挖掘、服务”的完整解决方案，从而实现“水到渠成”的数据价值洞察。

在石秀峰看来，“数据湖”是应时代而生的一个产物，它的价值不仅可以将海量、不同类型的数据进行统一存储，还能提供数据目录和查询服务。数字化的时代，数据更加大量、更加实时、更加面向未来，机器学习、人工智能成为一个企业数字化转型的关键性因素。

因为数据湖支持海量的、实时的数据处理和分析，甚至这种数据处理与分析都不需要预定义数据模型，增强了数据的洞察能力，它使得这些海量数据的价值比以前更加有所提高，帮助人们在局部的数据里找到更多的规律。可以说“数据湖”就是为“机器学习”而生。

有效地利用“数据湖”，充分的挖掘数据潜在价值，能帮助企业更好的细分市场，以助于企业有针对性的为企业发展提供决策支撑，从而提升企业的竞争力，甚至创新企业的商业模式。

来源 | 《商学院》杂志9月刊

查看原图 33K