在近期的一次技术分享会上,亚马逊云科技的行业专家刘勇深入探讨了企业数据架构的现代化转型路径,特别是从传统单体数据服务向分布式数据网格(Data Mesh)的演进过程。他详细解析了数据网格的四大核心原则,并展示了如何在亚马逊云平台上实践这些原则。
刘勇指出,数据治理是企业管理数据资产、挖掘数据价值的关键。它涵盖了数据的计划、监控和执行,确保数据被科学、规范地管理和使用。在亚马逊云上,数据治理不仅仅是技术问题,还需要结合流程和人员管理。虽然亚马逊云没有专门的“数据治理”服务,但提供了丰富的工具和服务来满足数据治理的需求,如Glue Data Catalog用于数据编目,Amazon DataZone用于数据协作等。
Amazon DataZone作为亚马逊云上的一项关键数据治理服务,通过分布式数据协作方式,打破了组织边界,释放了数据价值。它提供了数据访问和治理、连接数据相关人员、自动化发现和元数据管理等能力,是构建数据网格的重要基石。
回顾数据平台的发展历程,第一代数据平台主要依赖数据库和数据仓库,但存在成本高、难以应对大数据、数据孤岛等问题。第二代数据平台利用Hadoop和Spark等技术构建了中心化的数据湖,但实践中暴露出组织内部摩擦、数据所有权不明确等问题。第三代数据平台虽然增加了实时流处理能力和云原生基础设施,但仍未彻底解决这些问题。而数据网格作为一种现代分布式数据架构,通过去中心化的数据领域所有权、产品化思维管理数据、自助式协作平台和联邦治理等原则,为数据管理提供了新的解决方案。
在数据网格架构中,通用数据平台仅提供基础功能,如存储、管道和目录访问等,不涉及任何业务操作。每个领域由跨职能团队负责,根据自身业务需求选择合适的技术栈构建数据产品。不同领域之间可以链接、相互使用数据产品,在统一的治理和开放标准下实现数据协作。这种架构使得数据团队能够掌控数据的整个生命周期,对数据质量进行控制,制定本地治理标准。
在亚马逊云上实践数据网格,需要利用多种云服务,如S3、Glue、Lake Formation、DataZone等。数据生产者、中心治理团队和数据消费者分布在不同的云账号中,数据生产者在自己的账号中构建数据资产,并将元数据共享到中央治理账号。数据消费者在中央账号中查询、订阅并访问所需数据,而数据本身仍存储在生产者端,消费者只是读取而不复制。
刘勇还探讨了数据网格与生成式人工智能(Generative AI)的融合前景。他认为,两者融合将提升数据发现、处理和分析的智能化水平,如通过自然语言查询、AI推荐和自动化报表等功能,更好地挖掘和利用数据价值。在技术架构层面,生成式AI应用层将构建于数据产品层和数据治理层之上,利用数据产品进行模型训练、构建知识库,并通过API服务的形式对外提供数据资源。
亚马逊云科技在推动数据架构现代化转型方面,提供了完整的解决方案。从单体数据服务向分布式数据网格迈进,再融合生成式AI,将助力企业全面拥抱数据时代,实现数据驱动的业务创新。亚马逊云科技通过领先的技术实力和丰富的经验,帮助企业把握全球化机遇,在AI时代取得突破。
文章采集于互联网