近30年来,数据转换一直是组织提供分析就绪数据的重要组成部分. 多年来的数据转换过程主要集中在ETL中的“T”(提取、转换和加载). 在ETL管道中, 数据转换主要关注于清理数据并将其从源模式映射到目标模式. 随着组织的目标模式(星型和雪花型模式)越来越成熟,, 这些映射过程变得更加复杂.
从2010年代到今天,数据转换的作用已经扩大. 新的数据源和格式出现了, 数据湖等新平台被部署来支持这一点. 数据转换在帮助交付价值方面的作用变得越来越重要. 新, 复杂的数据格式需要规范化, 洁净, 与传统数据源(通常是现有的数据仓库)集成, 然后浓缩.
最后, 在2010年代后半期,数据准备成为分析师自助数据转换不可或缺的组成部分. 这个允许的个体, 更少的技术分析师可以对数据执行各种各样的转换,而无需依赖并等待IT和数据团队为他们创建数据转换管道.
近年来, 新的趋势已经出现,改变了人们思考和执行数据转换的方式, 包括:
使用数据转换SaaS解决方案, 客户可以订阅并几乎立即获得对托管服务的访问, 使用数据转换工具创建模型, 管理和部署数据转换模型, 并运行这些管道,以确保有效的数据转换流程.
作为托管服务, 客户不需要自带或操作任何云计算或存储服务. 当SaaS平台专注于促进ELT流程中的转换时, 客户只需将系统指向他们现有的云数据仓库, 哪个提供数据存储和计算能力.
数据转换SaaS解决方案提供的一个明显且核心的好处类似于云和SaaS服务:可伸缩性, 灵活性, 和现代化. 除此之外,它还带来了其他好处,包括:
让十大网赌正规网址下载更详细地探索其中的每一个.
随着组织将他们的分析转移到云端, 他们经常创造新的, 围绕工具和流程的现代数据堆栈包含云技术,并体现可伸缩性和灵活性. 新的现代数据栈通常包括:
现代数据栈组件, 项目1, 2, 4, 5都是易于订阅的SaaS/托管服务, 使用, 和操作. 因此, 数据转换即服务(数据转换 as a Service)更适合这个堆栈,它具有与其他基于云的SaaS服务类似的计算和操作优势, 并且更有效地与核心组件(如云数据仓库)集成(见下文)
随着组织创建他们的现代数据堆栈, 云数据仓库成为核心和主要的工作机器. 它为体系结构提供核心存储和计算(查询)功能. 它还提供了一个标准接口和组件,堆栈中的其他工具可以集成到该接口和组件中.
数据转换即服务平台将云数据仓库作为其“关键”, 与CDW提供的核心服务集成. 通过与CDW的集成,数据转换 SaaS平台将:
这为数据转换创建了一个高效的执行模型,并使用了经济高效的CDW查询/计算和存储服务.
市场上有大量执行数据转换的工具. 有些是遗留工具,有些是更现代的工具. 尽管多年来,传统工具已经进行了多次翻新, 这些产品仍然采用老式的数据转换, 如图所示 Informatica 和 Talend. 甚至一些支持ELT过程的基于云/ saas的工具仍然有旧式的数据转换接口, 如图所示 Matillion.
一个好的数据转换即服务工具包含了分析工程过程中涉及多个角色的现代事实, 包括数据工程师, 分析工程师(更多的技术分析师), 数据分析师, 数据科学家. 这些角色通常有:
为此目的, SaaS数据转换工具将提供一个更现代的工具,允许每个角色参与数据转换过程, 最好地利用他们的技能,并确保他们花最多的时间做他们最擅长的事情. 例如, 通过易于使用的无代码或低代码数据转换接口,数据分析师可以将更多的时间花在分析上,而减少数据转换上.
一个高度现代化的SaaS数据转换平台应该支持三种不同的接口来支持多个角色:
数据文档通常分布在wiki页面中, 元数据管理系统, 或者早期版本的数据目录. 这些来源中的大多数仍然没有捕捉到很多关于数据的知识. 一些数据转换工具试图生成关于数据的文档, 但这通常只是从SQL代码中获取注释,然后生成wiki页面或添加有限的描述.
数据转换SaaS工具将包含捕获关于它正在处理的数据的尽可能多的信息的能力, 执行的转换, 以及生成的数据模型. 这将包括自动生成的文档和信息,如模式信息, 转换完成, 数据沿袭, 和审计.
数据转换SaaS工具还应该便于用户生成有关数据的信息, 从整个数据和分析社区获取额外的信息, 包括:
在传统的数据工程过程中, 通常情况下,当数据团队需要解释分析团队的需求时,事情就会崩溃,而产生的数据集中出现了不匹配, 浪费宝贵的时间和精力. 这是因为数据团队对数据了解很多,但对业务如何使用数据知之甚少, 对于分析团队来说,反之亦然, 他们对数据知之甚少,但知道企业将如何使用这些数据.
除了支持与现代数据堆栈相关的多个角色, 数据转换平台促进了协作数据生命周期过程,消除了分析工程过程中的错误和不匹配:
这种协作过程消除了数据转换和建模中的错误, 将整个过程加快20-30倍.
虽然数据转换SaaS平台可以为数据和分析团队提供上述所有日常好处, 它带来的最重要的好处是:
Datameer是一个强大的SaaS数据转换平台,运行在Snowflake -您的现代, 可扩展的云数据仓库——结合起来提供高度可扩展和灵活的环境,将数据转换为有意义的分析. 使用Datameer,您可以: