什么是数据建模,如何进行?

数据处理光谱vs .表处理

随着新技术的引入,数据建模领域也在不断发展.  第一个, 这是数据仓库, 然后是MPP数据仓库, 其次是Hadoop和数据湖, 现在十大网赌正规网址下载进入了云数据仓库时代.

十大网赌正规网址下载已经看到了不同的数据建模选项,从Inmon和Kimball模型开始,一直发展到数据湖中的“数据扁平化”模型.  十大网赌正规网址下载还看到了从ETL到ELT的数据转换过程.

什么是数据建模?

数据治理——谁负责

数据建模 是否为特定目的定义数据内容和结构的过程.  数据建模过程是通用的,可用于应用程序和分析.

数据建模通常分为三个部分.  第一个, 创建概念模型,定义数据模型的高级数据需求.  然后将其转换为逻辑模型, 添加更多细节并定义目标独立的逻辑结构.  最后, 逻辑模型被转换为数据源(如Snowflake这样的云数据仓库)中的物理模型.

数据建模用于分析

数据治理框架

两种最重要的分析数据建模方法来自于 数据仓库 创新者比尔·因蒙和拉尔夫·金博尔.  Inmon提倡将面向主题的数据建模方法组织到主题领域中, 而Kimball方法则专注于将数据组织成事实表和维度表,即后来的星型模式.  每种方法都向数据仓库和模型添加了所需的结构, 但这种结构也需要漫长的变更管理过程.

数据的湖泊 带来了另一种更加敏捷的数据建模技术.  数据转换可以利用Hadoop的读时模式和高度并行处理.  大量原始数据被加载到数据湖中, 然后数据工程师会为每个用例将数据转换成特定于主题的结构.  最终的结构是典型的宽结构, 平面表格,包含特定分析用例所需的所有数据.

在这两种情况下,数据都是用 ETL模式 -提取、变换和加载. 以数据仓库为例, 数据被转换到仓库, 对于数据湖来说, 它直接在数据湖上转换.

云数据仓库时代

security-和-data-governance

云数据仓库的出现和流行改变了十大网赌正规网址下载对数据转换和建模的看法.  新 英语教学模式, 或提取, 负载, 和转换, 提取过程, 并将原始源数据加载到CDW中, 然后转化成你分析的最终形式.

这允许组织利用CDW的廉价和可伸缩的计算和存储服务,并通过将数据加载和数据转换过程和工作负载分离开来,数据工程师执行前者,数据分析师执行后者,从而创造了灵活性.  组织可以创建任意数量的特定于主题的分析数据模型,这些模型可以根据自己的需求进行优化,并且可以使用诸如Snowflake虚拟数据仓库之类的现代组织技术.

ELT模型还允许组织共享数据建模和转换工作负载.  最初,数据建模和转换是ETL开发人员的专长.  在数据湖上,一个新的角色出现了——数据工程师——他们接手了这个任务.  在云数据仓库中, EL和T与负责EL的数据工程师分开,数据工程师和分析社区共同负责T, 大部分的数据建模都是在T.

协作工具绿色图标

步骤1:将数据放入CDW

ELT过程中的EL部分在技术上是否被认为是数据建模——即获取原始数据的过程——是有争议的, 原始数据进入云数据仓库.  至少, EL过程对云数据仓库中的整体数据模型和结构有很大的影响.

在现代数据领域中,数据来自各种各样的来源.  SaaS应用程序和云服务是增长最快的数据分析来源.  这些数据源具有极其复杂的数据结构和api.  现代的EL或“数据加载器”工具, 如Fivetran, 针, 和其他人, 重点在于消除这种复杂性,并将“对象”从这些源复制到云数据仓库中.

因此, 您的团队将使用的初始数据模型是云数据仓库中的一组表,它们看起来像来自数据源的对象, 分组相似, 并且包含所有相同的字段.  而是因为数据是为SaaS应用程序或云服务中使用而设计的, 它可能非常神秘,通用数据分析师无法理解.

在进入云数据仓库的过程中,需要对数据应用一个非常重要的数据转换步骤.  如果任何数据是私有的或敏感的,则需要对其进行匿名化或屏蔽.  这对于维护数据隐私和确保法规遵从性至关重要.

加载原始数据后,数据工程团队可能会申请第一次数据清理.  而数据清理通常包括许多不同的技术, 它们可以松散地分为两类:一般类, 标准化的清洗, 以及特定于用例的清理.  在第一步中, 数据工程师可以适用于一般情况, 标准化清理(a)查找和纠正缺失或无效的值, (b)转换格式不正确的字段, (c)从复杂字段中提取单个字段, 多方面的列.

步骤2:规范化数据建模

一旦数据在CDW中并经历了第一次数据转换, 数据工程团队可以将原始数据转换为表示特定主题的规范化数据模型.  其中的例子是代表客户的数据模型, 联系人, 领导, 机会, 活动, 和更多的.

规范化数据模型的主要原理是创建共享, 用于多个用例的可重用组件.  随之而来的还有额外的好处:

  • 为每个主体和该主体内的领域创造真理的单一版本,
  • 为每个主题提供关于数据的共享和标准化定义和文档,
  • 数据模型的透明度,以及如何在分析社区中建立信任.

数据工程团队将从各种业务和分析团队收集需求,以构建规范化数据模型.  这些数据模型通常是最大化重用和使用的需求的超集.  随着新的需求或数据源的出现,数据模型也将不断发展.

由于来自数据源的原始数据通常是规范化的(在某些情况下是轻度规范化的,而在其他情况下是高度规范化的), 规范化数据模型通常将混合(JOIN, 联盟, 等.)数据来创建一个丰富而完整的字段集来表示主题.  除了, 规范化数据模型还可能具有一些数据丰富性,以计算在不同用例中标准化使用的新字段.

人图标

步骤3:用例数据建模

数据建模的最后一步是创建特定于分析用例的数据集.  对于云数据仓库中的现代数据建模,该任务通常由数据分析师完成.  为什么?  这可以归结为角色和技能:

  • 数据工程师往往更了解数据本身——它驻留在哪里, 它是如何结构和格式化的, 以及如何获取这些数据——而不是企业如何使用这些数据.  这使得它们成为将数据导入CDW和首次数据建模的理想角色.
  • 数据分析师对原始数据了解较少,但对企业如何使用数据以及如何将数据整合到分析中有全面的了解.  这使得它们的理想角色是用例数据建模和转换.

数据分析师可能拥有不同的技术技能,但他们更愿意花更多的时间在他们擅长的事情上——分析——而不是编码数据转换.  这就是低代码或无代码数据转换UI变得重要的地方, 消除了分析师编写复杂SQL代码和类python脚本的需求.

用例数据建模和转换通常包括:

  • 特定于用例的数据清理, 比如识别和修复异常值或重复数据删除记录,
  • 数据整形和缩减,如排序和组织数据, 消除不需要的字段, 或将数据范围缩小到时间段或特定维度, 和
  • 数据丰富,添加特定于分析的新计算字段,或者上传特定于用例的本地文件, 例如外部或特定于部门的数据.

最优, 数据模型的最终形式将是一个单一的扁平数据结构——一个非常大的数据结构, 宽表.  这, 随着物质化, 消除了每次为分析执行查询时执行昂贵的join的需要.

Datameer SaaS数据转换

Datameer是一个强大的SaaS数据转换平台,运行在Snowflake -您的现代, 可伸缩的云数据仓库——提供了一个高度可伸缩和灵活的环境,可以将数据转换为有意义的分析.  使用Datameer,你可以:

  • 允许非技术分析团队成员处理复杂的数据,而不需要使用Datameer的无代码和低代码数据转换接口编写代码,
  • 在技术和非技术团队成员之间协作构建数据模型, 数据转换流程来实现这些模型, 每个人都在使用他们的技能和知识
  • 充分丰富的分析数据集,为您的分析添加更多的风味,使用不同的图形公式和函数数组,
  • 生成丰富的文档并添加用户提供的属性, 评论, 标签, 更多的是在整个分析社区中分享关于你的数据的可搜索知识,
  • 使用类似目录的文档特性将数据治理过程众包,以实现更大的数据民主化和数据素养,
  • 维护关于社区如何转换和使用数据的完整审计跟踪,以进一步支持您的治理和遵从性流程,
  • 直接在Snowflake中部署和执行数据转换模型,以获得对大量数据所需的可伸缩性,同时保持较低的计算和存储成本.

Datameer为您的现代数据堆栈和云分析提供了许多关键的好处, 包括:

  • 创建一个高效的数据堆栈,降低你的数据和分析工程成本,
  • 允许您在更广泛的数据和分析团队中共享数据转换工作,
  • 促进数据和分析团队之间的合作,以产生更快、无错误的项目,
  • 高效地使用您的雪花分析引擎进行经济有效的数据转换处理,
  • 使您能够众包您的数据治理,以实现更有效和高效的治理流程, 和
  • 提高数据素养,以扩展知识和有效使用数据.
checklist-icon

总结

使用云数据仓库和ELT流程的现代数据栈,已经产生了在数据栈中进行现代化数据建模的需求.  需要一种高度模块化的数据建模和转换方法, 这是一个数据工程和分析团队之间高度协作的过程,每个团队都可以最好地使用他们的技能和知识.

数据建模和转换是否阻碍了分析的现代化?  你的数据和分析工程成本是否在飞涨?  Datameer拥有数据建模和转换解决方案,可以加快分析过程,降低数据工程成本.  它提供了通用性和完整性,可以方便地为上面详述的步骤进行数据建模和转换.

请访问十大网赌正规网址下载的 网站 或者通过安排 个性化的演示.

轻松转换和分析雪花数据!

了解更多
友情链接: 1 2 3 4 5 6 7 8 9 10