首页 ETL和元数据

ETL和元数据

举报
开通vip

ETL和元数据 1.2 数据仓库中的ETL和元数据 1.2.1 ETL 1.2.2 元数据 1.2.3 外部数据 第一章 数据仓库原理 1.2 数据仓库中的ETL和元数据 1.2.1 ETL 一、ETL的概念 数据仓库的ETL系统是数据仓库中数据整理阶段的一个主要工具,它与元数据管理相结合,提供对不同数据源的数据进行抽取、转换、清洗、装载的功能。 通常而言,开发一个数据仓库项目包括了3个主要步骤:需求/建模,ETL开发,最后的前端开发。 第一章 数据仓库原...

ETL和元数据
1.2 数据仓库中的ETL和元数据 1.2.1 ETL 1.2.2 元数据 1.2.3 外部数据 第一章 数据仓库原理 1.2 数据仓库中的ETL和元数据 1.2.1 ETL 一、ETL的概念 数据仓库的ETL系统是数据仓库中数据整理阶段的一个主要工具,它与元数据管理相结合,提供对不同数据源的数据进行抽取、转换、清洗、装载的功能。 通常而言,开发一个数据仓库项目包括了3个主要步骤:需求/建模,ETL开发,最后的前端开发。 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念(续) 数 据 源 ETL 数 据 抽 取 数 据 转 换 数 据 装 载 数据仓库 OLAP 数据挖掘 客户端 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念(续) 可以看出ETL是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据装载到数据仓库中去。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 数据抽取是数据源接口,从业务系统中抽取数据,为数据仓库输入数据。 典型的数据抽取接口包括数据库接口和文件接口,对于不同的数据平台、不同源数据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,采取不同的数据抽取接口。 1、数据抽取 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 1、数据抽取(续) 在数据抽取时,需要重点考虑数据抽取的效率,以及对现有业务系统性能及安全的影响。数据的抽取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据抽取时应制定相应的策略,包括抽取方式、抽取时机、抽取周期等 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 2、数据转换和数据清洗 数据转换和数据清洗是指对从业务系统中抽取的数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据具有一致性和完整性,并按要求装入数据仓库。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 2、数据转换和数据清洗(续) 数据转换和数据清洗主要完成如下数据不一致: 1)源数据库系统同数据仓库系统在模型上的差异。 2)源数据库系统不一致。 3)源数据结构不一致。 4)源数据定义不规范导致错误数据。 5)对数据的约束不严格,导致无意义数据。 6)存在重复数据。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 2、数据转换和数据清洗 数据转换、清洗工作一般会有以下几种实现方法: 1)在数据抽取过程中进行数据处理。 2)使用异步数据装载,以文件的方式处理。 3)在数据装载过程中进行数据处理。 4)进入数据仓库以后再进行数据处理。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 3、数据装载 数据装载就是将从数据源系统中抽取、转换、清洗后的数据装载到数据仓库系统中。 主要的数据装载技术有两种: 1)使用数据仓库引擎厂商提供的数据装载工具进行数据装载。 2)通过数据仓库引擎厂商提供的API编程进行数据装载。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 3、数据装载(续) 数据装载策略要考虑装载周期以及数据追加策略两方面的内容。 装载周期要综合考虑业务分析需求和系统装载的代价,对不同业务系统的数据采用不同的数据装载周期。但必须保持同一时间业务数据的完整性。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 一、ETL的概念 3、数据装载(续) 数据的追加策略根据数据的抽取策略以及业务规则确定,一般有3种类型: 1)直接追加; 2)全部覆盖; 3)更新追加。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 二、ETL的作用 1、解决数据分散问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 2、解决数据不清洁问题 3、方便企业各部门构筑数据集市 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 三、ETL工具 1、ETL工具分类 (1)专业ETL厂商和产品 这类产品一般都有较完善的体系结构,并且久经市场考验,产品功能的复杂和详尽程度往往能令初次接触的人瞪目,但其高昂的价格也会使一般用户望而却步。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 三、ETL工具 1、ETL工具分类(续) (2)整体 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 提供商和产品 这类产品在提供数据仓库存储、 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 、展现工具的同时也提供相应的ETL工具,它们一般对自己厂商的相关产品有很好的支持并能发挥出最大效率,但结构相对封闭,对其他厂商产品的支持有限。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 三、ETL工具 2、ETL工具比较 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 数据库厂商 ETL工具 优点 缺点 IBM Warehouse Manager 数据源广泛,在大数据量的抽取中具有速度优势,提供编程接口和调用外部程序的功能;提供agent把数据抽取分布到工作站、小型机、大型机等各种平台 界面不太友好,在处理复杂的数据源时面临较多的工作量 ORACLE Oracle Warehouse Builder 提供的躬耕包括:模型构造和设计;数据提取、移动和元数据管理;分析工具整合;数据仓库管理;具有开放可延伸的框架 不能把数据抽取扩充到Unix工作站、小型机、大型机,流程繁琐,不易使用 MICROSOFT DTS 从广泛的数据源抽取数据,提供市场上最有效的编程方式,以及工作流的任务处理方式;提供调用外部吧程序的功能和强大、丰富的外部程序调用的对象库;按 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 自动执行数据抽取 就数据仓库环境而言,处理数据的量是有限的 INFORMIX Ardent DateStage 提供工作流的方式,可以实现内部编程 数据抽取功能的处理方式过于简单,程序的高效性和准确性方面的保证措施太少 CA Inforbump 抽取速度比较快 采用非工作流的工作方式,用户面临过大的工作量,程序的高效性和准确性方面的保证措施太少 1.2.1 ETL 三、ETL工具 3、ETL工具选择 ETL工具的功能可以概括为: 1)对平台的支持;2)对数据源的支持; 3)数据转换功能;4)管理和调度功能; 5)集成和开放性;6)对元数据的管理。 在工具的选择时,用户重点考虑这些可能影响ETL工具的要素。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.1 ETL 三、ETL工具 3、ETL工具选择(续) 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 性能 ETL工具 手工编码 灵活性 比较灵活 最灵活 难易程度 相对容易 要求一定的技术水平 管理和维护 容易 较难 性能和效率 较高 取决于编写者水平 开发周期 较短 较长 工作量 中等 较重 价格 较高 相对较低 1.2.2 元数据 数据仓库环境中一个重要方面是元数据。简单地说,元数据就是“关于数据的数据”。只要有程序和数据,元数据就是信息处理环境的一部分。在数据仓库中,元数据扮演一个新的重要角色。也正因为有了元数据,用户才可以最有效地利用数据仓库。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 元数据使得用户可以掌握数据历史,如: 1)数据从哪里来? 2)流通时间有多长? 3)更新频率是多大? 3)数据元素的含义是什么? 5)对数据已经进行了哪些计算、转换和筛选等。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求变化,降低项目风险。事实上,元数据贯穿于建立数据仓库的整个过程之中,是数据仓库构建过程中的一个重要部分,起着至关重要的作用。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 1、元数据的概念 在数据仓库系统中,元数据是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义,转换规则等相关的关键数据,同时元数据还包含关于数据含义的商业信息。 元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 1、元数据的概念(续) 元数据是描述数据仓库内数据的结构和建立方法的数据,对这些信息妥善保存,并很好地管理将为数据仓库的发展和使用提供方便,使得最终用户和DSS分析员能够探索各种可能性。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类 按照用途对元数据进行分类是最常见的分类方法,可将其分为两类: (1)管理元数据 (2)用户元数据 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类(续) 管理元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。 2)业务系统、数据仓库和数据集市的体系结构和模式。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类(续) 3)汇总数据用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询和报告。 4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类(续) 用户元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。用户元数据是从最终用户角度来描述数据仓库。通过用户元数据,用户可以了解: 1)应该如何连接数据仓库。 2)可以访问数据仓库的哪些部分。 3)所需要的数据来自哪一个源系统。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类 按照元数据的来源,元数据可以分为: 1)数据源的元数据 2)数据模型的元数据 3)数据源与数据仓库映射的元数据 4)数据仓库应用的元数据 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类(续) 按照元数据生成/ 使用的时间进行分类,可以分为: 1)设计时收集/使用的元数据 2)构建时生成/使用的元数据 3)运行时生成/使用的元数据 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类 按照数据仓库功能区域的划分,对元数据可以分为: 1)数据获取元数据 2)数据存储元数据 3)信息传递元数据 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 2、元数据的分类 按照元数据在数据仓库中所承担的任务,可以元数据分为: 1)静态元数据 2)动态元数据 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用 RDBMS 外部数据源 数据仓库 企业数据模型、多维数据模型 即席查询 OLAP分析 数据挖掘 管理元数据 用户元数据 元数据知识库 操作环境层 数据仓库层 业务层 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用 上图中左边的部分是元数据,它起到了承上启下的作用,具体体现在: (1)元数据是进行数据集成所必须的 数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程中。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用(续) 一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用(续) 另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建立数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键 。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用(续) 2)元数据定义的语义层可以帮助最终用户理解数据仓库中的数据。 最终用户不可能像数据仓库系统管理员或开发人员那样熟悉数据仓库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含义。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用(续) (3)元数据是保证数据质量的关键。 数据仓库或数据集市建立好之后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于低层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终使用者对各个数据的来龙去脉以及数据抽取和转换规则都会很方便地得到,这样他们自然会对数据具有信心。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 3、元数据的作用(续) (4)元数据可以支持需求变化。 如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 元数据存在于数据仓库过程中的每个步骤,在不同的数据仓库处理过程中都会产生一些新的元数据。这些过程包括源系统、数据抽取、数据清洗、数据转换、数据装载、数据存储、信息传递等。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (1)源系统 在源系统中,元数据的内容包括对操作型数据模型、系统文件的数据元素定义、物理文件布局以及字段定义、外部数据来源的文件布局和字段定义等内容的描述。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (2)数据抽取阶段 在数据抽取阶段,产生的元数据包含有所选择的数据源的布局和定义、用于抽取的字段的定义、标准化字段类型与长度的规则、数据抽取计划等内容。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (3)数据清洗和转换阶段 该阶段中元数据描述文件的转换规则、字段的默认值、有效性检查的规则、分类及重排序安排等内容。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (4)数据装载阶段 在数据装载过程中,元数据记录为文件分配键的分配规则、完全刷新的计划、增量装载的计划等内容。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (5)数据存储阶段 在数据存储阶段,元数据包含有对数据仓库的数据模型、物理文件、表和列的定义、有效性检查的规则等内容的描述。 1.2.2 元数据 一、什么是元数据 4、元数据的来源 (6)信息传递阶段 此阶段的元数据需要描述预定义查询和报表的列表、特殊OLAP数据库的数据模型以及为OLAP检索数据的计划。 1.2.2 元数据 二、元数据的标准化 没有规矩不成方圆。为了更好地发挥元数据在数据仓库中的作用,必须对其进行有效的管理,而一个统一的元数据标准是元数据管理的前提。但目前缺乏全行业内统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 二、元数据的标准化(续) 近几年,随着元数据联盟MDC(meta data coalition)和开放信息模型OIM(open information model)和OMG组织(Object Management Group, 对象管理组织)的公共仓库模型CWM(common warehouse model)标准的逐渐完善,以及MDC和OMG组织的合并,将为数据仓库厂商提供统一的标准,从而为元数据管理铺平道路。 目前,在数据仓库领域中有两个最主要的元数据标准:MDC的OIM标准,OMG的CWM标准。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 三、数据仓库中的元数据管理 1、元数据管理的具体内容 (1)获取并存储元数据 数据仓库中数据的时间跨度较长。此间,源系统可能会发生变化,则与之对应的数据抽取方法、数据转换算法以及数据仓库本身的结构和内容也有可能变化。因此,数据仓库环境中的元数据必须具有跟踪这些变化的能力。这也意味着元数据管理必须提供按照合适的版本来获取和存储元数据的方法使元数据可以随时间变化。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 三、数据仓库中的元数据管理 1、元数据管理的具体内容(续) (2)元数据的集成 不论是管理元数据和用户元数据,还是来自源系统数据模型的元数据和来自数据仓库数据模型的元数据,都必须以一种用户能够理解的统一方式集成。元数据集成是元数据管理中的难点。 1.2.2 元数据 三、数据仓库中的元数据管理 1、元数据管理的具体内容 (3)元数据的标准化 每一个工具都有自己专用的元数据,不同的工具中存储的同一种元数据必须用同一种方式表示,不同工具之间也应该可以自由、容易地交换元数据。元数据标准化是对元数据管理提出的另一个巨大挑战,目前尚未形成全行业内统一的标准。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 三、数据仓库中的元数据管理 1、元数据管理的具体内容(续) (4)保持元数据同步 关于数据结构、数据元素、事件、规则的元数据必须在任何时间在整个数据仓库中保持同步。同时,如果数据或规则变化导致元数据发生变化时,这个变化也要反映到数据仓库中。在数据仓库中保持统一的元数据版本控制的工作是十分繁重的。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 三、数据仓库中的元数据管理 1、元数据管理的具体内容(续) 目前,实施对元数据管理的方法主要有两种: 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库;对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。 1.2.2 元数据 三、数据仓库中的元数据管理 2、元数据管理工具 与元数据相关的数据仓库工具大致可分为四类: (1)数据抽取工具 (2)前端展示工具 (3)建模工具 (4)元数据存储工具 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 三、数据仓库中的元数据管理 2、元数据管理工具 元数据管理 数据抽取工具: *DataStage *Decision Base *Extract 前端展现工具: *Bo *Brio *cognos *DSS Agent 建模工具: *Erwin *Power Designer *Rose 元数据存储工具: *Repository *MetaStage *WCC 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.2 元数据 四、在数据仓库项目中使用元数据的建议 (1)ETL/元数据配合整体的建设策略 (2)从简单元数据管理做起,规范ETL设计 (3)让业务人员尽早的使用元数据 (4)尽量使用元数据维护数据仓库 (5)采用合适的管理方法 (6)建立元数据库 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 第二章 数据仓库中的ETL和元数据 1.2.3 外部数据 来自企业外,描述企业外部环境的数据称为外部数据。 一、外部数据和非结构化数据 外部数据的另一种来源是无法用数字或统一的结构表示的数据类,即非结构化数据。 非结构化数据的两种最常见的类型是图像和声音。 1.2.3 外部数据 一、外部数据和非结构化数据 在数据仓库中存在一些与外部数据/非结构化数据的使用、存储相关的问题。表现如下: 1)访问的频率/可用频率 2)数据的形式 3)不可预测性 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.3 外部数据 二、元数据和外部数据 由于在数据仓库环境中正是通过元数据来对外部数据进行注册、访问与控制的,因此元数据对存储和管理外部数据与非结构化数据起着重要的作用。 (见下图) 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.3 外部数据 二、元数据和外部数据 数据仓库 元数据 非结构化数据 外部数据 元数据: 文件标识符 进入日期 文件描述 文件来源 文件的分类 索引字 清理日期 物理地址引用 文件长度 相关参考 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.3 外部数据 二、元数据和外部数据 如果对元数据进行合理的整理,我们可以 生 成 通知数据。 通知数据就是与用户相关的数据分类。当某个新的外部数据进入数据仓库时,系统可以查找通知文件和元数据得到与该项新外部数据相关的人员,然后发送通知消息给这些数据分析员,让他们知道已经获得了有关的外部数据。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.3 外部数据 三、外部数据的存储 对于外部数据的存储,可以在数据仓库的元数据中,创建一个条目以说明什么地方能找到外部数据本身,从而可以实现对外部数据进行登录。此时,外部数据无需存储在数据仓库中,而可以存储在任何一个方便、经济的地方。当然,如果系统需要的话,外部数据仍然可以存储在数据仓库中。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 1.2.3 外部数据 四、外部数据的管理 为了有效的管理好外部数据,有经验的DSS分析员或工程师首先要弄清楚哪些是重要的数据部分?哪些是相对次要的数据部分?然后将最重要的数据存储在一个联机的、容易访问的位置,而对于不重要的细节则将其放在大容量的存储位置。这样,就能够有效地存储和管理大量的外部数据。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 本节总结: 本节主要讨论构建数据仓库过程中的两个重要的概念:ETL和元数据。首先,详细介绍ETL的概念、作用;ETL的工具以及如何选择合适的ETL工具。接着,介绍元数据的由来、概念、分类、管理和标准,并且给出了使用ETL和元数据的相关建议。 事实上,数据仓库不仅仅能够拥有内部的、结构化的数据,还有许多与企业运营有关的来自企业以外数据源的信息。在本章的最后一节,介绍了外部数据/非结构化数据的概念以及它们和源数据的联系。 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理 本节讨论题: 1、ETL的概念是什么?包含了几个过程?各个过程的作用是什么? 2、目前,常用的ETL工具有哪些?在一个具体的应用中,应该如何选择ETL工具? 3、元数据在数据仓库中的地位和作用如何? 4、试举例说明元数据管理的困难。 5、元数据管理工具有哪些部分组成?各部分功能、作用如何? 6、对MDC的OIM标准,OMG的CWM标准进行简介。 7、什么是外部数据、非结构化数据?它们与元数据有什么联系? 1.2 数据仓库中的ETL和元数据 第一章 数据仓库原理
本文档为【ETL和元数据】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥17.94 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
少女天空618
工作细心,责任心强,具有良好的沟通协调能力,抗压能力强,具有较强的逻辑思维能力,数据敏感度高,具备良好的创新能力。
格式:ppt
大小:474KB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2019-02-02
浏览量:28