首页 数据仓库及ETL介绍(PPT 45页)

数据仓库及ETL介绍(PPT 45页)

举报
开通vip

数据仓库及ETL介绍(PPT 45页)数据仓库及ETL介绍目录基础概念Informatica组件详解InformaticaKB介绍ETL系统介绍1、数据仓库数据仓库是一个:面向主题的(SubjectOriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(TimeVariant)的数据集合1、数据仓库数据仓库是一个:面向主题的(SubjectOriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(TimeVariant)的数据集合1、数据仓库的特点面向主题的(Subjec...

数据仓库及ETL介绍(PPT 45页)
数据仓库及ETL介绍目录基础概念Informatica组件详解InformaticaKB介绍ETL系统介绍1、数据仓库数据仓库是一个:面向主题的(SubjectOriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(TimeVariant)的数据集合1、数据仓库数据仓库是一个:面向主题的(SubjectOriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(TimeVariant)的数据集合1、数据仓库的特点面向主题的(SubjectOriented)数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。集成的(Integrate)在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化,对数据进行清洗、转换等集成操作。相对稳定的(Non-Volatile)一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化(TimeVariant)数据仓库中的数据通常包含历史信息,系统 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 了企业从过去某一时点到目前的各个阶段的信。主题与主题域主题面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。主题域主题域是对某个主题进行分析后确定的主题的边界主题与主题域主题与主题域:财务:资金筹集、资金配置、资本结构、现金创造、现金管理资产质量、盈利能力、债务风险、成本、费用、差旅人力资源:人员、薪酬、职位、员工关怀、人员流动、技能提升资产:固定资产、资产使用、资产维护、折旧、残值经营分析:流量、生产保障、精细化管理、运营效率、设施效率主题与主题域维度建模维度建模:其最简单的描述就是,按照事实 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 、维度表来构建数据仓库、数据集市。维度表: 维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表:在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。维度建模简单的说: 1、事实表就是你要关注的内容; 2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。星形模型与雪花模型雪花模型星形模型与雪花模型星形模型一种使用关系数据库实现多维分析空间的模式,称为星型模式。星型模式的基本形式必须实现多维空间(常常被称为方块),以使用关系数据库的基本功能。雪花模式不管什么原因,当星型模式的维度需要进行 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 化时,星型模式就演进为雪花模式。星形模型缺点Benefits:SimplerqueriesSimplifiedbusinessreportinglogicQueryperformancegainsExpansibilityDisadvantagesredundancydataHarderComplexQueries 缓慢变化维Supplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcmeSupplyCoILoriginalNow缓慢变化维处理方式Type0:retainoriginalType1:overwriteType2:addnewrowType3:addnewattributeType4:addhistorytableType6:hybridType2&TYPE3Supplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcmeSupplyCoCA01-Jan-200021-Dec-2004124ABCAcmeSupplyCoIL22-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcmeSupplyCoCA22-Dec-2004ILType4:addhistorytableSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme&JohnsonSupplyCoILSupplier_keySupplier_CodeSupplier_NameSupplier_StateCreate_Date123ABCAcmeSupplyCoCA14-June-2003124ABCAcme&JohnsonSupplyCoIL22-Dec-2004Type6Supplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcmeSupplyCoNYCA01-Jan-200021-Dec-2004N124ABCAcmeSupplyCoNYIL22-Dec-200403-Feb-2008N125ABCAcmeSupplyCoNYNY04-Feb-200831-Dec-2009Y代理主键代理主键:维度建模理论中,维表里使用原业务中的主键作为主键就是业务键(BusinessKey);建立新的主键就是代理键(SurrogateKey)为什么使用代理主键:性能主键重复一致性维度一致性维度:当不同的维度表的属性具有相同列名和领域内容时,称维度表具有一致性。利用一致性维度属性与每个事实表关联,可将来自不同事实表的信息合并到同一报表中。建模四步骤:总线架构数据仓库架构快速判断数据仓库水平有没有带缓慢变化维度一致性维度有没有跨层取数的现象ETL34个子系统抽取在ETL环境中从源系统收集原始数据并且在任何对数据的重要重构发生之前都将数据写入磁盘。子系统1到子系统3都支持抽取过程。清洗和一致化通过ETL系统中的一系列处理步骤发送源数据,这些步骤提高了从源系统接收数据的质量,并且对两个或多个源系统中的数据进行了合并,创建并强化了一致性维度和一致性度量。子系统4到子系统8描述了支持清洗和一致化过程所需的架构。ETL34个子系统提交从物理上将数据组织和装载到呈现服务器的目标维度模型中。子系统9到子系统21提供了若干种将数据提交到服务器上的功能。管理用一致的方式来管理ETL环境中的相关系统和过程。子系统22到子系统34都描述了支持ETL系统现行管理所需的组件。抽取子系统1--数据探查子系统2--变化数据捕捉系统审计列定时抽取完全差异比较数据库日志刮取消息队列监视抽取子系统3--抽取系统文件FTPWEBSERVICE数据库接口数据的清洗和一致化子系统4--数据清洗系统对数据质量问题的早期诊断和鉴别分类:完整性、一致性、准确性、及时性让源系统和集成工作提供更优质的数据具有为ETL过程中遇到的数据错误提供特定描述的功能具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架对最终数据的质量可信度进行度量的附加功能数据的清洗和一致化子系统5--错误事件模式子系统6--审计维装配器数据的清洗和一致化子系统7--重复数据删除系统子系统8--一致化系统子系统9--向呈现层交付数据子系统9--缓慢变化维管理器子系统10--代理键生成器子系统11--层次管理器数据的清洗和一致化子系统12--专用维度管理器日期/时间维杂项维微型维(视图维度)小型静态维用户维护的维度子系统13--事实表构建器事务处理粒度事实表装载器周期快照事实表装载器累积快照事实表装载器数据的清洗和一致化子系统14--代理键管道子系统15--多值维度桥接表构建器子系统16--延迟到达数据处理器子系统17--维度管理系统子系统18--事实提供系统子系统19--聚集构建器子系统20--OLAP多维数据集构建器子系统21--数据传播管理器管理ETL环境子系统22--作业调度器子系统23--备份系统子系统24--恢复和重启系统子系统25--版本控制系统子系统26--版本迁移系统子系统27--工作流监视器子系统28--排序系统?子系统29--沿袭和依赖分析器子系统30--问题自动调整系统子系统31--并行/管道系统子系统32--安全系统子系统33--合规性管理器管理ETL环境子系统34--元数据知识库管理器技术元数据业务元数据运行元数据Informatica整体架构两个服务器端和五个客户端组件服务器端RepositoryServerInformatcaServer客户端RepositoryManagerDesignerWorkflowManagerWorkflowMonitorRepositoryServerAdministrationConsole五个客户端组件的作用RepositoryManager元数据资料库,依赖分析,安全性管理等。Designer定义源和目标数据结构, 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 转换规则,生成ETL映射。WorkflowManager合理地实现复杂的ETL工作流,基于时间或事件的作业调度。WorkflowMonitor监控workflow和session,生成工作日志及报告。RepositoryServerAdministrationConsoleRepository的建立与维护INFA安装配置依赖:OracleDB2或SQLSERVER的DBA权限安装配置过程:点击Server软件包setup.exe完成安装登录控制台创建RS,IS,把RS由独占模式改为普通模式点击Client软件包setup.exe配置连接信息,连接到服务器端客户端和服务端端组件服务器端RepositoryServerInformatcaServer客户端RepositoryManagerDesignerWorkflowManagerWorkflowMonitorRepositoryServerAdministrationConsoleINFA组件组件源、目标SQqualifierExpressionJoinerSorterFilterINFA组件SequenceGeneratorAggregatorRouterUnionSQLUpdateStrategyLOOPUP其他MappletworkflowWorklet谢谢!谢谢!
本文档为【数据仓库及ETL介绍(PPT 45页)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥13.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
1519356641
我是物理老师
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:
上传时间:2021-05-23
浏览量:43