数据仓库与数据挖掘教程(第2版)课后习题答案第一章

数据仓库与数据挖掘教程(第2版)课后习题答案第一章第一章作业 1．数据库与数据仓库的本质差别是什么？书P2 （1）数据库用于事务处理，数据仓库用于决策分析。（2）数据库保持事物处理的当前状态，数据仓库即保存过去的数据又保存当前的数据。（3）数据仓库的数据是大量数据库的集成。（4）对数据库的操作比较明确，操作数量较小。对数据仓库操作不明确，操作数据量大。 2．从数据库发展到数据仓库的原因是什么？书P1 （1）数据库数据太多，信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。（2）异构环境数据的转换和共享。随着各类数据库产品的增加，异构环境的数据也逐渐增...

第一章作业 1．数据库与数据仓库的本质差别是什么？书P2 （1）数据库用于事务处理，数据仓库用于决策分析。（2）数据库保持事物处理的当前状态，数据仓库即保存过去的数据又保存当前的数据。（3）数据仓库的数据是大量数据库的集成。（4）对数据库的操作比较明确，操作数量较小。对数据仓库操作不明确，操作数据量大。 2．从数据库发展到数据仓库的原因是什么？书P1 （1）数据库数据太多，信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。（2）异构环境数据的转换和共享。随着各类数据库产品的增加，异构环境的数据也逐渐增加，如何实现这些异构环境数据的转换的共享也成了研究热点。（3）利用数据进行事物处理转变为利用数据支持决策。 3．举例说明数据库与数据仓库的不同。比如，银行中储蓄业务要建立储蓄数据库，信用卡要建立信用卡数据库，贷款业务要建立贷款数据库，这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中，方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作，以快速的响应和频繁的数据修改为特征，使用户利用数据库能够快速地处理具体的业务。 OLAP（On Line Analytical Processing，联机分析处理）是使用多维数据库和多维分析的方法，对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据当前数据历史数据经常更新不更新，但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用，事务驱动面向分析，分析驱动 7．包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8．定义为关于数据的数据，描述数据仓库中数据及其环境的数据。 9．元数据不仅仅是数据仓库的字典，而且还是数据仓库本身功能的说明数据，是整个数据仓库的核心。数据字典是关于数据库中数据的描述，而不是数据本身，数据字典是数据库的元数据。 10 .数据仓库的定义是什么？答：（1）W.H.Inmon对数据仓库的定义：数据仓库是面向主题的，集成的、稳定的、不同时间的数据集合，用于支持经营管理中决策制定过程。（2）SAS软件研究所的观点：数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有限的决策支持。从数据仓库定义可以看出，数据仓库是明确为决策支持服务的，而数据库是为事务处理服务的。 11.数据仓库的特点有哪些？答：数据仓库的特点有一下几个：（1）数据仓库是面向主题的（2）数据仓库是集成的（3）数据仓库是稳定的（4）数据仓库是随时间变化的（5）数据仓库中的数据量很大（6）数据仓库的软硬件要求较高 12、说明机器学习如何形成人工智能的学科方向。答：机器学习是研究使计算机模拟或实现人类的学习行为，即让计算机自动获取知识。20世纪80年代，机器学习取得了较大成果，如AQ11系统、ID3决策树方法等，让机器学习上了一个新的台阶，机器学习便成为人工智能的一个主要学科方向。 13、说明数据挖掘的含义。答：数据挖掘就是从数据库中的所有数据记录中归纳总结出知识，让人们从抽象复杂的数据中看到客观规律，以便做出决策。 14、OLAP多维分析如何辅助决策？举例说明。答：OLAP是在多维数据结构上进行数据分析的，一般在多维数据上切片、切块成简单数据来进行分析，或是上钻、下钻来分析。OLAP要查询大量的日常商业信息，以及大量的商业活动变化情况，如每周购买量的变化值，经理通过查询变化值来做决策。例如经理看到利润小于预计值是，就会去深入到各地区去查看产品利润情况，这样他会发现一些比较异常的数据。经过进一步的分析和追踪查询可以发现问题并解决。 15 OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同，它是以变量和记录为基础进行分析的。 16 比如对超市的所有的购物账单中成对出现的商品的统计，可以有助于超市商品的合理摆放。 17 （1）常用统计（2）相关分析（3）回归分析（4）假设检验（5）聚类分析（6）判别分析（7）主成分分析 18、统计学与数据挖掘的不同。统计学主要是对数量数据或连续值数据进行数值计算的定量分析，得到数量信息。数据挖掘主要对离散数据进行定性分析，得到规则知识。在统计学中有聚类分析和判别分析，它们与数据挖掘中的聚类和分类相似。但是，采用的标准不一样，统计学的聚类采用的“距离”是欧式距离，即两点间的坐标(数值)距离。而数据挖掘的聚类采用的“距离”是海明距离，即属性取值是否相同，相同者距离为0，不相同者距离为1。总之，统计学与数据挖掘是有区别的，但是，它们之间是相互补充的。不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中，与将机器学习中不少方法引入到数据挖掘中一样，作为从数据获取知识的一大类方法。 19、说明数据仓库与数据挖掘的不同。数据仓库是在数据库的基础上发展起来的。它将大量的数据库的数据按决策需求进行重新组织，以数据仓库的形式进行存储，将为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等。数据仓库是一种存储技术，其数据存储量是一般数据库的100倍，包含大量的历史数据、当前的详细数据以及综合数据。它能适应不同用户对不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的。它研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。最常用的数据挖掘方法是统计分析方法、神经网络方法和机器学习中研究的方法。数据挖掘中采用机器学习的方法有归纳学习方法(如覆盖正例排斥反例方法，如AQ系列算法、决策树方法等)、遗传算法、发现学习算法(如公式发现系统BACON)等。利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识，反映了数据仓库中数据的规律性。用户利用这些信息和知识来指导和帮助决策。例如，利用分类规则来预测未知实体的类别。 20、数据挖掘应用于数据库与数据挖掘应用与数据仓库有什么不同。数据挖掘兴起是针对数据库的，随着数据仓库的兴起和发展，由于数据仓库不同于数据库，数据挖掘也随之发生变化。 (1)数据存储方式的不同数据库的数据存储是按照管理业务中事物处理项目的要求而存放的。数据仓库的数据存储是按决策分析需求而存放的。这种需求是以决策主题为对象的，典型的主题是客户。这样，在数据仓库中客户数据需要从多个数据库集成而来，如银行数据仓库需要从储蓄、信用卡、贷款等不同数据库中，对同一客户的数据抽取并集成在一起，以便完成对该客户的分析。 (2)数据存储的数据量的不同数据库的数据存储量相对数据仓库的数据存储量小得多。从上面的例子可以看出，以客户主题建立数据仓库的数据量是储蓄、信用卡、贷款3个数据库的数据量的总和。按一般的统计，数据仓库的数据量是数据库数据量的100倍。数据仓库的数据量比数据库的数据量大这么多在于： ①数据仓库中的数据(近期基本数据)是数据库中数据按决策主题重新组织并集成而来； ②数据仓库中数据还需要保留大量的历史数据，用于预测分析； ③数据仓库为了给不同级别管理者提供各种决策分析的数据，需要对近期基本数据进行轻度综合和高度综合，这些综合数据在数据仓库中占据了不小的比重。近期基本数据、历史数据、综合数据三者的数据相加，使数据仓库的数据量远远大于数据库中的数据量。 (3)数据存储的结构不同由于数据仓库的数据量远大于数据库的存储量，数据库的关系型二维(平面)存储格式不能适应数据仓库。数据仓库的数据存储结构采用多维的超立方体结构形式。数据仓库的数据存储结构采用星型模型或者多维立体数据库形式。 21：答：数据仓库实在数据库的基础上发展起来的，它将大量的数据库的数据按决策需求进行重新组织，以数据仓库的形式进行存储。数据挖掘是从人工智能机器学习中发展起来的，它研究各种方法和技术，从大量的数据挖掘出有用的信息和知识。数据挖掘应用于数据仓库后，能挖掘更深层次上的信息，如：哪些商品一起销售更好？高价值客户的共同点是什么？等。 22：答：数据仓库为数据挖掘提出的新要求为：1，数据挖掘需要可扩展性。2，数据挖掘方法需要能挖掘多维知识。 23：答：数据仓库视为辅助决策而建立的，单依靠数据仓库达到辅助决策的能力是有限的，综合信息和预测信息是数据仓库所获得的辅助决策信息。数据仓库中增加联机分析处理和数据挖掘等分析工具，能较大的提高辅助决策能力。数据仓库和联机分析处理几数据挖掘结合的决策支持系统，是以数据仓库为基础的，称为基于数据仓库的决策支持系统。概括地说：基于数据仓库的决策支持系统是从数据仓库的数据中获取辅助决策信息和知识，为决策提供支持。 24基于数据仓库的决策支持系统的组成是什么？答：基于数据仓库的决策支持系统由三个部件组成：数据仓库技术，联机分析处理技术和数据挖掘技术，其中数据仓库技术是系统的核心。 25画出基于数据仓库的决策支持系统结构图。如图： 26说明基于数据仓库的决策支持系统与传统决策支持系统有什么区别。答：数据仓库技术将传统数据库中的数据及其他源数据进行了抽取、转换、装载等工作，使之成为统一、集中、稳定的数据，并在元数据库中保存了数据转换、映射等过程，就能为决策过程提供良好的数据基础。而传统的决策支持系统主要以关系数据库为基础，主要关注于对数据的操作，很难有效率地获取决策需要的信息。 27. 商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法，包括收集、管理和分析数据，将这些数据转化为有用的信息，然后分发到企业各处。 28 可以认为，商业智能是对商业信息的搜集、管理和分析过程，目的是使企业的各级决策者获得知识或洞察力（insight），促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用，其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。 29 信息共享，实时反馈系统，鼓励用户找出问题的根本原因，使用主动智能，实时智能等方面第二章作业周劼人1-3 郭朋4-6 王国梁7-9 旦增群培10-11 刘洋12-14 许赟昊15-17 杜海洋18-20 徐文松21-23 何金海24-25 陶汉26-27 1. 画出数据仓库的结构图，说明各部分内容。P18 当前基本数据是最近时期的业务数据，是数据仓库用户最感兴趣的部分数据量大。随着时间的推移，有数据仓库的时间控制机制转为历史数据，轻度综合数据是从当前基本数据中提取出来的，最高一层是高度综合数据层，这一层的数据十分精炼，是一种准决策数据。 2. 说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。这些数据为什么不是临时计算出来的。P18-19 数据仓库除了存储按主题组织起来的当前详细数据外，还需要存储综合数据，这是为了适应决策需求而增加的。在数据库中需要得到综合数据时，采用数据立方体的方法对详细数据进行综合。在数据仓库中并不采取临时计算的方式得到综合数据，而在用户提出需要综合数据之前，就预先将可能的综合数据利用数据立方体计算好，存入综合数据层中，这种综合数据层在用户查询时，能迅速提供给用户。 3. 说明数据集市与数据仓库的区别和联系。P20 联系：数据集市是一种更小，更集中的数据仓库，为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库，主要针对某个具有战略意义的应用或者具体部门级的应用，支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。区别：（1）数据仓库是基于整个企业的数据模型建立的，它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。（2）部门的主题与企业的主题之间可能存在关联，也可能不存在关联。（3）数据集市的数据组织一般采用星型模型。 4. 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义，设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集 10、可升级到完整的数据仓库 5. 独立型数据集市直接从操作型环境获取数据，从属型数据集市从企业级数据仓库获取数据，带有从属型数据集市的体系结构。 6. 原因：仓库管理：安全和特权管理；跟踪数据的更新；数据质量检查；管理和更新元数据；审计和报告数据仓库的使用和状态；删除数据；复制、分割和分发数据；备份和恢复；存储管理。访问工具：为用户访问数据仓库提供手段 7．仓库管理包括数据建模；数据抽取、转换、装载；元数据；系统管理四部分。 8．分析工具包含的内容：查询工具、多维数据分析工具、数据挖掘工具、客户/服务器。数据仓库服务器客户端 9．二层C/S结构数据仓库服务器三层C/S结构客户端 OLAP服务器 OLAP服务器将加强和规范化决策支持的服务工作，集中和简化了数据仓库服务器的部分工作，即OLAP服务器从数据仓库服务器中抽取数据，在OLAP服务器中转换成客户端要求的多维视图，并进行多维数据分析，将分析结果传送给客户端，这种结构形式工作效率更高。 10.数据仓库的逻辑模型有哪些？答：星型模型、雪花模型、星网模型、第三范式。 11.数据模型与数学模型有什么区别？答：数据模型是数据特征的抽象，数据管理教学的形式框架，数据库系统中用以提高信息表示和操作手段的形势构架。数据模型包括数据库的数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。数学模型是根据对研究对象所观察到的现象及实践经验，归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。 12、说明星型模型有什么好处。答：星型模型使非规范化的，用增加存储空间的代价来提高数据查询速度，且数据的冗余保持在最少，并减少当数据改变时系统必须执行的动作。 13、说明数据仓库的数据模型为什么含时间维数据。答：因为数据仓库不仅存储当前的最新数据，它还存储过去的所有数据，即随着时间的推移，所有的当前数据都会变成历史数据。有时间维数据不仅方便查询某一时间的数据，还有助于得到一时期的数据变化规律。 14、说明雪花模型与星网模型的不同点。答：雪花模型使对星型模型的扩展，是对星型模型的维表进一步层次化，原来的维表被扩展为小的事实表。星网模型是多个相关的星型模型通过相同的维表连接起来形成的网状结构，即事实表之间有共享的维表。 15 第三范式不同于星型模型之处在于，把事实表和维表的属性作为一个实体都集中在同一数据库表中，或分成多个实体用多个表来表示，每个表按第三范式组织数据。它减少了为表中的键和不必要的属性。 16 星型模型优点：星型模型是非规范化的，以增加存储空间代价，提高了多维数据的查询速度。星型模型缺点：当业务问题发生变化时，原来的维不能满足要求时，需要增加新的维。由于事实表的主键由所有的维表的主键组成，因此这种维的变化带来数据变化将是非常复杂、非常耗时的。第三范式优点：解决数据冗余，善于处理海量数据且需要处理大量的动态业务。第三范式缺点：使用第三范式会形成比较复杂的关系表。 17 ETL过程的主要步骤概括为：（1）决定数据仓库中需要的所有的目标数据（2）决定所有的数据源，包括内部和外部的数据源（3）准备从源数据到目标数据的数据映射关系（4）建立全面的数据抽取规则（5）决定数据转换和清洗规则（6）为综合表制定计划（7）组织数据缓冲区域和检测工具（8）为所有的数据装载编写规程（9）维度表的抽取、转换和装载（10）事实表的抽取、转换和装载 18、说明数据抽取工作的内容。数据抽取工作包括以下两点。 1．确认数据源对数据源的确认不仅是对数据源的简单确认，还包括检查和确定数据源是否可以提供数据仓库需要的数据。该项工作包括： (1)列出对事实表的每一个数据项和事实； (2)列出每一个维度属性； (3)对于每个目标数据项，找出源数据项； (4)数据仓库中一个数据元素有多个来源，学则最好的来源； (5)确认一个目标字段的多个源字段，建立合并规则； (6)确认多个目标字段的一个源字段，建立分离规则； (7)确定默认值； (8)检查缺失值的源数据。 2．数据抽取技术数据抽取时要考虑两种情况： ’ (1)当前值。源系统中存储的数据都代表了当前时刻的值，当商业交易时，这些数据是会发生变化的。 (2)周期性的状态。这类数据存储的是每次发生变化时的状态。例如，对于每一保险索赔，都经过索赔开始、确认、评估和解决等步骤，都要考虑时间说明。在建立数据仓库时，从某一特定时间开始的最初数据必须迁移到数据仓库中，以使数据仓库开始运转，这是初始装载。在初始装载之后，数据仓库必须保持更新，使变化的历史和状态可以在数据仓库中反映出来。数据抽取完成两类数据的抽取： (1)静态数据的抽取。一般在数据仓库的初始装载时抽取的是静态数据，它代表了某个时刻的快照。 (2)修正数据的抽取。它也称为追加的数据抽取。修正数据的抽取过程包括特定时刻抽取的数据值，分为立即型数据抽取(实时的数据抽取)和延缓型的数据抽取。立即型数据抽取的典型方法是通过读取交易日志抽取所有相关交易记录。一般利用复制技术从交易日志中捕获交易日志中的变化数据，从日志传输到目标文件中，并检验数据变化的传输情况，确保复制的成功。延缓型数据抽取的典型方法是，通过读取源记录中包括日期和时间的标记，抽取更新源记录的数据。如果没有时间标记的旧数据源，就要通过“快照对比技术”，即通过比较源数据的两个快照来抽取变化的数据。 19、说明数据转换的基本功能。数据转换的基本功能： (1)选择。从源系统中选择整个记录或者部分记录。 (2)分离／合并。对源系统中记录中的数据进行分离操作或者对很多源系统中选择的部分数据进行合并操作。 (3)转化。对字段的转化包括对源系统进行标准化和使字段对用户来说是可用和可理解的。 (4)汇总。数据仓库中需要保存很多汇总数据。这需要将最低粒度数据进行汇总。 (5)清晰化。对单个字段数据进行重新分配和化简的过程，使数据仓库更便利使用。 20、数据转换有哪些类型。 (1)格式修正。包括数据类型和单个字段长度的变化，例如在源系统中，产品类型通过代码和名称在数值型和文本类型中表示，不同的源系统将会有所不同，对这些数据类型进行标准化，改变成更有意义的文本值。 (2)字段的解码。对所有晦涩的编码进行解码，将它们变成用户可以理解的值。 (3)计算值和导出值。在数据仓库中，有时需要用销售和成本一起计算出利润值。导出字段包括平均每天的收支差额和相关比率。 (4)单个字段的分离。在旧系统中将客户名称、地址存放在大型文本字段中；姓和名存放在一个字段中；城市、地区和邮政编码存放在一个字段中。在数据仓库中却需要将姓名和地址存放在不同的字段中，便利不同要求的分析工作。 (5)信息的合并。例如，一个产品的信息可能从不同的数据源中获得：产品编码和产品名从一个数据源得到；相关包装类型从另一个数据源中得到；成本数据从第三个数据源中得到。信息合并是将产品编码、产品名、包装类型和成本的有机组合，成为一个新的实体。 (6)特征集合转化。例如，在源系统中数据采用EBCDIC码，而数据仓库数据采用ASCII码这将要进行代码集合的转化。 (7)度量单位的转化。使数据具有相同的标准度量单位。不少国家有自己的度量单位，需要在数据仓库中采用标准度量单位。 (8)日期／时间转化。日期和时间的表示应该转化成国际标准格式。如2005年lo月15日在美国表示成Io／15／2005，而在英国表示为15／10／2005。标准格式为15 OCT 2005。 (9)汇总。这种类型的转换是创建数据仓库的汇总数据。汇总数据适合于客观战略性的查询。 (10)关键字重新构造。在源系统中关键字可能包含很多项的内容。如产品编码包括仓库代码、销售区域、产品编码等多项内容。在数据仓库中，关键字要发生变化，转换成适合于事实表和维表的普通键值。 21答：数据仓库中最基本的元数据相当于数据库系统中的数据字典。由于数据仓库和数据库有很大的不同，因此元数据的作用远不是数据字典所能相比的。元数据在数据仓库中有着举足轻重的作用，它不仅仅定义了数据仓库有什么，指明了数据仓库中数据的内容和位置，刻画了数据的抽取和转换规则，存储了与数据仓库有关的各种商业信息，而且整个数据仓库的运行都是基于元数据的，如数据的修改，跟踪，抽取，装入，综合等。 22．答：关于数据源的元数据是现有业务系统的数据源的描述信息，是对不同平台上的数据源的物理结构和含义的描述，具体为：1，数据源中所有物理数据结构，包括所有的数据项及数据类型。2，所有数据项的业务定义。3，每个数据项更新的频率，以及由谁或哪个过程更改过。4，每个数据项的有效值。5，其他系统中具有相同业务含义的数据项的清单。 23．答：关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系，是用户管理数据仓库的基础。这种元数据可以支持从数据仓库中获取数据。用户可以提出需要哪些表，系统从中选一个表，并得到表之间的关系。重复该过程，用户希望能够得到希望的数据。 24．什么是关于数据模型的元数据？答：关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系，支持用户从数据仓库中获取数据。 25．什么是关于数据仓库映射的元数据？答：关于数据仓库映射的元数据，反映了数据源与数据仓库数据之间的映射，以及数据项是从哪个特定的数据源抽取的，经过了哪些转换、变换和装载。 26．用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。 27．元数据告诉数据仓库如何按照主题查看数据仓库的内容。元数据提供已有的可以重复利用的语言的信息。第三章作业周劼人1-3 郭朋4-6 王国梁7-8 旦增群培9-10 刘洋11-12 许赟昊13-14 杜海洋15-16 徐文松17-18 何金海19-20 陶汉21-22 1. 联机分析处理（OLAP）的简单定义是什么？它体现的特征是什么。P40 联机分析处理是共享多维信息的快速分析。它体现在四个特征：（1）快速性（2）可分析性（3）多维性（4）信息性 2. OLAP准则中的主要准则有哪些？P41 （1）多维概念视图（2）透明性（3）可访问性（4）一直稳定的报表性能（5）客户/服务器体系结构（6）维的等同性（7）动态的系数矩阵处理（8）多用户支持能力（9）非限定的跨维操作（10）直观的数据操作（11）灵活的报表生成（12）不受限制的维和聚集层次 3. 什么是维？关系数据库是二维数据吗？如何理解多维数据？P43 维是人们观察数据的特定角度。关系数据库不是二维数据，只是通过二维关系表示了数据的多维概念。多维数据就是从多个特定角度来观察特定的变量。 4. MDDB（Multi Dimensional Database, 多维数据库）是以多维的方式组织数据，即以维作为坐标系，采用类似于数组的形式存储数据。 RDBMS（relational database management system，关系型数据库管理系统）通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据 MDDB特点： 1. 数据库中的元素具有相同的数值 2. 多维数据库表达清晰， 3. 占用存储少 RDBMS的特点： 1.数据以表格的形式出现 2.每行为各种记录名称 3.每列为记录名称所对应的数据域 4.许多的行和列组成一张表单 5.若干的表单组成database 5. 1.数据存取速度 ROLAP服务器需要将SQL语句转化为多维存储语句，临时“拼合”出多维数据立方体。因此，ROLAP的响应时间较长。 MOLAP在数据存储速度上性能好，响应速度快。 2.数据存储的容量 ROLAP使用的传统关系数据库的存储方法，在存储容量上基本没有限制。 MOLAP通常采用多平面叠加成立体的方式存放数据。当数据量超过操作系统最大文件长度时，需要进行数据分割。多维数据库的数据量级难以达到太大的字节级。 3.多维计算的能力 MOLAP能够支持高性能的决策支持计算。 ROLAP无法完成多行的计算和维之间的计算。 4.维度变化的适应性 MOLAP增加新的维度，则多维数据库通常需要重新建立。 ROLAP对于维表的变更有很好的适应性。 5.数据变化的适应性当数据频繁的变化时，MOLAP需要进行大量的重新计算，甚至重新建立索引乃至重构多维数据库。在ROLAP中灵活性较好，对于数据变化的适应性高。 6.软硬件平台的适应性 ROLAP对软硬件平台的适应性很好，而MOLAP相对较差。 7.元数据管理目前在元数据的管理，MOLAP和ROLAP都没有成形的标准。 6. 在HOLAP中，对最常用的维度和维层次，使用多维数据表来存储，对于用户不常用的维度和数据，采用ROLAP星型结构来存储。 7．多维数据显示的两种方法：关系数据库方式和多维数据库方式。关系数据库可以显示更多维的数据，但用事实表显示多维数据时，重复数据很多，也很繁琐；多维数据库虽然不能同时显示三维以上数据，但显示的数据很精炼。 8．多维类型结构：每一个维度用一条线段来表示，维度上的每个成员都用线段上一个单位区间来表示。例如，用三个线段分别表示时间、产品和指标三个维的多维类型结构： 9.举例说明四维数据显示？答· 10.举例说明六位数据显示？答： 11、多维数据显示的经验规则是什么？答：多维数据的显示只能在平面上展现出来，用多维数据库显示时，不能同时显示三维以上数据，但可以固定一些维成员，重点显示两维维数据。最有效表示多维数据使用多维类型结构（MTS），即每一维用一条线段表示，维度中每一个成员都用线段上的一个区间表示。还可以使用行、列和页表三个显示组来表示。经验规则： 1. 将维度尽量放在页中，除非确定需要同时看到一个维度的多个成员； 2. 当维度嵌套在行货列中时，考虑到垂直空间比水平空间更有用，所以讲维度嵌套在列中比嵌套在行中要好； 3. 在决定数据的屏幕显示方式前，应首先弄清楚需要查找和分析比较的内容； 12、举例说明OLAP的多维数据分析的切片操作。答：切片就是在某两个维上取一定区间的维成员或全部维成员。如用三维数组表示为（地区，时间，产品，销售额），如果在地区维度上选定一个维成员，就可以得到在该地区的一个切片（关于时间和产品的切片）。 13 比如部门销售数据表中部门1的销售额为900元，对时间维进行下钻操作，可以得到各个季度分别的销售额为多少。 14 （1）切片：切片就是在某两个维上取一定区间的为成员或全部维成员，而在其余的维上选定一个维成员的操作。切片的作用就是舍弃一些观察角度，使人们能在两个维上集中观察数据。（2）切块：切块分两种情况：（1）在多维数据的某一个维上选定某一区间的维成员的操作。（2）选定多维数组的一个三维子集的操作。切块可以看成是在切片的基础上确定某一个维成员的区间得到的片段，也即由多个切片叠合起来的。（3）钻取：向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据，向上钻取获取概括性信息。（4）旋转：通过旋转可以得到不同视角的数据，旋转操作相当于平面数据将坐标轴旋转。 15、广义OLAP功能如何提高多维数据分析能力。广义OLAP功能主要是通过四个模型逐层深入从而提高多维数据分析能力。这四个模型分别是： (1)绝对模型它属于静态数据分析，通过比较历史数据值或行为来描述过去发生的事实。该模型查询比较简单，综合路径是预先定义好的，用户交互少。 (2)解释模型它也属于静态数据分析，分析人员利用系统已有的多层次的综合路径层层细化，找出事实发生的原因。 (3)思考模型它属于动态数据分析，旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么。分析人员在引入确定的变量或公式关系时，必须创建大量的综合路径。 (4)公式模型它的动态数据分析能力更高，该模型表示在多个维上，需要引入哪些变量或参数，以及引入后所产生的结果。 16、说明数据立方体的概念数据立方体的概念是1996年，Jim Gray等首次提出的。数据立方体是实现多维数据查询与分析的一种重要手段。实质上，数据立方体就是数据仓库结构图中的综合数据层。从此，基于数据立方体的生成方法一直是OLAP和数据仓库领域研究者所关注的热点问题。多数据集的属性分为维属性和度量属性。维数性是观察数据对象的角度，而度量属相则反映数据对象的特征。对于多维数据分析而言，本质上是沿着不同的维度进行数据获取的过程。在数据立方体中，不同维度组合构成了不同的子立方体，不同维值的组合机器对应的度量值构成相应的对于不同的查询和分析。因此，数据立方体的构建和维护等计算方法成为了多维数据分析研究的关键问题。 17答：OLAP的逻辑结构由OLAP视图和数据存储两部分组成。OLAP视图：对于用户来说它是数据仓库或数据集市中数据的多维逻辑表示，不管数据怎么存储和存储在何处。数据存储：要求选择数据实际存储方式和实际存储位置，两种常用的选择是多维数据存储和关系数据存储。 18答：OLAP的物理结构包括基于数据存储的两种方式：多维数据存储和关系数据存储。多维数据存储主要有两种选择：多维数据存储于客户端或OLAP服务器。在第一种情况，多维数据存储于客户端，数据分析也在客户端，这样形成了“胖”客户端，这是一种两层客户/服务器的物理结构。在第二种情况，多维数据存储放在OLAP服务器中，抽取数据仓库中的数据，然后将其转换成多维数据结构，并把OLAP服务器传给客户端，这时客户端就变成了“瘦”客户端，这是一种经典的三层客户/服务器物理结构。 19．说明浓缩立方体的压缩方法和效果。答：浓缩立方体计算方法的基本原理是，在某些属性或组合下的一个元组相对于其他元组具有唯一性，则称为基本单一组(BST)，当它的超集也是BST，且都是取同一度量值，在聚集运算时，可以把这些属性的度量值对应的元组压缩成一条元组存储。一般来说，浓缩立方体的压缩率可以达到30%-70%。 20.多维数据分析的MDX语言与数据库的SQL语言有什么不同？答：MDX语言结合了多维数据集，指定“维度”(ON子句)和“创建表达式计算的新成员”(MEMBER子句)，这样就可以来从多维数据集中挖掘出指定的数据。 21MDX提供的函数children来完成这个操作。Children 函数返回一个自然排序的集，该集包含指定成员的子成员。如果指定的成员没有子成员，则此函数返回一个空集。示例下例将返回 Geography 维度中 Geography 层次结构的 United States 成员的子成员。 SELECT [Geography].[Geography].[Country].&[United States].Children ON 0 FROM [Adventure Works] 22用相应的表达式函数来计算。第四章作业周劼人1-3 郭朋4-6 王国梁7-9 旦增群培10-12 刘洋13-15 许赟昊16-18 杜海洋19-21 徐文松22-24 何金海25-27 陶汉28-30 1. 数据仓库的需求分析的任务是什么？P67 需求分析的任务是通过详细调查现实世界要处理的对象（企业、部门用户等），充分了解源系统工作概况，明确用户的各种需求，为设计数据仓库服务。概括地说，需求分析要明确用那些数据经过分析来实现用户的决策支持需求。 2. 数据仓库系统需要确定的问题有哪些？P67、、（1）确定主题域 a) 明确对于决策分析最有价值的主题领域有哪些 b) 每个主题域的商业维度是那些？每个维度的粒度层次有哪些？ c) 制定决策的商业分区是什么？ d) 不同地区需要哪些信息来制定决策？ e) 对那个区域提供特定的商品和服务？（2）支持决策的数据来源 a) 那些源数据与商品的主题有关？ b) 在已有的报表和在线查询（OLTP）中得到什么样的信息？ c) 提供决策支持的细节程度是怎么样的？（3）数据仓库的成功标准和关键性指标 a) 衡量数据仓库成功的标准是什么？ b) 有哪些关键的性能指标？如何监控？ c) 对数据仓库的期望是什么？ d) 对数据仓库的预期用途有哪些？ e) 对计划中的数据仓库的考虑要点是什么？（4）数据量与更新频率 a) 数据仓库的总数据量有多少？ b) 决策支持所需的数据更新频率是多少？时间间隔是多长？ c) 每种决策分析与不同时间的标准对比如何？ d) 数据仓库中的信息需求的时间界限是什么？ 3. 实现决策支持所需要的数据包括哪些内容？P68 （1）源数据（2）数据转换（3）数据存储（4）决策分析 4．概念：将需求分析过程中得到的用户需求抽象为计算机表示的信息结构，叫做概念模型。特点：（1）能真实反映现实世界，能满足用户对数据的分析，达到决策支持的要求，它是现实世界的一个真实模型。（2）易于理解，便利和用户交换意见，在用户的参与下，能有效地完成对数据仓库的成功设计。（3）易于更改，当用户需求发生变化时，容易对概念模型修改和扩充。（4）易于向数据仓库的数据模型（星型模型）转换。 5．用长方形表示实体，在数据仓库中就表示主题，椭圆形表示主题的属性，并用无向边把主题与其属性连接起来；用菱形表示主题之间的联系，用无向边把菱形分别与有关的主题连接；若主题之间的联系也具有属性，则把属性和菱形也用无向边连接上。 6．数据库的概念模型设计主要采用E-R概念模型的设计方法。数据仓库的概念模型设计主要采用E-R概念模型和面向对象的分析方法。 7 .图4.1所示的概念模型：商品和客户是两个主题，商品的销售信息等同于客户的购物信息，而每个商品具有本身的商品固有信息和商品号，还有就是商品的库存信息；客户具有自己的固有信息，还有就是客户号。 8.逻辑模型：计算机所支持的有E-R图转换成的数据模型，数据的逻辑结构数据仓库的逻辑模型：星型模型 9.数据仓库的逻辑模型：用来构建数据仓库的数据库逻辑模型。在数据库中，逻辑模型有关系、网状、层次，可以清晰的表示各个关系。 10.举例说明从数据仓库的概念模型到逻辑模型的转换? 答：概念模型是对每个决策与属性及主体之间的关系用E-R图来表示的，E-R图能有效的将现实的世界表示成信息世界，他利于向计算机的表示形式进行转化。而逻辑模型设计是需求分析主题域，将概念模型E-R图转化为逻辑模型，即计算机表示的数据模型，数据仓库的数据模型一般采用星型模型。例如概念模型设计时，确定了商品和客户两个主题。其中商品对于商场来说是更基本的业务对象，商品的业务有销售、采购、库存。其中商品销售时最重要的业务。它是进行决策分析的重要方面。星型模型的设计如下：确定决策分析需求，数据仓库是面向决策分析的，决策需求是建立多维数据模型的依据。例如分析销售额趋势，对商品的销售量，促销手段对销售的影响。从需求中识别出事实，从决策主题确定的情况下，选择或设计反映决策主体业务表。例如在商品主题中，以销售数据为事实表。确定维，确定影响事实的各种因素，对销售业务的维一般的包括商店，地区，部门，城市，时间，商品等。确定数据汇总的水平，存在于数据仓库中的数据包括汇总的数据。数据仓库中对数据不同粒度的综合形成了多层次的数据结构。例如对于时间维，可以用年月日不同水平进行汇总。设计事实表和维表，设计事实表和维表的属性，再事实表中应该记录哪些属性是有维表的数量来决定的，一般来说，与事实表相关的维表的数量应该适中，太少的维表会影响查询的质量，用户得不到需要的数据，太多的数据会影响查询的速度。 11. 在数据仓库中为什么考虑数据的粒度层次划分？答：所谓的粒度是指数据仓库宗数据单元的详细程度和级别，数据越详细，粒度越小，层次级别九月低；数据综合度越高，粒度越大，层次级别就越高。在传统事务处理系统中，对数据的处理，操作都是再详细数据级别上的，即最低的粒度。但是数据仓库环境中主要是分析处理，粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型。一般需要将数据划分为详细数据，轻度综合，高度综合三级或更多及粒度。不同粒度级别的数据用于不同类型的分析处理。力度的划分是数据仓库设计工作的一项重要内容，粒度划分是否适当影响数据仓库性能的一个重要方面。 12.数据仓库的记录系统包括什么内容，举例说明？答：数据仓库中的数据来源与多个已经存在的事务处理系统外部系统，由于各个原系统的数据是面向应用的，不能完整地描述企业中的主题域，并且多个数据源的数据存在者许多不一致，因此要从数据仓库的概念模型出发，结合主题的多个表的关系模式，需要确定现有系统的哪些数据能较好地适应数据的需求。这就要求选择最完整的、最及时的、最准确的、最接近外部实体源的数据作为记录系统，同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式。记录系统的定义要记入数据仓库的元数据。 13、什么是物理模型？数据仓库的物理模型设计包括哪些工作？答：物理模型就是逻辑模型在计算机中的物理结构，其中包括存储结构和存取方法；数据仓库的物理模型设计的工作包括：估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。 14、为什么数据仓库物理模型设计中要建立汇总计划和确定数据分区方案？答：如果数据仓库只存储最小粒度的数据，每次查询遍历所有的明细记录，然后生成汇总信息，这会造成很大的开销，因此要建立汇总计划；分区可以将表分解成易于管理的小表，对事实表的分区医保采用垂直分区或水平分区，这样使得大表被分成小表，因此要建立分区方案。 15、说明图4.8中逻辑模型与物理模型的区别。答：逻辑模型表现出各数据元素间直接或间接的关系，并体现主题域的结构，而且说明各个表所包含的元素。而物理模型要体现在计算机中的物理结构，所以有各个表元素的类型和长度。在图4.8中，产品维表的主键为产品键，我们只能在逻辑模型中得到这个信息，而在物理模型中，产品键为integer类型，长度为10，这是在计算机中的存储结构。 16.概念模型：E-R图逻辑模型：星型模型物理模型：存储结构、索引、数据存放位置、存储分配。 17.（1）位索引技术 ①Bit-Wise索引技术 ②B-Tree索引技术（2）表示技术（3）广义索引 18.因为B-Tree索引增加了在数据仓库中构造和维护索引的代价； B-Tree不适合复杂查询 19、数据仓库中采用标识技术有什么好处。答：使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标识的技术来储存数据仓库。一旦将基于标识的数据库存放在内存中，处理速度会得到很大的提高。数据越多，标识数据比标准的、基于记录的数据更有利。因为数据被大量压缩，所以整个数据库可以存放在内存中。可以索引所有的行和所有的列。 20、数据仓库的广义索引时什么时候建立的？简单说明原因。答：在从操作型环境抽取数据并向数据仓库中装载的同时，就可以根据用户的需要建立许多“广义索引”。每次数据仓库装载时，就重新生成这些“广义索引”的内容。这样并不需要为了建立“广义索引”而去扫描数据仓库。而且这些索引都非常小，开销也是相当小，但它给应用所带来的便利却是显而易见的。对于一些经常性的查询，利用一个规模小得多的“广义索引”总比去搜索一个大得多的关系表方便得多。 21、说明数据仓库开发的四个阶段和12个步骤答：如下图所示发：分为分析设计阶段；数据获取阶段；决策支持阶段；维护与评估阶段。 22. 数据获取阶段包括数据抽取，数据转换，数据装载3个步骤。数据抽取：数据抽取主要进行数据源的确认，确定数据抽取技术，确认数据抽取频率，按照时间要求抽取数据。数据转换：数据抽取得到的数据不能直接存入数据仓库的。数据转换工作包括：数据格式的修改，字段的解码，单个字段的分离，信息的合并，变量单位的转化，时间的转化，数据汇总等。数据装载：数据装载包括初始装载，增量装载，完全刷新。 23. 数据仓库的简历就是要达到决策支持的目的。决策支持阶段包括信息查询和知识探索两个步骤。信息查询：信息查询者使用数据仓库发现目前存在的问题。为适应信息查询者的要求，数据仓库一般采用如下的方法提高信息查询效率：创建数据陈列，预连接表格，预聚集数据，聚类数据。知识探索：只是探索者使用数据仓库能对发现的问题找出原因。 24. 维护与评估阶段包括数据仓库增长，数据仓库维护，数据仓库评价。数据仓库增长：数据仓库建立以后，随着数据用户的不断增加，时间的曾增长，用户查询需求更多，数据会迅速增长。数据仓库维护：数据仓库维护包括适应数据仓库增长的维护和正常系统维护两类。数据仓库评估：数据仓库评估包括系统性能评定，投资回报分析，数据质量评估。 25.概括说明“概念模型、逻辑模型、物理模型”分别是什么样的数据模型？答：将需求分析过程中得到的用户需求抽象为计算机表示的信息结构，即概念模型。逻辑模型是由概念模型进一步转化成计算机支持的数据模型。物理模型是逻辑模型设计的数据模型适应应用要求在计算机中的存储结构和存取方法。 26.数据仓库索引技术包括哪些内容？答：位索引技术、标识技术、广义索引。 27.为什么B-Tree索引不适合数据仓库？答：1、B-Tree只适合于高基数字段，但对于低基数字段毫无价值。 2、B-Tree索引需占一定的空间和时间，增加了在数据仓库中构造和维护索引的代价。 3、数据仓库应用中常常是复杂的查询，并经常带有分组及聚合条件，此时B-Tree索引往往无能为力。 28. 当有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上时，其图解就像多个雪花连接在一起，故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化，原有的各维表可能被扩展为小的事实表，形成一些局部的 "层次 " 区域，这些被分解的表都连接到主维度表而不是事实表。管理大量数据，数据的高效装入和数据压缩，存储介质的管理，元数据的管理，数据仓库语言，高效索引，多维数据仓库和数据管理 30. 自从1969年美国的IBM公司开发出第一个DBMS系统IMS以来，数据库的研究和开发已经走过了三十多年的历程，经历了三代的演变（从层次型数据库系统到网络型数据库系统，再到现在成为数据库主流的关系型数据库系统），取得了辉煌的成就，形成了数百亿美元的产业，数据库技术和系统已经成为世界各国信息基础设施的核心技术和重要基础。据欧共体委员会1991年底调查统计，当时西欧公司提供的联网数据库为1616个，而美国公司提供的联网数据库为3057个，加上其他形式的电子信息服务，欧洲计算机网络服务业的年收入为39亿美元，远远低于美国的97亿美元。在欧洲，该行业业务的96%是金融和商业信息。据估计，欧共体国家在数据库、网络以及其他计算机联网服务方面，比美国落后3至5年。欧共体的联网业务规模大约是美国的一半。美国是世界上数据库业起步最早的国家。目前，在世界范围内，无论是数据库的数量、质量、品种、类型，还是数据库生产者、数据库提供商的数量，抑或是联机数据库的使用频率和产值方面，别的国家还都无法与之抗衡。据Gale公司统计，至1995年止，全世界拥有数据库8525种，其中美国产品占69%，为世界其它国家数据库拥有总量的将近2倍。第五章作业周劼人1-2 郭朋3-4 王国梁5-6 旦增群培 7 刘洋8-9 许赟昊10-11 杜海洋12-13 徐文松14-15 何金海16-17 陶汉18-19 1．数据仓库的两类用户有什么本质的不同？P96 数据仓库的用户有两类：信息使用者和探索者。信息使用者是使用数据仓库的大量用户，信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。探索者完全不同于信息使用者，他们有一个完全不可预测的、非重复性的数据使用模式。 2．数据仓库的信息使用者与数据库的信息使用者有什么不同？数据库的信息使用者主要关心当前某一个时间段内的数据，而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。 3. 1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。但是，有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。 2创建数据阵列创建数据阵列，将相关类型的数据(如：1月、2月、3月等月份中的数据)存储在一起，提高访问效果。 3预连接表格一个公用键和共同使用的数据将表格合并在一起。共享一个公用键，可以将多个表格合并到一个物理表格中。这样做可以很大程度的提高数据访问效率。 4预聚集数据根据“滚动概括”结构来组织数据。当数据被输入到数据仓库中时，以每小时为基础存储数据。在这一天结束时，以每天为基础存储累加每小时的数据。在一周结束时，以每周为基础存储累加每天的数据。月末时，则以每月为基础存储累加每周的数据。 5聚类数据将不同类型的数据记录放置在相同的物理位置。这为用户查看这些记录，可以在同一地点找到它们，提高查询效率。 6压缩数据压缩可以使可读取的数据量极大。定期净化数据定期删除数据仓库中不需要的数据，可以为每个用户提高性能。 7合并查询如果查询定期发生，那么可以通过把这些查询合并到同一个表格中，从而节省大量资源。 4. 增加一些数据冗余，相当于增加了某些相同的数据，这些数据往往是我们很需要的或者是经常被使用的，由于这些数据所占总量的比例增加，所以被访问的概率增加，从而减少了查询时间，提高了查询速度。 5. 聚类数据：基于产生共同信息，将不同类型的数据记录放置在相同的物理位置。聚集数据：即概括数据，相同的商业维度和指标存储数据。 6. 合并查询：把定期的一些查询合并到同一个表格中，来节省大量资源，达到扫描数据仓库表格的次数最小化。 7. 探索者所作的工作有哪些？答：探索者查看治疗和历史记录，在多数情况下，探索者考虑数据不同类型和数据具值之间的关系。探索者要做的工作概括分析，抽取、建模和分类。 8. 数据仓库的探索者的工作与数据库的数据挖掘者的工作有什么不同？答：数据仓库的探索者是寻找不平常的且有用的商业运作模型的用户群，探索者查看详细的资料和历史记录，他们要做的的工作有概括分析、抽取、建模和分类；而数据库的数据挖掘者是那些对数据库中数据做出归纳和分析的专业人士，他们从数据库的数据中提炼出有用的信息和一些数据的客观规律。 9.说明企业需要哪些战略信息与实现方法。答：企业需要的战略信息有：销量最好的产品名单、出现问题的地区、查找出现问题的原因、对比其他的数据（横向钻取）、显示最大利润以及一些警告信息。实现方法有：查询与报表决策支持、多维分析和原因分析和预测未来。 10. ①创建数据阵列 ②表格连接 ③聚集数据 ④聚类数据 ⑤压缩数据 ⑥净化数据 ⑦合并查询 11. 数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。 12.说明如何利用数据仓库发现问题并找出产生问题的原因答：主要是通过三个步骤来完成的：概括分析，抽取，建模。概括分析是第一步。分析数据的完整性和准确性。抽取是通过概括分析，所学数据的轮廓已经基本显示出来。数据抽取就是将数据仓库中抽取制定的数据并组织起来，进一步分析而不影响数据仓库的正常工作。最后一步是建模，通过以上两步的得到的数据信息进行建模从而进一步分析数据，达到发现问题及其问题的原因。 13.说明如何利用数据仓库来进行预测答：就是建立相应的预测模型，利用历史数据建立回归方程。一般的预测模型有多元回归模型、三次平滑预测模型、生长曲线预测模型。除了预测模型外，采用聚类模型或分类模型也能达到一定的预测效果。 14.脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。产生脏数据的途径：1，开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。2，来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的，在集成这些数据时，未对所有不同情况的数据都转成同意形式，产生遗漏或用了不匹配的转化方法而产生的数据。3，输入的数据已经过期。由于工作业务的改变，某些前期业务的数据已经过期，仍遗留在数据仓库中而造成的过期无用数据。4，用户需求的改变或数据质量有了新的要求时，那些没有适应改变要求的数据成了无用的数据。 15.清理脏数据的方法有：1，检查抽取数据的定义和数据转换规则的正确性，对那些不合适的定义和规则所造成的脏数据进行清理。2，在对多个数据源进行集成时，必须对所有不同结构、不同编码、不同定义的数据，严格按照同意格式转换后再集成，清楚那些遗留或不匹配方法产生的脏数据。3对过期数据，在形成历史数据后，根据这种数据量的大小来决定是否需要进行重新整理。 16.对5.2.2节中原因分析的实例，设计并画出决策支持系统结构图。 17.在国内某市统计局数据仓库中选出两个主题画出星型模型图。企业基本情况： 18.沃尔玛一直是 Teradata 的大客户，该公司的 Teradata 装机是全球最大的数据仓库之一，并且在该公司与各家供应商的数据共享网络（称为“零售链”）中发挥着重要作用。现在还不清楚惠普的胜利对 Teradata 会产生什么影响，看起来，沃尔玛不大可能一下子全部放弃在 Teradata 方面的投资，不过，惠普公司在数据仓库方面的任何获胜都会抢走 Teradata 的潜在业务。至周三上午为止，惠普和沃尔玛的官方都没有立即发布评论。 19.决策支持系统(decision support system ，简称dss)是辅助决策者通过数据、模型和知识，以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它是管理信息系统(mis)向更高一级发展而产生的先进信息管理系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境，调用各种信息资源和分析工具，帮助决策者提高决策水平和质量。决策支持系统，是以管理科学、运筹学、控制论、和行为科学为基础，以计算机技术、仿真技术和信息技术为手段，针对半结构化的决策问题，支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供所需的数据、信息和背景资料，帮助明确决策目标和进行问题的识别，建立或修改决策模型，提供各种备选方案，并且对各种方案进行评价和俦优选，通过人机交互功能进行分析、比较和判断，为正确的决策提供必要的支持。 DSS的概念是在20世纪70年代提出的，并在80年代获得发展。它的产生原因有：传统的MIS没有给企业带来巨大的效益，人在管理中的积极作用要得到发挥；人们对信息处理规律认识提高，面对不断变化的环境，要求更高层次的系统来直接支持决策；计算机应用技术的发展为DSS的发展提供了物质基础。第六章作业周劼人1-3 郭朋4-6 王国梁7-8 旦增群培9-10 刘洋11-12 许赟昊13-15 杜海洋16-18 徐文松19-21 何金海22-24 陶汉25-26 1.数据挖掘与知识发现两个概念有什么不同？P116 知识发现被认为是从数据中发现有用知识的整个过程。数据挖掘被认为是知识发现过程中的一个特定步骤，它用专门算法从数据中抽取模式。 2.知识发现过程由哪三部分组成？每部分的工作是什么？P116 KDD过程可以概括为三个子步骤：数据准备、数据挖掘和结果的解释和评价。数据准备：数据准备又可分为三个子步骤：数据选取、数据预处理和数据变换。数据选取的目的是确定发现任务的操作对象，即目标数据，它是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换（如把连续值数据转换为离散型的数据，以便于符号归纳；或是把离散型的转换为连续值型的，以便于神经网络归纳）等。当数据开采的对象是数据仓库时，一般来说，数据预处理已经在生成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维，即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。数据挖掘：数据挖掘是利用一系列方法或算法从数据中获取知识。按照数据挖掘任务的不同，数据挖掘方法分类分为聚类、分类、关联规则发现等。结果的解释和评价：数据挖掘阶段发现的模式，经过用户或机器的评估，可能存在冗余或无关的模式，这时需要将其剔除；也有可能模式不满足用户要求，这时则需要让整个发现过程退回到发现阶段之前，如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值，甚至换一种挖掘算法（如当发现任务是分类时，有多种分类方法，不同的方法对不同的数据有不同的效果）。另外，由于KDD最终是面向人类用户的，因此可能要对发现的模式进行可视化，或者把结果转换为用户易懂的另一种表示，如把分类决策树转换为“if...then...”规则。 3.数据挖掘的对象有哪些？他们各自的特点是什么？P118 1.关系数据库特点：（1）数据动态性（2）数据不完全性（3）数据噪声（4）数据冗余性（5）数据稀疏性（6）海量数据 2.文本特点：（1）关键词或特征提取（2）相似检索（3）文本聚类（4）文本数据 3.图像与视频数据特点：（1）图像与视频特征提取（2）基于内容的相似检索（3）视频镜头的编辑与组织 4.web数据（1）异构数据集成和挖掘（2）半结构化数据模型抽取 4. 1)．关联分析若两个或多个数据项的取值之间重复出现且概率很高时，它就存在某种关联，可以建立起这些数据项的关联规则。 2)．时序模式通过时间序列搜索出重复发生概率较高的模式。 3)．聚类在没有类的数据中，按“距离”概念聚集成若干类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。 4)．分类分类是在聚类的基础上，对已确定的类找出该类别的概念描述，它代表了这类数据的整体信息。 5)．偏差检测偏差检测的基本方法是寻找观察结果与参照之间的差别。 6)．预测预测是利用历史数据找出变化规律，建立模型，并用此模型来预测未来数据的种类，特征等。 5. 聚类是指在没有类的数据中，按“距离”概念聚集成若干类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。分类是在聚类的基础上，对已确定的类找出该类别的概念描述，它代表了这类数据的整体信息。 6. 当发生有丢失的数据、观察不到的数据，隐藏的数据、录入过程中发生错误的数据等情况时，即产生了不完全数据。 7 两个变量X和Y的采样，其中X是独立变量，总有观测值；Y是响应变量，可能涉及丢失值。以Y=？代表丢失值，以（X=i，Y=？）代表不完全的记录。丢失数据模式分别取决于Y=？的概率是否依赖于Y与X的状态。如果这一概率依赖于X但不依赖于Y，则认为数据是随机丢失的。 8两个变量X和Y的采样，其中X是独立变量，总有观测值；Y是响应变量，可能涉及丢失值。以Y=？代表丢失值，以（X=i，Y=？）代表不完全的记录。丢失数据模式分别取决于Y=？的概率是否依赖于Y与X的状态。如果Y=？的概率既不依赖于Y也不依赖于X的状态，则认为数据是完全随机丢失的。 9．那种丢失数据的模式可以忽的？答：丢失数据模式分类取决于Y=？的概率是否依赖于Y与X的状态。如果这一概率依赖于X但是不依赖于Y ,则认为数据是随时丢失（Missing at Random）;如果Y=？的概率既不依赖于Y也不依赖于X的状态，则认为数据时完全丢失的（Missing Completely at Random）。对于数据随时丢失与完全丢失分两种情况，如果数据挖掘方法不受影响，那么丢失数据的模式是可以忽略的。但是Y=？的概率即依赖于Y也依赖于X时，则丢失数据的模式是不可忽略的。 10那种丢失数据的模式是不可以忽略的？答：丢失数据模式分类取决于Y=？的概率是否依赖于Y与X的状态。如果这一概率赖于X但是不依赖于Y ,则认为数据是随时丢失（Missing at Random）;如果Y=？的概率既不依赖于Y也不依赖于X的状态，则认为数据时完全丢失的（Missing Completely at Random）。对于数据随时丢失与完全丢失分两种情况，如果数据挖掘方法不受影响，那么丢失数据的模式是可以忽略的。但是Y=？的概率即依赖于Y也依赖于X时，则丢失数据的模式是不可忽略的。 11、处理丢失数据的方法有哪些？答：处理丢失数据的方法有：基于已知数据的方法、基于猜测的方法、基于模型的方法、基于贝叶斯理论的方法和基于决策树的方法。 12、数据浓缩包括哪两方面？答：数据浓缩包括属性约简和元组压缩两个方面。 13 属性约简的原则是保持数据库中分类关系不变。 14 属性约简一般采用：粗糙集方法或信息论方法。 15 元组压缩有：相同元组（记录）合并利用概念树进行归并对元组的聚类 16、如何利用概念树进行元组的压缩？答:数据库中记录的属性字段按归类方式进行合并，建立起来的层次结构称为概念树。利用概念树提升的方法可以大大浓缩数据库中的记录。多个属性字段的概念树提升，将得到高度概括的只是基表，然和转化成规则，就完成了利用概念树压缩数据的目的。 17、ID3方法建立决策树的基本思想？答：ID3方法建立决策树是通过信息论中互信息最大作为根节点，递归依次根据数据建立树的思想。从而完成决策树的建立。 18、“信息增益”是“互信息”么？答：是一样的。I(C,V)=H(C)-H(C|V)=info(T)-infov(T)=gain（T） 19，神经网络方法是模拟了人脑神经元结构，以MP模型和Hebb学习规则为基础，建立三大类多种神经网络模拟，分别为前馈式网络，反馈式网络和自组织网络。 20，遗传算法的三个算子为繁殖（选择），交叉（重组），变异（突变）。 21，BACON发现系统完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算形成组合数据项，若它的的值为常数项，就得到了组合数据项等于常数的公式。FDD发现系统的基本思想是对两个数据项交替取初等函数后与另一个数据项的线性组合若为直线时，就找到了数据项的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更宽些。 22、公式发现中的BACON方法与FDD方法的基本思想是什么？答：BACON的基本思想是对数据反复进行初等数学运算形成的组合数据项，若它的值为常数，就得到了组合数据项等于常数的公式。 FDD的基本思想是对两个数据项交替取初等函数后与另一数据项的线性组合，反复进行不同的初等函数试验，当线性组合为直线时，就找到了数据项的初等函数的线性组合公式。 23、数据挖掘的知识表示有哪些？答：规则知识，决策树知识，知识基，神经网络权值，公式知识和案例。 24、规则知识与决策树知识和知识基是等价的吗？答：是等价的。 25．数据挖掘的任务：分类、回归、时间序列分析、预测、聚类、汇总、关联规则、序列发现。 26．聚类和分类的不同之处：简单地说，分类(Categorization or Classification)就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。第七章作业周劼人1-3 郭朋4-6 王国梁7 旦增群培8刘洋9 许赟昊10-12 杜海洋13-15 徐文松16-18 何金海19-21 陶汉22-24 1.信息论的基本原理是什么？一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。信息论把通信过程看做是在随机干扰的环境中传递信息的过程。在这个通信模型中，信息源和干扰(噪声)都被理解为某种随机过程或随机序列。在进行实际的通信之前，收信者 (信宿)不可能确切了解信源究竟会发出什么样的具体信息，也不可能判断信源会处于什么样的状态。这种情形就称为信宿对于信源状态具有不确定性，而且这种不确定性是存在于通信之前的，因而又叫做先验不确定性。在通信后，信宿收到了信源发来的信息，这种先验不确定性才会被消除或者被减少。如果干扰很小，不会对传递的信息产生任何可察觉的影响，信源发出的信息能够被信宿全部收到，在这种情况下，信宿的先验不确定性就会被完全消除。但是，在一般情况下，干扰总会对信源发出的信息造成某种破坏，使信宿收到的信息不完全。因此，先验不确定性不能全部被消除, 只能部分地消除。换句话说，通信结束之后，信宿仍具有一定程度的不确定性。这就是后验不确定性。 2.学习信道模型是什么？学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。学习信道模型的信源是实体的类别，采用简单“是”、“非”两类，令实体类别U的值域为{u1，u2}，U取u1表示取“是”类中任一例子，取u2表示取“非”类中任一例子。信宿是实体的特征（属性）取值。实体中某个特征属性V，他的值域为{v1，v2……vq}。 3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理？信息论原理是数据挖掘的理论基础之一。一般用于分类问题，即从大量数据中获取分类知识。具体来说，就是在已知各实例的类别的数据中，找出确定类别的关键的条件属性。求关键属性的方法，即先计算各条件属性的信息量，再从中选出信息量最大的属性，信息量的计算是利用信息论原理中的公式。 4 自信息：单个消息ui发出前的不确定性（随机性）称为自信息。计算公式为: 互信息：H（U）代表接受到输出符号集V以前关于输入符号集U的平均不确定性，而H（U|V）代表接受到输出符号集V后关于输入符号U的平均不确定性。则定义： I（U，V）=H（U）- H（U|V） I（U，V）称为U和V之间的互信息，它代表接受到符号集V后获得的关于U的信息量。计算公式为: （1）（2）（3） 5 信道容量：给定信道的互信息是P（U）的型函数。由型函数的性质知道，一定存在一概率分布P（U），使得达到最大。这个最大的互信息就称为信道容量。 6 译码准则的基本思想是使后验概率最大或者平均错误概率最小。 7 决策树是用样本的属性作为结点，用属性的取指作为分支的树结构。通过决策树对新样本属性值的测试，从树的根节点开始，按照样本属性的取指，逐渐沿着决策树向下，直到树的叶节点，该叶节点表示的类别就是新样本的类型。 8.决策树方法的基本思想是什么？答：J.R.Quinlan的ID方法，它的前身是CLS方法，Hunt提出的CLS工作过程为：首先找出有判断能力的属性，把数据分成多个子集，每个子集又选择有判别力的属性进行划分，一直进行到所有子集仅包括同一类的数据为止。最后得到一颗决策树，可以用它来对新的样例进行分类。CLS的不足是没有说明如可选择有判断力的属性。

                    本文档为【数据仓库与数据挖掘教程(第2版)课后习题答案 第一章】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据仓库与数据挖掘教程(第2版)课后习题答案 第一章

你可能还喜欢

数据仓库与数据挖掘教程(第2版)课后习题答案第一章