首页 数据网格技术研究

数据网格技术研究

举报
开通vip

数据网格技术研究 2003年第 4期 微电子学与计算机 3 数据网格技术研究 Research on Data Grid Technology 中国科学院计算技术研究所软件室 何戈 徐志伟 (北京 100080) ‘ 摘 要 :数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构,它适应 数据密集型应用对网格环境下数据共享和处理的需要 ,给用户提供了透明访问远程异构数据资源的机制。文章 首先分析了数据网格的研究背景和设计原则,并深入研究了数据网格的关键技术 ,最后对现有几个较成功的数 ...

数据网格技术研究
2003年第 4期 微电子学与计算机 3 数据网格技术研究 Research on Data Grid Technology 中国科学院计算技术研究所软件室 何戈 徐志伟 (北京 100080) ‘ 摘 要 :数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构,它适应 数据密集型应用对网格环境下数据共享和处理的需要 ,给用户提供了透明访问远程异构数据资源的机制。文章 首先分析了数据网格的研究背景和 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 原则,并深入研究了数据网格的关键技术 ,最后对现有几个较成功的数 据 网格研究项 目进行 了分析和 比较。 关键词:网格,数据网格,数据密集型计算,数据共享 1 数据网格简介 高速网络的发展为收集 、组织 、存储、分析、可 视化和分发大容量数据对象提供了新的实现方法 和技术。典型的数据密集型计算应用包括 :大规模 气象预报、地球科学研究、物理和天文学研究、医学 和生物学等。它们的共同特点是:一方面,待处理的 数据总量大、数据源广域分布、且存储系统的类型 多;另一方面,其研究工作是通过若干个地域分布 的科研团体和科研人员协作进行的。具体来说 ,它 需要大规模的协作处理 ,管理大容量的数据缓冲, 实现广域网上高速的数据传输 。协作调度数据处理 过程和数据传输过程,良好的性能监控和 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 以最 大化使用存储、网络和计算资源等。总之,这种计算 应用模式需要高性能、大规模的数据管理、访问和 存储的支持。这给数据管理和存储体系结构带来了 巨大的挑战。传统的基于单机或是集中式的存储管 理结构已不能适应这种大规模数据密集型应用的 复杂性和性能要求。因此必须通过开发专门的存储 管理体系结构来对这些广域分布的资源和数据进 行管理和协同工作。数据网格(Data Grid)就是根据 这种需求,提出的一种数据管理和存储架构。 数据网格的概念来 自网格(Grid)。它是网格技术 在数据管理方面的应用和实现。即是为了建立网格 环境下 ,透明访问异构数据资源的新的体系结构。 网格【-1技术的研究目标是实现网络虚拟环境下 高性能资源的共享和协同工作,以解决一致使用各 种分散资源的问题。数据网格是为了解决数据密集 型计算应用中,方便高效使用分布式数据资源的问 题,其研究内容主要集中在广域、异构、分布环境下 如何对数据进行管理:如何从地理分布的各种异构 数据资源中获取数据;并通过地域分布的协作和处 理,从数据源中获取有用信息。从这个角度。数据网 格可以理解为是应用程序、用户等同底层存储系统 收稿 日期:2002一l1—28 基金项目:国家 自然科学基金资助项 目(699252051 之间的中间件。它对应用程序提供一致的管理和使 用存储系统的界面。对用户屏蔽广域操作的复杂性 和广域网络上存储系统的异构性。 数据网格的标准化工作是由 Grid Forum 囝的 Data Grid Group制定和建立的。该工作组定义 Data Grid为:一个有效结合数据和计算资源的分布式系 统。目前。数据网格已成为网格技术研究的热点和 主要内容之一。Grid Forum将网格主要分为七个方 面:Peer—to—peer、安全、调度、性能和信息服务、体系 结构、数据管理、应用和编程模型。 2 数据网格设计的一般原则 从体系结构上来讲,数据网格有以下特征: (1)异构性(Heterogeneity)。数据网格可以包含多 种异构的数据资源。其构成的数据源有多种类型, 不同类型的数据源在体系结构、数据访问方式、应 用程序接口等多个层次上可能有不同的结构。 f2)可扩展性(Scalability)。数据网格的规模可以 变化,从只包含少量数据资源的局域系统,发展到 包括成千上万数据资源的跨洲际的广域大数据网 格。由此可能带来的一个问题就是随着数据网格资 源的增加、地域分布的更广泛而弓 起的性能下降及 网络传输延迟。数据网格必须能适应这种变化。 (3)自适应性(Adaptability)。在广域系统中,有很 多数据和存储资源 。这些资源发生故障的概率很 高,因此数据网格必须能对用户和应用程序屏蔽这 些故障,并动态地适应这些情况;此外,数据网格资 源因地域分布和系统复杂使其整体结构经常发生 变化。数据网格应能适应这种不可预测的结构。 f4)多级管理域。由于构成数据网格的资源和存 储系统通常属于不同的机构或组织。并使用不同的 安全机制 ,因此需要各个机构或组织共同参与.以 解决多级管理域的问题。 根据上述特点及应用的实际情况.在设计数据 网格时要根据以下原则进行。 维普资讯 http://www.cqvip.com 4 微电子学与计算机 20o3年第4期 ·与底层实现机制无关性。数据网格的结构应 该与底层实现机制无关,包括与数据存储方式、元 数据访问方式等无关。系统可以定义一些界面或接 口。以封装不同存储系统在数据存储、目录管理、数 据传输算法等方面的异构性。 ·与应用策略无关性。数据网格结构在设计 中.应将与性能相关的二-一些重要功能的实现方式留 给用户或是应用程序来选择,而不是由系统封装执 行。这样既保证了用户实现策略的灵活性,又提高 了应用系统的性能。如,数据移动和复制文件目录 管理是数据网格的一个基本功能,而建立在其上的 复制策略应由用户或应用程序来决定。 ·与网格框架兼容。网格作为广域异构分布资 源互联的基础设施.为上层系统提供了许多基础服 务.如:认证、资源管理、信息服务等。数据网格的设 计应基于网格框架。并与底层网格机制相兼容。 ·一致的信息结构。在网格中,用户以一致的 方式访问资源的结构信息和状态信息。同样 ,在数 据网格中.用户也要能以一致的方式访问数据网格 中的各种信息,如,元数据、复制文件目录等。 3 数据网格的关键技术 在数据网格的应用环境中。用于构建高速、广 域分布数据访问和管理系统的技术、中间件服务、 体系结构等构成为数据网格的关键技术。 3.1 数据访问和元数据访问服务 数据访问和元数据访问是数据网格中的两个 基本服务。数据(Data)~存储在存储系统中,由应用 程序进行处理和分析的数据:而元数据(Metadata)$0 是与数据相关的信息,如数据的大小、位置等。数据 访问服务提供了访问、管理和第三方传输数据等的 机制。 元数据访问服务则提供了访问和发布元数据 的机制。将数据与元数据的概念分开是为了提高数 据网格实现的灵活性 :而在存储系统的具体实现 中,可以将二者有效地结合起来。 3.1.1 数据访问服务 存储系统是数据网格的基本构件。它最终实现 文件的建立、删除、读、写、控制等功能。其属性包括 名称、存储容量 、访问限制条件等。 通常情况下,用户通过 API来访问存储系统和 文件。这里 API的概念应比传统的概念有所扩展. 如,要支持远程文件读写功能等。存储系统在具体 必须与安全策略相结合;应用程序要给存储系统提 供访问模式、网络性能等信息,以使存储系统可以 优化其服务质量;存储系统也应检测和确定其性能 并提供给用户,以供用户优化访问策略;另外存储 系统在设计中还要考虑容错和健壮性等问题。 3.1.2 元数据访问服务 元数据可根据其所描述的内容分为以下几类: ·应用元数据(Application Metadata)。描述文件 的内容或对处理该文件的应用程序有用的信息。 ·复制管理元数据(Replica Metadata)。用于数 据对象的复制管理。包括文件到存储系统位置的映 射信息等。 ·系统配置元数据 fSystem Configuration Meta- data)。描述数据网格自身的结构,如,网络互连、存 储系统的细节.如容量、使用策略等。 每一类元数据在使用范围、更新机制 、与其他 网格组件的逻辑关系等方面都有其 自身的特性。元 数据访问服务需要提供一致的使用方法、单一的使 用界面等来发布和访问这些不同类型的元数据。 应用程序通过元数据服务来获取所需文件。元 数据服务维护一个元数据仓库或目录,当应用程序 提交所需要数据的某些特性后,元数据服务将这些 特性与某逻辑文件相关联。该逻辑文件应有一个全 局唯一的名称.在物理上.可能包括一个或多个文 件。一旦元数据服务将逻辑文件与某个应用所需的 属性相关联,复制文件管理器将使用复制管理元数 据来定位该逻辑文件的物理位置以供访问。 在大规模数据网格环境中。元数据的管理较为 复杂。首先,不同的系统可能采用不同的方法来存 储和表述元数据.因此元数据管理既要能管理这种 异构性 ,又要保证在分布式环境中元数据访问的效 率。在目前的数据网格已有的实现中,通常对不同 的应用采用了不同的元数据格式,如:在高能物理 应用中,采用了一种专门的索引结构 ;还有一些采 用 XML来表示应用元数据等。其次,元数据管理要 适应数据网格的可扩展性 ,它要能支持大规模组织 中的各种信息源。另外,元数据服务要保证一定的 健壮性。 通常情况下。元数据服务被设计成一种分层结 构的分布式服务。该结构的优点包括:提供了可扩 展性、避免了单一故障点等。这种分布式结构的效 率问题。可以通过充分利用元数据服务自身的分层 属性来弥补。目前在数据网格的大多数实现中,使 维普资讯 http://www.cqvip.com 2003年第4期 5 3.2 数据复制管理 3.2.1 数据复制的必要性 在数据网格中实现数据复制功能,是为了获得 更好的数据访问效率及容错性能。在数据密集型的 大规模分布式协作应用中,一方面数据的用户群广 域分布.另一方面数据也分布存储在不同位置上。 如在欧洲原子能研究组织所进行的高能物理的研 究中.其计算模式就是使用一个分布式网络连接各 地的研究中心.每个中心都有其 自己的计算和数据 存储设备.这些设备通过广域网络互连。在这种网 格环境中.众多的物理科学家分布在网格的不同位 置.并使用各自位置的仪器设备来获取数据并进行 计算和分析。这样,在某位置进行的计算可能需要 其他位置所存放的数据。为了减少计算时通过网络 访问数据的时间.可以先从别的存储位置复制一部 分数据在本地机器上:或在多个位置存放某一数 据 .当某个计算节点需要这些数据时.可以从访问 时间最短的存储节点上获取所需数据。这些都产生 了·份数据在整个系统中的多个拷贝。 数据复制管理服务包括: ·产生一个数据包的全部或部分数据的拷贝: ·将新的拷贝注册到复制文件目录中: ·用户或应用程序查询复制文件 目录.以获取 某个文件或文件组的所有物理拷贝: ·根据网格信息服务所提供的信息。基于存储 和网络性能预测.选择最合适的复制文件供用户或 应用程序访问。 数据复制方法给系统带来的特殊复杂性包括: ·需要安全服务以认证用户和控制对存储系 统的访 问; ·由于数据包通常都很大,因此用户只希望复 制数据中他感兴趣的子数据包; ·多个复制文件的数据一致性问题。 3.2.2 文件复制和数据对象复制 数据复制可以以不同的方法和在不同的粒度 层次上实现.如在文件层次或是数据对象层次上来 实现。数据对象是指与某种应用相关的一组数据 . 这组数据可能存放在一个或多个物理文件中。 文件复制是指在现有文件粒度上的数据复制: 数据对象复制是指在数据对象粒度上对数据进行 复制。通常数据对象复制时,需要首先在源节点上 将所需复制的数据对象拷贝到一个新的文件中.再 将该新文件传送到目的节点。数据对象复制在实现 中比文件复制要复杂一些 ,但在某些情况下.其效 率较高[41。 通常使用复制文件管理器来生成或尉除一个 复制文件。若某新的存储位置能对某些位置提供更 好的访问性能或更高的可用性.则可以生成一个新 的复制文件:一个复制文件可能因为要释放所占用 的存储空间或其它原因而被删除。通常在实现时, 复制文件是只读文件.这样会简化数据网格设计中 的复杂性 .也符合大部分应用程序的实际情况。 复制文件管理器维护一个复制文件 目录。以提 供文件或文件组的逻辑名到其物理存储位置的映 射关系。因此复制文件 目录包含有三类信息:逻辑 文件组 、逻辑文件和物理位置信息。逻辑文件组是 用户定义的一组文件,以使用户能方便和直观地把 一 组文件作为一个整体来注册和管理.同时又能减 少复制文件目录中的被管条目.和对复制文件目录 的操作数:物理位置信息包含映射一个逻辑文件组 到其物理文件上所需要的所有信息,如主机名、端 口号、访问协议等;逻辑文件则是有着全域唯一名 称的实体,它可能对应存在一个或多个物理文件。 一 个数据网格可能包含有多个复制文件目录. 一 般是按照类目录结构的分层结构来实现。 3.2.3 复制文件选择和数据过滤 应用程序在访问所需数据资源时.首先根据所 需要数据的特性查询元数据库,以找到该数据资源 对应的逻辑文件标识 .再根据复制文件目录即可得 到该逻辑文件对应的所有物理文件位置。这时就需 要从所有的物理文件中选择一个最优访问性能供 应用程序访问。 复制文件选择服务是根据复制文件的位置信 息和用户或应用程序的需要。从存储在不同存储系 统中的复制文件中。选择一个性能最优的复制文件 供应用访问的过程。在选择时。系统要收集一系列 的信息,包括应用程序的要求、网络服务质量、存储 系统的性能特性等。应用程序的要求包括 :访问速 度 、延迟 、安全性等;网络的服务质量包括 :网络传 输带宽、维持网络带宽的能力等 :存储系统的特性 包括 :最大访问带宽、访问延迟、安全策略等。这些 信息一般是通过网格信息服务(GIs)来获取。 根据数据复制管理策略.若一个新的复制文件 的访问性能会高于对现有文件的访问性能.复制选 择过程可能会启动一个产生新复制文件的过程 一 个更高效的选择服务会考虑用户对一个文 件子数据包的访问要求。如在科学实验中,通常会 产生很大的数据文件,而某些应用程序可能只处理 维普资讯 http://www.cqvip.com 6 微电子学与计算机 2003年第 4期 这些数据中的部分子数据。这时,复制文件选择服 务应只给应用程序提供原始数据文件中的部分子 数据文件 ,以减少网络传输的数据量。该功能已在 某些数据管理系统中实现 ,如STACS系统在高能物 理应用中就采用了这种从大文件中提取子数据包 的方法。该功能在实现时需要数据过滤或抽取程 序 ,它能理解数据文件的结构 ,并从中产生出应用 需要的子数据包。抽取出来的子数据包被存成文 件 ,并有自己的元数据和物理特性 ,这些信息最终 交给复制文件管理器。数据抽取功能在实现时需要 能够重新组织数据 、提取子数据包、并实现数据类 型的转换等功能。 3.3 数据传输技术及协议研究 ’ 在数据网格环境中,通常需要较大量的网络数 据访问和传输。同时数据网格中存在多种存储系 统,它们有 自己的协议或 API函数供用户访问,而 这些协议或API往往是不同或不兼容的。因此在访 问不同的存储系统时,必须采用多种访问方法,这 降低了在不同存储系统之间传输数据的效率,并增 加了用户使用的复杂性。为了实现数据在网格环境 中安全、可靠、高效的传送,需要一种通用网格数据 传输协议(GridFTP)。 GridFl'P应兼容现有的F.I 协议的实现 ,并按 照数据网格环境下数据传输的特殊要求进行扩展。 数据传送协议还应提供以下功能: 。 (1)支持网格安全框架(GSI)。在传输和访问文 件时,健壮和灵活的认证 、完整性和机密性都是很 关键的。Grid1~FP必须支持 GSI和密钥认证,同时用 户要能设置不同的数据完整性和机密性级别。 (21支持第三方控制数据传输。为了管理大规模 分布的数据,需要提供第三方控制的,在不同存储 系统之间的数据传输功能。 (3)并行数据传输。利用多 TCP流来提高总的 传输带宽。 (4)数据分割传输。通过多个服务器分割传输数 据可以极大的提高总的数据传输带宽。 (5)部分文件传输。许多应用只需要某文件中的 部分数据,因此只传输应用需要的该部分数据可以 减少总的传输量。由于标准的FrP协议在传输数据 时需要传输整个文件,因此 Grid肿 需要采用新的 方法来实现部分文件的传输。 (6)自动调整 TCP缓冲及窗口大小。采用优化 设置 TCP缓冲及窗口大小可以较大的影响数据传 输性能。GridFYP应当扩展标准 F1’P命令集和数据 通道协议 ,以支持手工设置或自动调整 TCP缓冲大 小,以适应较大文件和大容量的文件集。 (7)支持可靠数据传输。应对用户屏蔽数据传输 中发生的错误 ,采用出错重传等方法来实现透明的 网络故障等。标准 兀P协议中已经包括了基本的出 错重传等容错方法,但在具体的兀P实现中并没有 得到广泛的实现,Grid兀P应当扩展并加强该功能。 3.4 存储资源代~(Storage Resource Broker) SRB圈是由美国 San Diego超级计算机中心提出 并开发的一种数据网格管理技术,是一个基于C/S 结构的中间件,用于提供对不同类型存储设备的一 致访问界面。它给用户提供了一组的API,以供用户 访问广域网络上互连的各种异构数据资源。除了文 件传输语义之外,SRB还给应用程序提供了根据数 据特征来查找所需数据的功能。 图 l是一个简单的 SRB结构,它主要包含三个 通过网络互连的组件:元数据目录服务器(MCAT)、 SRB服务器、SRB客户端。MCAT存储元数据,SRB 用于管理用户和资源。MACT服务器处理来 自SRB 服务器的请求,包括信息查询、产生新的元数据、元 数据更新等。 用户 元数据/ 应用 图 1 存储资源代理结构 图 应用程序通过一组 API向 SRB服务器发出请 求和接收响应。SRB服务器执行用户的任务请求 , 包括:与 MCAT服务交互,执行 I/O操作等。客户使 用相同的API访问由SRB管理的所有存储系统.这 样 SRB服务器屏蔽了用户与各种类型的存储系统、 操作系统、硬件结构等交互的复杂性。 SRB服务器的设计是基于 Client/Server模型 的,它主要包含两种类型的服务:SRB Server和SRB Master。SRB Master守护进程用于不问断监听端口, 等待客户端请求的到来。一旦从客户端的连接请求 建立并得到确认,它将复制并执行一个 SRB Server 的拷贝——这里称作 SRB Agent,来进行服务。连接 建立后,客户端将和 SRB Agent通过另一介端口继 续通信,SRB Master继续监听原来的端口。客户端 应用程序与 SRB Agent通过 TCP, Socket使用一 组API进行通信。 ( < 维普资讯 http://www.cqvip.com 2003年第4期 微电子学与计算机 7 在SRB的具体实现中,使用一组分布协作的 sRB服务器来对客户请求进行响应。采用这种服务 器组的实现方式,是基于以下原因的: (1)系统整体结构的需要。不同的存储系统运行 在不同的主机上,这种分布式的环境需要采用分布 式的SRB服务器。 (21提高了系统整体性能。单一的 SRB服务器 可能成为分布式系统的瓶颈。 (31提高了系统的可靠性和可用性。数据可以在 不同的存储系统和不同的主机之间复制和备份。 通过与数据分割功能相结合 ,SRB可以实现远 程数据过滤的功能。在最新的 SRB客户端函数库中 已经增加了9个实现数据分割功能的API函数。 3.5 数据分割(DataCutter)技术 D taCutte 是由美国 Maryland大学计算机系 提出并开发的一种技术。其目的是在数据网格环境 中,实现对远程数据包中子数据包进行访问。在数 据网格环境下,存储系统中的数据文件可能非常巨 大.而异地用户可能只对该大文件数据中的某一部 分子数据感兴趣。DataCutter通过从大数据文件中 选择并过滤出用户真正需要的部分数据 。并实际只 传输该部分子数据包,从而大大减少网络上数据的 传送量,进而提高数据网格系统的整体性能。具体 来说。它能够通过多方面的范围查询、用户定义的 过滤操作、以及面向应用的聚合,而将一个大容量 的科学数据包划分成子数据包,并支持用户对该子 数据包的访问。 DataCutter提供了一组服务供用户使用 .也可 与其它数据网格服务,如元数据管理、资源管理、认 证服务等相结合,以实现更完善的网格服务。 为在 DataCutter框架内高效利用分布的共享资 源,DataCutter将应用程序结构分解成一组进程,称 作“Filters”。并利用这些分布的进程来执行列查询 和应用级数据传送,如图2所示。 客户查询 数据结果 数据结果 分 隔 信 息 图 2 DataCutter系统结构 图 DataCutter作为一组模块化的服务来实现。客 户界面服务提供了客户 API。数据访问服务提供了 访问存储器的底层 I/O支持。Filtering服务和索引服 务利用数据访问服务从存储系统中读取数据和索 引信息。索引服务管理 DataCutter中的索引和检索 方法。Filtering服务管理 Filters以实现应用级的数 据操作。 Maryland大学已利用 C/C++实现了 DataCutter 服务的原型。该原型中数据访问 服务提供 了与 HPSS和 Unix文件系统的接口,索引服务使用 R— tree作为默认的检索方法。在最新的 SRB系统中也 给用户提供了支持 DataCutter功能的API函数。 3.6 数据网格体系结构设计 数据网格体系结构设计就是考虑如何将各种 数据网格服务组织起来,成为一个高效的系统 ,并 以怎样的方式或界面供用户或应用程序来使用。、数 据网格在进行体系结构设计时。必须考虑与一般网 格框架之间的关系。这是由于数据网格作为网格环 境中数据管理功能的实现,要建立在一般的网格框 架之上,即一方面数据网格的功能要利用其它一些 网格服务来实现,如安全服务、资源调度服务、性能 与信息服务等:另一方面某些网格服务的实现 ,也 要利用数据阿格服务所提供的功能。 在目前的研究项 目中,数据网格都是按照分层 结构来实现的。在底层,主要考虑对底层资源和中 间件的管理,考虑如何高性能的实现数据访问等基 本功能,而不过多地考虑某个专门的应用策略。如 在实现数据移动功能时,系统底层只考虑如何高速 的实现数据移动,并给上层提供一些系统接 口。包 括出错处理接口等,而并不过多的考虑存储系统出 错的情况。系统结构的高层建立在底层机制之上, 主要考虑面向应用的实现策略,并支持不同类型的 使用。如考虑应用中可能出现的不同的编程模型和 不同的访问方法。总之,这种分层结构是由一系列 相关的、相互独立或相互依赖的服务所组成的。每 一 个服务实现一个专门的功能,并且在实现时可能 要依赖于其他服务。 4 数据网格研究实例 4.1 Globus Data Grid Globus是目前最成功的网格研究项 目。它开发 了一系列的协议、服务、软件库、工具包等用于构建 并实现一个网格环境平台。Globus数据网格r7】结构 如图 3所示。 Globus数据网格从整体结构上分为两层:核心 服务层和高层服务层 ,其中高层服务层建立在核心 服务层之上,并使用核心服务 服务层提供通用的底层机制, 维普资讯 http://www.cqvip.com 8 微电子学与计算机 2003年第 4期 高层服务 复制文件选择 复制文件管理 回 回 核心服务 存储系统ll元数据仓库 。 。’——’’’ 。⋯ 资源管理l 1安全服务l 1仪器设备l 。 。。。。。。。。。‘‘。一 DPSS--HPSS LDAP-一MCAT LSF一一DIFFSERV Kerberos NWS-一Nedogger 数据网络特有的服务 普通网络服务 图 3 Globus数据网络结构图 的存储系统。以供高层服务和应用通过一致的方式 来访问这些系统。其核心服务包括: (1)存储系统和数据访问。提供异构存储系统的 基本数据访问和管理机制,包括创建 、删除、读取和 修改远程文件。可以支持 Unix、HPSS fHigh Perfor- mance Storage System)。或其它复杂的系统,如 SRB。 f2】元数据访问。提供访问和管理元数据的机 制。 系统高层服务主要为复制文件选择和复制文 件管理。复制文件管理服务提供在某个具体的存储 系统中创建和删除复制文件的功能。并维护复制文 件位置地址的目录。应用程序可以使用复制文件选 择服务来从复制文件目录中选择一个文件。 Gloubs数据网格项目也开发了 GridFTP协议 。 它是对标准 FTP协议的扩展。并支持网格环境下数 据的安全、高效传输。 4.2 Euro Data Grid 欧洲数据网格is]项 目的最终 目标是开发适应下 一 代科学研究要求的科研环境。该项目的研究人员 认为下一代科研工作的特点包括:需要很高的计算 性能,需要处理和共享大规模的数据(T,甚至 P字节 容量),跨广域的分布式科学团体协作等。这些要求 目前已经在许多科学领域的研究工作中表现出来 了,包括物理学、生物学、地球科学等。这些研究工 作中,所用资源的分布性特点 、研究团体的分布属 性、数据库的大容量、有限的可用带宽等都使得资 源共享变得更为复杂。 该项 目建立在现有的计算网格技术(如 Globus) 之上。其长远目标包括: (1)建立一个试验床(Testbed),以研究和开发建 立全球域数据网格所需要的技术。 (2)通过开发和实际用户参加的应用试验。论证 这种新技术的有效性。 (3)采用低代价的通用设备构建数据密集型计 算机群 ,以论证构建、互联和高效管理大规模数据 网格的可行性。 从技术角度。该项 目要实现的目标主要包括: ·计算资源管理。包括网格框架。本地计算组 件管理和大容量存储器管理。 ·数据网格服务。提供工作负载调度。数据移 动和网格监控服务等。 ·利用现有的科学研究应用进行测试和评价。 包括三个主要的应用领域 :高能物理、地球观测和 生物学研究。 Euro Data Grid分五个子项目:工作负载管理、 数据管理 、监测服务、底层设备管理、大规模存储管 理。每一个子项目都实现网格中间件的某些功能。 其试验床连接了跨越欧洲的几个主要实验室.从而 为应用提供了一个大规模的实验环境。 现有的三个学科的应用软件将根据数据网格 软件进行相应的修改。并用于对实验床的测试。包 括测试系统的功能 、性能和质量。图 4说明了 Eruopean数据网格的数据管理机制。 中间层服务I数据 动器 , 、0 ’- f数据访问器I l 数据定位器I l I I ● . 存储 理器卜\ 效据臂理器l I I本地文件系统I 其它大规模 存储管理系统 图 4 European数据网格的数据管理结构图 复制文件管理器管理文件和元数据在分布、分 层的数据缓冲中的多份拷贝。它使用数据移动器来 实现文件在不同存储系统之间的传输。数据移动器 使用数据访问器和数据定位器将文件的逻辑标识 映射到物理标识。数据访问器给用户提供了访问界 面,以屏蔽本地文件系统和其它存储系统的细节。 数据定位器使用元数据管理器来确定文件的具体 位置。查询优化和访问模式管理根据元数据信息。 对一个给定的查询请求。产生最优的迁移和复制文 件执行 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 。数据访问的粒度可以是文件级的或是 数据集级的,数据集指一系列逻辑相关的文件。 4.3 Grid Physics Network Project Grid Physics Network(GriPhyN)tg]是建立一个数 据网格以协作处理各种物理实验的所获数据。目前 主要是为处理从 CMS和 ATIAS实验获得的数据 这些试验主要来自于 LHC fLarge HlIdmn Collider)、 UGO(Laser Interferometer Gravitational Observatory) 和 SDSS(Sloan Digital Sky Survey)。 维普资讯 http://www.cqvip.com 2003年第 4期 微电子学与计算机 9 该项 目的最终目标是建立一个大规模、广域的 PVDG(Petascale Virtual Data Grids)以适应跨全球 域、集合了成千上百科研人员参加的数据密集型应 用研究的需要,技术特点包括: (1)虚拟数据技术。采用一种新的方法以分类、 标示、确认和归档软件组件实现虚拟的数据处理。 f2)数据和计算资源的策略驱动请求和调度策 略。包括采用基于策略的资源发现技术。 (3)在广域范围的虚拟组织上实现事务管理和 任务执行,满足用户对性能、可靠性和代价的要求。 目前。该项目已开发了与应用无关的“虚拟数 据工具包”,它是一组虚拟数据服务和工具包,以供 用户构建数据网格。该工具包的结构如图 5所示。 应用 工具包 服务 基础设备 与其它系统结合以提高应用级性能 图 5 GriPhyN的虚拟数据工具包结构图 该工具包通过一组虚拟数据服务对用户封装 了底层细节和具体的硬件结构。开放性是该工具包 的一个重要特点 .它可以与其它在某些方面性能更 优的网格工具包(如 Condor、Globus Toolkits等)结合 使用,以实现更高效的其他网格服务,如存储管理、 并行 I,o、高速数据移动、策略表述、数据库访问、认 证和授权、可扩展对象技术等。 4.4 Earth System Gm Earth System[。0l数据网格是由四个 DOE实验室 (ANL、LANL、LBNL、U L)及 NSF和两个 大学(Uni. versity of Wisconsin、University of Southern Califor- nis)合作建立,目的是为了支持对远程分布式大规 模气候模型数据库的高速访问。该数据网格建立在 现有的技术(DPSS、Globus等)之上,以开发一个新的 “智能化”的中间件 ,实现分布式数据管理、高性能 数据传输、计算组件的远程执行等。 Earth System数据网格的原始数据主要分布在 磁盘缓冲和磁带系统中。为了跟踪数据的物理位 置,系统采用了元数据目录和一个分布的缓冲管理 系统。应用程序需要数据时,向本地的代理(称查询 监视器1发送数据请求。查询监视器首先访问本地的 元数据 目录,如果所需数据不在本地 ,它将广播该 数据请求到所有的其他元数据目录。由所需数据的 元数据目录将响应该查询监视器。查询监视器通过 查询 Globus网络服务获得当前网络信息.并确定从 那个物理位置获取所需数据。如果数据不在磁盘缓 冲中。系统首先将数据从磁带传送到磁盘缓冲中。 图 6为该数据网格的数据管理服务结构图。 图 6 Earth System Grid中数据臂理服务 Earth System采用 DPSS来实现数据传输功能: 采用 SRB的全局命名方法来标识数据资源 :采用 GSI的安全和访问控制机制来保证系统的安全:采 用 GASS的数据迁移机制来实现高效的数据迁移。 该系统的一个特色是提供了远程计算的机制。 包括:定位合适的计算机和数据源:判断其可用性 和性能特性;定位、构建和传送远程可执行环境;初 始化远程计算;在组件之间传输数据等。在实现该 服务时,使用了 Globus的安全、资源管理、计算管理 和通信等服务。 5 结束语 数据网格除了上面论述的功能之外。还应包括 其他一些功能 ,如:资源保持和协作机制f端对端的 资源性能保证);关键资源的性能测量与评估 ;可视 化的数据网格使用界面和工具包:知识管理和资源 发现;远程数据管理等。 传统的集中式计算模式,正逐步发展成为能聚 集更多计算和数据资源的网格计算模式。而数据网 格作为网格环境下,数据管理和共享的新型体系结 构 ,正逐渐成为网格研究中的重点之一。 参考文献 【l】Ian Foster,Carl KesselmAn·The Grid:strum,for a New (下转簟瑟页) ~ 骚 维普资讯 http://www.cqvip.com 2003年第 4期 微电子学与计算机 13 的工作是把被校验水表安装在校验台上,确认系统 正常后.按“检验开始键” 通知 关于发布提成方案的通知关于xx通知关于成立公司筹建组的通知关于红头文件的使用公开通知关于计发全勤奖的通知 技术人员。 6 结束语 本校验系统采用了嵌入式 Web服务器技术,系 统的稳定性、可靠性大大提高,远程管理端的计算 机不需要应用软件 ,只要通过浏览器就可以实现远 程管理和设置,包括软件升级 ,也不会受到计算机 病毒的危害。系统的软件和硬件都采用了模块化结 构,功能扩充和裁减都比较容易 ,具有较强的适应 能力。系统的测控卡不用做硬件修改,在软件结构 和功能上适当修改.就可以用在注水站或集油站充 当基于 Web的智能计量仪表,还可用到任何使用涡 轮里流量计的场合。 该系统投入运行以来运行情况良好.根据初步 统计,可以提高工作效率 80%,保证了校验质量.节 省了时间和送检费用,取得了较好的经济效益。 参考文献 [1】Douglas E Comer[美】著,张娟 等译.用 TCP/IP进行网际 互联(第二卷).电子工业出版社. [2】雷震甲.计算机网络.西安电子科技大学出版社. [3】DOS Lnternet Programming APIs.http://drhe.topeoo1.net/ programm/net/inetlibe .him [4】PPP&Internet Applications for DOS.http://www.tropinet. com/ppp.html HE Peng-ju。,CHEN Ming。,CHANG Yan-rongL WANG Wan—cheng。 ‘(Northwestern Polytechnical University,Xi’an 710072) 。(Factory of Changqing Oil Company,Yinehuan 750006) Abstract: 111e main function and principle of checking water meter whioh used in oil fields is introduced, and the tttruculre of the check system is also given. and how to u辩 embedded Web server completed checking the injecting water m魄er in the remote place are described. Key words:Injecting water meter,Automatic check,Remote control。Embedded Web server 何鹏举 陈 明 常颜荣 王万诚 西北工业大学 自动化控制系博士研究生。 西北工业大学自动化控制系博士生导师。 长庆油田公司第三采油厂总工程师。 西北工业大学计算机系博士研究生。 (上接第9页) Computing Infrastructure.San Francisco,CA:Morgan Kauf- mann.1999. [2】Global Grid Forum.http:llwww.gridforum org [3】Ann Chervenak,Ian Foster,Carl Kesselman et a1.111e data d: Towards an architecture for the distributed manage— ment and analysis of large scientific datasets. Journal of Network and Computer Applications,2002(23):187-200. [4】Heinz Stockinger,Asad Samar,Ian Foster.File and Object Replication in Data Grids.Proc.10th Int1.Symp.On Hish Performance Distributed Computing,IEEE Press,2001. [5】http:llwww.npaci.edu/dice/srb [6】DataCutter Project.http://www.CS.umd.edu/projects/hpsPre. serachareaa/datacutter.htm [7】Globns Project.http:llwww.globus.org [8】Euro Data Grid Project,http:llwww.cern.ch/grid [9】Grid Physics Network Project.http://www.griphyn.org [10】Earth System Grid.http://www.scd.near.edu/css/esg [1l】Bill Allcock,Joe Bester,John Bresnahan,hn Foster.Se. cure, Efficient Data Transport and Replica Man agement for Hish-Performance Data-intensive Computing. He Ge,XU Zhi-wei(Software Division,Institute of Computing Technology,Chinese Academy of Science,Beijing 10008O) Abstract: Data d architecture provides alar学e-1}cak, seal- able infrastructure for the management of storage l~gom an d data that are distributed ~rog8 d environments.Based on the requirement to data sharing and marIagiIlg of data-intensive computing application,it provides the meckmi栅陷 for nj嘲唧岍 enfly remote accessing to heterogeneous data resoul~os. This paper analysis the research background,principles following in developing a design for the data d architecture firstly, then deeply studies the key technologies when designing a data finally analysis and compares several successful data d re- search project. Key words: Grid,Data grid,Data—intensive computing,Data sharing 何 戈 男,(1976-),博士研究生。研究方向为高性能计算与 网格计算技术。 徐志伟 男,(1956-),博士,研究员 ,博士生导师。研究方向为 网格计算技术、机群操作系统、高性能服务器体系结构和安 全操作系统。 一 } 维普资讯 http://www.cqvip.com
本文档为【数据网格技术研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_864088
暂无简介~
格式:pdf
大小:425KB
软件:PDF阅读器
页数:8
分类:互联网
上传时间:2010-12-18
浏览量:23