数据网格技术研究

数据网格技术研究 2003年第 4期微电子学与计算机 3 数据网格技术研究 Research on Data Grid Technology 中国科学院计算技术研究所软件室何戈徐志伟 (北京 100080) ‘ 摘要：数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构，它适应数据密集型应用对网格环境下数据共享和处理的需要，给用户提供了透明访问远程异构数据资源的机制。文章首先分析了数据网格的研究背景和设计原则，并深入研究了数据网格的关键技术，最后对现有几个较成功的数 ...

2003年第 4期微电子学与计算机 3 数据网格技术研究 Research on Data Grid Technology 中国科学院计算技术研究所软件室何戈徐志伟 (北京 100080) ‘ 摘要：数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构，它适应数据密集型应用对网格环境下数据共享和处理的需要，给用户提供了透明访问远程异构数据资源的机制。文章首先分析了数据网格的研究背景和设计原则，并深入研究了数据网格的关键技术，最后对现有几个较成功的数据网格研究项目进行了分析和比较。关键词：网格，数据网格，数据密集型计算，数据共享 1 数据网格简介高速网络的发展为收集、组织、存储、分析、可视化和分发大容量数据对象提供了新的实现方法和技术。典型的数据密集型计算应用包括：大规模气象预报、地球科学研究、物理和天文学研究、医学和生物学等。它们的共同特点是：一方面，待处理的数据总量大、数据源广域分布、且存储系统的类型多；另一方面，其研究工作是通过若干个地域分布的科研团体和科研人员协作进行的。具体来说，它需要大规模的协作处理，管理大容量的数据缓冲，实现广域网上高速的数据传输。协作调度数据处理过程和数据传输过程，良好的性能监控和评价以最大化使用存储、网络和计算资源等。总之，这种计算应用模式需要高性能、大规模的数据管理、访问和存储的支持。这给数据管理和存储体系结构带来了巨大的挑战。传统的基于单机或是集中式的存储管理结构已不能适应这种大规模数据密集型应用的复杂性和性能要求。因此必须通过开发专门的存储管理体系结构来对这些广域分布的资源和数据进行管理和协同工作。数据网格(Data Grid)就是根据这种需求，提出的一种数据管理和存储架构。数据网格的概念来自网格(Grid)。它是网格技术在数据管理方面的应用和实现。即是为了建立网格环境下，透明访问异构数据资源的新的体系结构。网格【-1技术的研究目标是实现网络虚拟环境下高性能资源的共享和协同工作，以解决一致使用各种分散资源的问题。数据网格是为了解决数据密集型计算应用中，方便高效使用分布式数据资源的问题，其研究内容主要集中在广域、异构、分布环境下如何对数据进行管理：如何从地理分布的各种异构数据资源中获取数据；并通过地域分布的协作和处理，从数据源中获取有用信息。从这个角度。数据网格可以理解为是应用程序、用户等同底层存储系统收稿日期：2002一l1—28 基金项目：国家自然科学基金资助项目(699252051 之间的中间件。它对应用程序提供一致的管理和使用存储系统的界面。对用户屏蔽广域操作的复杂性和广域网络上存储系统的异构性。数据网格的标准化工作是由 Grid Forum 囝的 Data Grid Group制定和建立的。该工作组定义 Data Grid为：一个有效结合数据和计算资源的分布式系统。目前。数据网格已成为网格技术研究的热点和主要内容之一。Grid Forum将网格主要分为七个方面：Peer—to—peer、安全、调度、性能和信息服务、体系结构、数据管理、应用和编程模型。 2 数据网格设计的一般原则从体系结构上来讲，数据网格有以下特征： (1)异构性(Heterogeneity)。数据网格可以包含多种异构的数据资源。其构成的数据源有多种类型，不同类型的数据源在体系结构、数据访问方式、应用程序接口等多个层次上可能有不同的结构。 f2)可扩展性(Scalability)。数据网格的规模可以变化，从只包含少量数据资源的局域系统，发展到包括成千上万数据资源的跨洲际的广域大数据网格。由此可能带来的一个问题就是随着数据网格资源的增加、地域分布的更广泛而弓起的性能下降及网络传输延迟。数据网格必须能适应这种变化。 (3)自适应性(Adaptability)。在广域系统中，有很多数据和存储资源。这些资源发生故障的概率很高，因此数据网格必须能对用户和应用程序屏蔽这些故障，并动态地适应这些情况；此外，数据网格资源因地域分布和系统复杂使其整体结构经常发生变化。数据网格应能适应这种不可预测的结构。 f4)多级管理域。由于构成数据网格的资源和存储系统通常属于不同的机构或组织。并使用不同的安全机制，因此需要各个机构或组织共同参与．以解决多级管理域的问题。根据上述特点及应用的实际情况．在设计数据网格时要根据以下原则进行。维普资讯 http://www.cqvip.com 4 微电子学与计算机 20o3年第4期 ·与底层实现机制无关性。数据网格的结构应该与底层实现机制无关，包括与数据存储方式、元数据访问方式等无关。系统可以定义一些界面或接口。以封装不同存储系统在数据存储、目录管理、数据传输算法等方面的异构性。 ·与应用策略无关性。数据网格结构在设计中．应将与性能相关的二-一些重要功能的实现方式留给用户或是应用程序来选择，而不是由系统封装执行。这样既保证了用户实现策略的灵活性，又提高了应用系统的性能。如，数据移动和复制文件目录管理是数据网格的一个基本功能，而建立在其上的复制策略应由用户或应用程序来决定。 ·与网格框架兼容。网格作为广域异构分布资源互联的基础设施．为上层系统提供了许多基础服务．如：认证、资源管理、信息服务等。数据网格的设计应基于网格框架。并与底层网格机制相兼容。 ·一致的信息结构。在网格中，用户以一致的方式访问资源的结构信息和状态信息。同样，在数据网格中．用户也要能以一致的方式访问数据网格中的各种信息，如，元数据、复制文件目录等。 3 数据网格的关键技术在数据网格的应用环境中。用于构建高速、广域分布数据访问和管理系统的技术、中间件服务、体系结构等构成为数据网格的关键技术。 3．1 数据访问和元数据访问服务数据访问和元数据访问是数据网格中的两个基本服务。数据(Data)~存储在存储系统中，由应用程序进行处理和分析的数据：而元数据(Metadata)$0 是与数据相关的信息，如数据的大小、位置等。数据访问服务提供了访问、管理和第三方传输数据等的机制。元数据访问服务则提供了访问和发布元数据的机制。将数据与元数据的概念分开是为了提高数据网格实现的灵活性：而在存储系统的具体实现中，可以将二者有效地结合起来。 3．1．1 数据访问服务存储系统是数据网格的基本构件。它最终实现文件的建立、删除、读、写、控制等功能。其属性包括名称、存储容量、访问限制条件等。通常情况下，用户通过 API来访问存储系统和文件。这里 API的概念应比传统的概念有所扩展．如，要支持远程文件读写功能等。存储系统在具体必须与安全策略相结合；应用程序要给存储系统提供访问模式、网络性能等信息，以使存储系统可以优化其服务质量；存储系统也应检测和确定其性能并提供给用户，以供用户优化访问策略；另外存储系统在设计中还要考虑容错和健壮性等问题。 3．1．2 元数据访问服务元数据可根据其所描述的内容分为以下几类： ·应用元数据(Application Metadata)。描述文件的内容或对处理该文件的应用程序有用的信息。 ·复制管理元数据(Replica Metadata)。用于数据对象的复制管理。包括文件到存储系统位置的映射信息等。 ·系统配置元数据 fSystem Configuration Meta- data)。描述数据网格自身的结构，如，网络互连、存储系统的细节．如容量、使用策略等。每一类元数据在使用范围、更新机制、与其他网格组件的逻辑关系等方面都有其自身的特性。元数据访问服务需要提供一致的使用方法、单一的使用界面等来发布和访问这些不同类型的元数据。应用程序通过元数据服务来获取所需文件。元数据服务维护一个元数据仓库或目录，当应用程序提交所需要数据的某些特性后，元数据服务将这些特性与某逻辑文件相关联。该逻辑文件应有一个全局唯一的名称．在物理上．可能包括一个或多个文件。一旦元数据服务将逻辑文件与某个应用所需的属性相关联，复制文件管理器将使用复制管理元数据来定位该逻辑文件的物理位置以供访问。在大规模数据网格环境中。元数据的管理较为复杂。首先，不同的系统可能采用不同的方法来存储和表述元数据．因此元数据管理既要能管理这种异构性，又要保证在分布式环境中元数据访问的效率。在目前的数据网格已有的实现中，通常对不同的应用采用了不同的元数据格式，如：在高能物理应用中，采用了一种专门的索引结构；还有一些采用 XML来表示应用元数据等。其次，元数据管理要适应数据网格的可扩展性，它要能支持大规模组织中的各种信息源。另外，元数据服务要保证一定的健壮性。通常情况下。元数据服务被设计成一种分层结构的分布式服务。该结构的优点包括：提供了可扩展性、避免了单一故障点等。这种分布式结构的效率问题。可以通过充分利用元数据服务自身的分层属性来弥补。目前在数据网格的大多数实现中，使维普资讯 http://www.cqvip.com 2003年第4期 5 3．2 数据复制管理 3．2．1 数据复制的必要性在数据网格中实现数据复制功能，是为了获得更好的数据访问效率及容错性能。在数据密集型的大规模分布式协作应用中，一方面数据的用户群广域分布．另一方面数据也分布存储在不同位置上。如在欧洲原子能研究组织所进行的高能物理的研究中．其计算模式就是使用一个分布式网络连接各地的研究中心．每个中心都有其自己的计算和数据存储设备．这些设备通过广域网络互连。在这种网格环境中．众多的物理科学家分布在网格的不同位置．并使用各自位置的仪器设备来获取数据并进行计算和分析。这样，在某位置进行的计算可能需要其他位置所存放的数据。为了减少计算时通过网络访问数据的时间．可以先从别的存储位置复制一部分数据在本地机器上：或在多个位置存放某一数据．当某个计算节点需要这些数据时．可以从访问时间最短的存储节点上获取所需数据。这些都产生了·份数据在整个系统中的多个拷贝。数据复制管理服务包括： ·产生一个数据包的全部或部分数据的拷贝： ·将新的拷贝注册到复制文件目录中： ·用户或应用程序查询复制文件目录．以获取某个文件或文件组的所有物理拷贝： ·根据网格信息服务所提供的信息。基于存储和网络性能预测．选择最合适的复制文件供用户或应用程序访问。数据复制方法给系统带来的特殊复杂性包括： ·需要安全服务以认证用户和控制对存储系统的访问； ·由于数据包通常都很大，因此用户只希望复制数据中他感兴趣的子数据包； ·多个复制文件的数据一致性问题。 3．2．2 文件复制和数据对象复制数据复制可以以不同的方法和在不同的粒度层次上实现．如在文件层次或是数据对象层次上来实现。数据对象是指与某种应用相关的一组数据．这组数据可能存放在一个或多个物理文件中。文件复制是指在现有文件粒度上的数据复制：数据对象复制是指在数据对象粒度上对数据进行复制。通常数据对象复制时，需要首先在源节点上将所需复制的数据对象拷贝到一个新的文件中．再将该新文件传送到目的节点。数据对象复制在实现中比文件复制要复杂一些，但在某些情况下．其效率较高[41。通常使用复制文件管理器来生成或尉除一个复制文件。若某新的存储位置能对某些位置提供更好的访问性能或更高的可用性．则可以生成一个新的复制文件：一个复制文件可能因为要释放所占用的存储空间或其它原因而被删除。通常在实现时，复制文件是只读文件．这样会简化数据网格设计中的复杂性．也符合大部分应用程序的实际情况。复制文件管理器维护一个复制文件目录。以提供文件或文件组的逻辑名到其物理存储位置的映射关系。因此复制文件目录包含有三类信息：逻辑文件组、逻辑文件和物理位置信息。逻辑文件组是用户定义的一组文件，以使用户能方便和直观地把一组文件作为一个整体来注册和管理．同时又能减少复制文件目录中的被管条目．和对复制文件目录的操作数：物理位置信息包含映射一个逻辑文件组到其物理文件上所需要的所有信息，如主机名、端口号、访问协议等；逻辑文件则是有着全域唯一名称的实体，它可能对应存在一个或多个物理文件。一个数据网格可能包含有多个复制文件目录．一般是按照类目录结构的分层结构来实现。 3．2．3 复制文件选择和数据过滤应用程序在访问所需数据资源时．首先根据所需要数据的特性查询元数据库，以找到该数据资源对应的逻辑文件标识．再根据复制文件目录即可得到该逻辑文件对应的所有物理文件位置。这时就需要从所有的物理文件中选择一个最优访问性能供应用程序访问。复制文件选择服务是根据复制文件的位置信息和用户或应用程序的需要。从存储在不同存储系统中的复制文件中。选择一个性能最优的复制文件供应用访问的过程。在选择时。系统要收集一系列的信息，包括应用程序的要求、网络服务质量、存储系统的性能特性等。应用程序的要求包括：访问速度、延迟、安全性等；网络的服务质量包括：网络传输带宽、维持网络带宽的能力等：存储系统的特性包括：最大访问带宽、访问延迟、安全策略等。这些信息一般是通过网格信息服务(GIs)来获取。根据数据复制管理策略．若一个新的复制文件的访问性能会高于对现有文件的访问性能．复制选择过程可能会启动一个产生新复制文件的过程一个更高效的选择服务会考虑用户对一个文件子数据包的访问要求。如在科学实验中，通常会产生很大的数据文件，而某些应用程序可能只处理维普资讯 http://www.cqvip.com 6 微电子学与计算机 2003年第 4期这些数据中的部分子数据。这时，复制文件选择服务应只给应用程序提供原始数据文件中的部分子数据文件，以减少网络传输的数据量。该功能已在某些数据管理系统中实现，如STACS系统在高能物理应用中就采用了这种从大文件中提取子数据包的方法。该功能在实现时需要数据过滤或抽取程序，它能理解数据文件的结构，并从中产生出应用需要的子数据包。抽取出来的子数据包被存成文件，并有自己的元数据和物理特性，这些信息最终交给复制文件管理器。数据抽取功能在实现时需要能够重新组织数据、提取子数据包、并实现数据类型的转换等功能。 3．3 数据传输技术及协议研究 ’ 在数据网格环境中，通常需要较大量的网络数据访问和传输。同时数据网格中存在多种存储系统，它们有自己的协议或 API函数供用户访问，而这些协议或API往往是不同或不兼容的。因此在访问不同的存储系统时，必须采用多种访问方法，这降低了在不同存储系统之间传输数据的效率，并增加了用户使用的复杂性。为了实现数据在网格环境中安全、可靠、高效的传送，需要一种通用网格数据传输协议(GridFTP)。 GridFl'P应兼容现有的F．I 协议的实现，并按照数据网格环境下数据传输的特殊要求进行扩展。数据传送协议还应提供以下功能：。 (1)支持网格安全框架(GSI)。在传输和访问文件时，健壮和灵活的认证、完整性和机密性都是很关键的。Grid1~FP必须支持 GSI和密钥认证，同时用户要能设置不同的数据完整性和机密性级别。 (21支持第三方控制数据传输。为了管理大规模分布的数据，需要提供第三方控制的，在不同存储系统之间的数据传输功能。 (3)并行数据传输。利用多 TCP流来提高总的传输带宽。 (4)数据分割传输。通过多个服务器分割传输数据可以极大的提高总的数据传输带宽。 (5)部分文件传输。许多应用只需要某文件中的部分数据，因此只传输应用需要的该部分数据可以减少总的传输量。由于标准的FrP协议在传输数据时需要传输整个文件，因此 Grid肿需要采用新的方法来实现部分文件的传输。 (6)自动调整 TCP缓冲及窗口大小。采用优化设置 TCP缓冲及窗口大小可以较大的影响数据传输性能。GridFYP应当扩展标准 F1’P命令集和数据通道协议，以支持手工设置或自动调整 TCP缓冲大小，以适应较大文件和大容量的文件集。 (7)支持可靠数据传输。应对用户屏蔽数据传输中发生的错误，采用出错重传等方法来实现透明的网络故障等。标准兀P协议中已经包括了基本的出错重传等容错方法，但在具体的兀P实现中并没有得到广泛的实现，Grid兀P应当扩展并加强该功能。 3．4 存储资源代~(Storage Resource Broker) SRB圈是由美国 San Diego超级计算机中心提出并开发的一种数据网格管理技术，是一个基于C／S 结构的中间件，用于提供对不同类型存储设备的一致访问界面。它给用户提供了一组的API，以供用户访问广域网络上互连的各种异构数据资源。除了文件传输语义之外，SRB还给应用程序提供了根据数据特征来查找所需数据的功能。图 l是一个简单的 SRB结构，它主要包含三个通过网络互连的组件：元数据目录服务器(MCAT)、 SRB服务器、SRB客户端。MCAT存储元数据，SRB 用于管理用户和资源。MACT服务器处理来自SRB 服务器的请求，包括信息查询、产生新的元数据、元数据更新等。用户元数据／应用图 1 存储资源代理结构图应用程序通过一组 API向 SRB服务器发出请求和接收响应。SRB服务器执行用户的任务请求，包括：与 MCAT服务交互，执行 I／O操作等。客户使用相同的API访问由SRB管理的所有存储系统．这样 SRB服务器屏蔽了用户与各种类型的存储系统、操作系统、硬件结构等交互的复杂性。 SRB服务器的设计是基于 Client／Server模型的，它主要包含两种类型的服务：SRB Server和SRB Master。SRB Master守护进程用于不问断监听端口，等待客户端请求的到来。一旦从客户端的连接请求建立并得到确认，它将复制并执行一个 SRB Server 的拷贝——这里称作 SRB Agent，来进行服务。连接建立后，客户端将和 SRB Agent通过另一介端口继续通信，SRB Master继续监听原来的端口。客户端应用程序与 SRB Agent通过 TCP， Socket使用一组API进行通信。 ( < 维普资讯 http://www.cqvip.com 2003年第4期微电子学与计算机 7 在SRB的具体实现中，使用一组分布协作的 sRB服务器来对客户请求进行响应。采用这种服务器组的实现方式，是基于以下原因的： (1)系统整体结构的需要。不同的存储系统运行在不同的主机上，这种分布式的环境需要采用分布式的SRB服务器。 (21提高了系统整体性能。单一的 SRB服务器可能成为分布式系统的瓶颈。 (31提高了系统的可靠性和可用性。数据可以在不同的存储系统和不同的主机之间复制和备份。通过与数据分割功能相结合，SRB可以实现远程数据过滤的功能。在最新的 SRB客户端函数库中已经增加了9个实现数据分割功能的API函数。 3．5 数据分割(DataCutter)技术 D taCutte 是由美国 Maryland大学计算机系提出并开发的一种技术。其目的是在数据网格环境中，实现对远程数据包中子数据包进行访问。在数据网格环境下，存储系统中的数据文件可能非常巨大．而异地用户可能只对该大文件数据中的某一部分子数据感兴趣。DataCutter通过从大数据文件中选择并过滤出用户真正需要的部分数据。并实际只传输该部分子数据包，从而大大减少网络上数据的传送量，进而提高数据网格系统的整体性能。具体来说。它能够通过多方面的范围查询、用户定义的过滤操作、以及面向应用的聚合，而将一个大容量的科学数据包划分成子数据包，并支持用户对该子数据包的访问。 DataCutter提供了一组服务供用户使用．也可与其它数据网格服务，如元数据管理、资源管理、认证服务等相结合，以实现更完善的网格服务。为在 DataCutter框架内高效利用分布的共享资源，DataCutter将应用程序结构分解成一组进程，称作“Filters”。并利用这些分布的进程来执行列查询和应用级数据传送，如图2所示。客户查询数据结果数据结果分隔信息图 2 DataCutter系统结构图 DataCutter作为一组模块化的服务来实现。客户界面服务提供了客户 API。数据访问服务提供了访问存储器的底层 I／O支持。Filtering服务和索引服务利用数据访问服务从存储系统中读取数据和索引信息。索引服务管理 DataCutter中的索引和检索方法。Filtering服务管理 Filters以实现应用级的数据操作。 Maryland大学已利用 C／C++实现了 DataCutter 服务的原型。该原型中数据访问服务提供了与 HPSS和 Unix文件系统的接口，索引服务使用 R— tree作为默认的检索方法。在最新的 SRB系统中也给用户提供了支持 DataCutter功能的API函数。 3．6 数据网格体系结构设计数据网格体系结构设计就是考虑如何将各种数据网格服务组织起来，成为一个高效的系统，并以怎样的方式或界面供用户或应用程序来使用。、数据网格在进行体系结构设计时。必须考虑与一般网格框架之间的关系。这是由于数据网格作为网格环境中数据管理功能的实现，要建立在一般的网格框架之上，即一方面数据网格的功能要利用其它一些网格服务来实现，如安全服务、资源调度服务、性能与信息服务等：另一方面某些网格服务的实现，也要利用数据阿格服务所提供的功能。在目前的研究项目中，数据网格都是按照分层结构来实现的。在底层，主要考虑对底层资源和中间件的管理，考虑如何高性能的实现数据访问等基本功能，而不过多地考虑某个专门的应用策略。如在实现数据移动功能时，系统底层只考虑如何高速的实现数据移动，并给上层提供一些系统接口。包括出错处理接口等，而并不过多的考虑存储系统出错的情况。系统结构的高层建立在底层机制之上，主要考虑面向应用的实现策略，并支持不同类型的使用。如考虑应用中可能出现的不同的编程模型和不同的访问方法。总之，这种分层结构是由一系列相关的、相互独立或相互依赖的服务所组成的。每一个服务实现一个专门的功能，并且在实现时可能要依赖于其他服务。 4 数据网格研究实例 4．1 Globus Data Grid Globus是目前最成功的网格研究项目。它开发了一系列的协议、服务、软件库、工具包等用于构建并实现一个网格环境平台。Globus数据网格r7】结构如图 3所示。 Globus数据网格从整体结构上分为两层：核心服务层和高层服务层，其中高层服务层建立在核心服务层之上，并使用核心服务服务层提供通用的底层机制，维普资讯 http://www.cqvip.com 8 微电子学与计算机 2003年第 4期高层服务复制文件选择复制文件管理回回核心服务存储系统ll元数据仓库。。’——’’’ 。⋯ 资源管理l 1安全服务l 1仪器设备l 。。。。。。。。。。‘‘。一 DPSS--HPSS LDAP-一MCAT LSF一一DIFFSERV Kerberos NWS-一Nedogger 数据网络特有的服务普通网络服务图 3 Globus数据网络结构图的存储系统。以供高层服务和应用通过一致的方式来访问这些系统。其核心服务包括： (1)存储系统和数据访问。提供异构存储系统的基本数据访问和管理机制，包括创建、删除、读取和修改远程文件。可以支持 Unix、HPSS fHigh Perfor- mance Storage System)。或其它复杂的系统，如 SRB。 f2】元数据访问。提供访问和管理元数据的机制。系统高层服务主要为复制文件选择和复制文件管理。复制文件管理服务提供在某个具体的存储系统中创建和删除复制文件的功能。并维护复制文件位置地址的目录。应用程序可以使用复制文件选择服务来从复制文件目录中选择一个文件。 Gloubs数据网格项目也开发了 GridFTP协议。它是对标准 FTP协议的扩展。并支持网格环境下数据的安全、高效传输。 4．2 Euro Data Grid 欧洲数据网格is]项目的最终目标是开发适应下一代科学研究要求的科研环境。该项目的研究人员认为下一代科研工作的特点包括：需要很高的计算性能，需要处理和共享大规模的数据(T，甚至 P字节容量)，跨广域的分布式科学团体协作等。这些要求目前已经在许多科学领域的研究工作中表现出来了，包括物理学、生物学、地球科学等。这些研究工作中，所用资源的分布性特点、研究团体的分布属性、数据库的大容量、有限的可用带宽等都使得资源共享变得更为复杂。该项目建立在现有的计算网格技术(如 Globus) 之上。其长远目标包括： (1)建立一个试验床(Testbed)，以研究和开发建立全球域数据网格所需要的技术。 (2)通过开发和实际用户参加的应用试验。论证这种新技术的有效性。 (3)采用低代价的通用设备构建数据密集型计算机群，以论证构建、互联和高效管理大规模数据网格的可行性。从技术角度。该项目要实现的目标主要包括： ·计算资源管理。包括网格框架。本地计算组件管理和大容量存储器管理。 ·数据网格服务。提供工作负载调度。数据移动和网格监控服务等。 ·利用现有的科学研究应用进行测试和评价。包括三个主要的应用领域：高能物理、地球观测和生物学研究。 Euro Data Grid分五个子项目：工作负载管理、数据管理、监测服务、底层设备管理、大规模存储管理。每一个子项目都实现网格中间件的某些功能。其试验床连接了跨越欧洲的几个主要实验室．从而为应用提供了一个大规模的实验环境。现有的三个学科的应用软件将根据数据网格软件进行相应的修改。并用于对实验床的测试。包括测试系统的功能、性能和质量。图 4说明了 Eruopean数据网格的数据管理机制。中间层服务I数据动器，、0 ’- f数据访问器I l 数据定位器I l I I ● ．存储理器卜＼效据臂理器l I I本地文件系统I 其它大规模存储管理系统图 4 European数据网格的数据管理结构图复制文件管理器管理文件和元数据在分布、分层的数据缓冲中的多份拷贝。它使用数据移动器来实现文件在不同存储系统之间的传输。数据移动器使用数据访问器和数据定位器将文件的逻辑标识映射到物理标识。数据访问器给用户提供了访问界面，以屏蔽本地文件系统和其它存储系统的细节。数据定位器使用元数据管理器来确定文件的具体位置。查询优化和访问模式管理根据元数据信息。对一个给定的查询请求。产生最优的迁移和复制文件执行计划。数据访问的粒度可以是文件级的或是数据集级的，数据集指一系列逻辑相关的文件。 4．3 Grid Physics Network Project Grid Physics Network(GriPhyN)tg]是建立一个数据网格以协作处理各种物理实验的所获数据。目前主要是为处理从 CMS和 ATIAS实验获得的数据这些试验主要来自于 LHC fLarge HlIdmn Collider)、 UGO(Laser Interferometer Gravitational Observatory) 和 SDSS(Sloan Digital Sky Survey)。维普资讯 http://www.cqvip.com 2003年第 4期微电子学与计算机 9 该项目的最终目标是建立一个大规模、广域的 PVDG(Petascale Virtual Data Grids)以适应跨全球域、集合了成千上百科研人员参加的数据密集型应用研究的需要，技术特点包括： (1)虚拟数据技术。采用一种新的方法以分类、标示、确认和归档软件组件实现虚拟的数据处理。 f2)数据和计算资源的策略驱动请求和调度策略。包括采用基于策略的资源发现技术。 (3)在广域范围的虚拟组织上实现事务管理和任务执行，满足用户对性能、可靠性和代价的要求。目前。该项目已开发了与应用无关的“虚拟数据工具包”，它是一组虚拟数据服务和工具包，以供用户构建数据网格。该工具包的结构如图 5所示。应用工具包服务基础设备与其它系统结合以提高应用级性能图 5 GriPhyN的虚拟数据工具包结构图该工具包通过一组虚拟数据服务对用户封装了底层细节和具体的硬件结构。开放性是该工具包的一个重要特点．它可以与其它在某些方面性能更优的网格工具包(如 Condor、Globus Toolkits等)结合使用，以实现更高效的其他网格服务，如存储管理、并行 I，o、高速数据移动、策略表述、数据库访问、认证和授权、可扩展对象技术等。 4．4 Earth System Gm Earth System[。0l数据网格是由四个 DOE实验室 (ANL、LANL、LBNL、U L)及 NSF和两个大学(Uni． versity of Wisconsin、University of Southern Califor- nis)合作建立，目的是为了支持对远程分布式大规模气候模型数据库的高速访问。该数据网格建立在现有的技术(DPSS、Globus等)之上，以开发一个新的 “智能化”的中间件，实现分布式数据管理、高性能数据传输、计算组件的远程执行等。 Earth System数据网格的原始数据主要分布在磁盘缓冲和磁带系统中。为了跟踪数据的物理位置，系统采用了元数据目录和一个分布的缓冲管理系统。应用程序需要数据时，向本地的代理(称查询监视器1发送数据请求。查询监视器首先访问本地的元数据目录，如果所需数据不在本地，它将广播该数据请求到所有的其他元数据目录。由所需数据的元数据目录将响应该查询监视器。查询监视器通过查询 Globus网络服务获得当前网络信息．并确定从那个物理位置获取所需数据。如果数据不在磁盘缓冲中。系统首先将数据从磁带传送到磁盘缓冲中。图 6为该数据网格的数据管理服务结构图。图 6 Earth System Grid中数据臂理服务 Earth System采用 DPSS来实现数据传输功能：采用 SRB的全局命名方法来标识数据资源：采用 GSI的安全和访问控制机制来保证系统的安全：采用 GASS的数据迁移机制来实现高效的数据迁移。该系统的一个特色是提供了远程计算的机制。包括：定位合适的计算机和数据源：判断其可用性和性能特性；定位、构建和传送远程可执行环境；初始化远程计算；在组件之间传输数据等。在实现该服务时，使用了 Globus的安全、资源管理、计算管理和通信等服务。 5 结束语数据网格除了上面论述的功能之外。还应包括其他一些功能，如：资源保持和协作机制f端对端的资源性能保证)；关键资源的性能测量与评估；可视化的数据网格使用界面和工具包：知识管理和资源发现；远程数据管理等。传统的集中式计算模式，正逐步发展成为能聚集更多计算和数据资源的网格计算模式。而数据网格作为网格环境下，数据管理和共享的新型体系结构，正逐渐成为网格研究中的重点之一。参考文献【l】Ian Foster,Carl KesselmAn·The Grid：strum,for a New (下转簟瑟页) ～骚维普资讯 http://www.cqvip.com 2003年第 4期微电子学与计算机 13 的工作是把被校验水表安装在校验台上，确认系统正常后．按“检验开始键” 通知技术人员。 6 结束语本校验系统采用了嵌入式 Web服务器技术，系统的稳定性、可靠性大大提高，远程管理端的计算机不需要应用软件，只要通过浏览器就可以实现远程管理和设置，包括软件升级，也不会受到计算机病毒的危害。系统的软件和硬件都采用了模块化结构，功能扩充和裁减都比较容易，具有较强的适应能力。系统的测控卡不用做硬件修改，在软件结构和功能上适当修改．就可以用在注水站或集油站充当基于 Web的智能计量仪表，还可用到任何使用涡轮里流量计的场合。该系统投入运行以来运行情况良好．根据初步统计，可以提高工作效率 80％，保证了校验质量．节省了时间和送检费用，取得了较好的经济效益。参考文献 [1】Douglas E Comer[美】著，张娟等译．用 TCP／IP进行网际互联(第二卷)．电子工业出版社． [2】雷震甲．计算机网络．西安电子科技大学出版社． [3】DOS Lnternet Programming APIs．http：／／drhe．topeoo1．net／ programm／net／inetlibe ．him [4】PPP＆Internet Applications for DOS．http：／／www．tropinet． com／ppp．html HE Peng-ju。，CHEN Ming。，CHANG Yan-rongL WANG Wan—cheng。 ‘(Northwestern Polytechnical University，Xi’an 710072) 。(Factory of Changqing Oil Company，Yinehuan 750006) Abstract： 111e main function and principle of checking water meter whioh used in oil fields is introduced， and the tttruculre of the check system is also given． and how to u辩 embedded Web server completed checking the injecting water m魄er in the remote place are described． Key words：Injecting water meter,Automatic check，Remote control。Embedded Web server 何鹏举陈明常颜荣王万诚西北工业大学自动化控制系博士研究生。西北工业大学自动化控制系博士生导师。长庆油田公司第三采油厂总工程师。西北工业大学计算机系博士研究生。 (上接第9页) Computing Infrastructure．San Francisco，CA：Morgan Kauf- mann．1999． [2】Global Grid Forum．http：llwww．gridforum org [3】Ann Chervenak，Ian Foster,Carl Kesselman et a1．111e data d： Towards an architecture for the distributed manage— ment and analysis of large scientific datasets． Journal of Network and Computer Applications，2002(23)：187-200． [4】Heinz Stockinger,Asad Samar,Ian Foster．File and Object Replication in Data Grids．Proc．10th Int1．Symp．On Hish Performance Distributed Computing，IEEE Press，2001． [5】http：llwww．npaci．edu／dice／srb [6】DataCutter Project．http：／／www．CS．umd．edu／projects／hpsPre． serachareaa／datacutter．htm [7】Globns Project．http：llwww．globus．org [8】Euro Data Grid Project，http：llwww．cern．ch／grid [9】Grid Physics Network Project．http：／／www．griphyn．org [10】Earth System Grid．http：／／www．scd．near．edu／css／esg [1l】Bill Allcock，Joe Bester,John Bresnahan，hn Foster．Se． cure， Efficient Data Transport and Replica Man agement for Hish-Performance Data-intensive Computing． He Ge，XU Zhi-wei(Software Division，Institute of Computing Technology，Chinese Academy of Science，Beijing 10008O) Abstract： Data d architecture provides alar学e-1}cak， seal- able infrastructure for the management of storage l~gom an d data that are distributed ~rog8 d environments．Based on the requirement to data sharing and marIagiIlg of data-intensive computing application，it provides the meckmi栅陷 for nj嘲唧岍 enfly remote accessing to heterogeneous data resoul~os． This paper analysis the research background,principles following in developing a design for the data d architecture firstly, then deeply studies the key technologies when designing a data finally analysis and compares several successful data d re- search project． Key words： Grid，Data grid，Data—intensive computing,Data sharing 何戈男，(1976-)，博士研究生。研究方向为高性能计算与网格计算技术。徐志伟男，(1956-)，博士，研究员，博士生导师。研究方向为网格计算技术、机群操作系统、高性能服务器体系结构和安全操作系统。一 } 维普资讯 http://www.cqvip.com

                    本文档为【数据网格技术研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据网格技术研究

你可能还喜欢