首页 国内第一本深入剖析云计算技术的教材《云计算》

国内第一本深入剖析云计算技术的教材《云计算》

举报
开通vip

国内第一本深入剖析云计算技术的教材《云计算》 第 1 章 绪论 1 1 第 1 章 绪论 很少有一种技术能够像“云计算”这样,在短短的两年间就产生巨大的影响力。 Google、亚马逊、IBM 和微软等 IT 巨头们以前所未有的速度和规模推动云计算技术和产 品的普及,一些学术活动迅速将云计算提上议事日程,支持和反对的声音不绝于耳。那 么,云计算到底是什么?发展现状如何?它的实现机制是什么?它与网格计算是什么关 系?。本章将分析这些问题,目的是帮助读者对云计算形成一个初步认识。 1.1 云计算的概念 云计算(Cl...

国内第一本深入剖析云计算技术的教材《云计算》
第 1 章 绪论 1 1 第 1 章 绪论 很少有一种技术能够像“云计算”这样,在短短的两年间就产生巨大的影响力。 Google、亚马逊、IBM 和微软等 IT 巨头们以前所未有的速度和规模推动云计算技术和产 品的普及,一些学术活动迅速将云计算提上议事日程,支持和反对的声音不绝于耳。那 么,云计算到底是什么?发展现状如何?它的实现机制是什么?它与网格计算是什么关 系?。本章将分析这些问题,目的是帮助读者对云计算形成一个初步认识。 1.1 云计算的概念 云计算(Cloud Computing)是在 2007 年第 3 季度才诞生的新名词,但仅仅过了半年 多,其受到关注的程度就超过了网格计算(Grid Computing),如图 1-1 所示。 云计算 网格计算 搜索量指数 Google Tronds 图 1-1 云计算和网格计算在 Google 中的搜索趋势 然而,对于到底什么是云计算,至少可以找到 100 种解释,目前还没有公认的定义。 本书给出一种定义,供读者参考。 云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用 户能够按需获取计算力、存储空间和信息服务。 这种资源池称为“云”。“云”是一些可以自我维护和管理的虚拟计算资源,通常是一 些大型服务器集群,包括计算服务器、存储服务器和宽带资源等。云计算将计算资源集中 起来,并通过专门软件实现自动管理,无需人为参与。用户可以动态申请部分资源,支持 各种应用程序的运转,无需为烦琐的细节而烦恼,能够更加专注于自己的业务,有利于提 高效率、降低成本和技术创新。云计算的核心理念是资源池,这与早在 2002 年就提出的 网格计算池(Computing Pool)的概念非常相似[3][4]。网格计算池将计算和存储资源虚拟成 为一个可以任意组合分配的集合,池的规模可以动态扩展,分配给用户的处理能力可以动 态回收重用。这种模式能够大大提高资源的利用率,提升平台的服务质量。 之所以称为“云”,是因为它在某些方面具有现实中云的特征:云一般都较大;云的 Administrator Highlight Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 2 云计算 2 规模可以动态伸缩,它的边界是模糊的;云在空中飘忽不定,无法也无需确定它的具体位 置,但它确实存在于某处。之所以称为“云”,还因为云计算的鼻祖之一亚马逊公司将大 家曾经称为网格计算的东西,取了一个新名称“弹性计算云”(Elastic Computing Cloud),并取得了商业上的成功。 有人将这种模式比喻为从单台发电机供电模式转向了电厂集中供电的模式。它意味着 计算能力也可以作为一种商品进行流通,就像煤气、水和电一样,取用方便,费用低廉。 最大的不同在于,它是通过互联网进行传输的。 云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网 格计算(Grid Computing)的发展,或者说是这些计算科学概念的商业实现。云计算是虚 拟化(Virtualization)、效用计算(Utility Computing)、将基础设施作为服务 IaaS (Infrastructure as a Service)、将平台作为服务 PaaS(Platform as a Service)和将软件作为 服务 SaaS(Software as a Service)等概念混合演进并跃升的结果。 从研究现状上看,云计算具有以下特点。 1)超大规模。“云”具有相当的规模,Google 云计算已经拥有 100 多万台服务器, 亚马逊、IBM、微软和 Yahoo 等公司的“云”均拥有几十万台服务器。“云”能赋予用户 前所未有的计算能力。 2)虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来 自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解 应用运行的具体位置,只需要一台笔记本或一个 PDA,就可以通过网络服务来获取各种 能力超强的服务。 3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务 的高可靠性,使用云计算比使用本地计算机更加可靠。 4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应 用,同一片“云”可以同时支撑不同的应用运行。 5)高可扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。 6)按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样 计费。 (7)极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云;“云” 的自动化管理使数据中心管理成本大幅降低;“云”的公用性和通用性使资源的利用率大 幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云” 具有前所未有的性能价格比。Google 中国区前总裁李开复称,Google 每年投入约 16 亿美 元构建云计算数据中心,所获得的能力相当于使用传统技术投入 640 亿美元,节省了 40 倍的成本。因此,用户可以充分享受“云”的低成本优势,需要时,花费几百美元、一天 时间就能完成以前需要数万美元、数月时间才能完成的数据处理任务。 云计算按照服务类型大致可以分为三类:将基础设施作为服务 IaaS、将平台作为服务 PaaS 和将软件作为服务 SaaS,如图 1-2 所示。 IaaS 将硬件设备等基础资源封装成服务供用户使用,如亚马逊云计算 AWS(Amazon Web Services)的弹性计算云 EC2 和简单存储服务 S3。在 IaaS 环境中,用户相当于在使 用裸机和磁盘,既可以让它运行 Windows,也可以让它运行 Li nux,因而几乎可 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 第 1 章 绪论 3 3 将软件作为服务 SaaS(Software as a Service) 如:Salesforce online CRM 专 用 通 用 将平台作为服务 PaaS(Platform as a Service) 将基础设施作为服务 IaaS(Infrastructure as a Service) 如:Google App Engine Microsoft Windows Azure 如:Amazon EC2/S3 图 1-2 云计算的服务类型 以做任何想做的事情,但用户必须考虑如何才能让多台机器协同工作起来。AWS 提供了 在节点之间互通消息的接口简单队列服务 SQS(Simple Queue Service)。IaaS 最大的优势 在于它允许用户动态申请或释放节点,按使用量计费。运行 IaaS 的服务器规模达到几十 万台之多,用户因而可以认为能够申请的资源几乎是无限的。同时,IaaS 是由公众共享 的,因而具有更高的资源使用效率。 PaaS 对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如 Google App Engine。微软的云计算操作系统 Microsoft Windows Azure 也可大致归入这一 类。PaaS 自身负责资源的动态扩展和容错管理,用户应用程序不必过多考虑节点间的配 合问题。但与此同时,用户的自主权降低,必须使用特定的编程环境并遵照特定的编程模 型。这有点像在高性能集群计算机里进行 MPI 编程,只适用于解决某些特定的计算问 题。例如,Google App Engine 只允许使用 Python 和 Java 语言、基于称为 Django 的 Web 应用框架、调用 Google App Engine SDK 来开发在线应用服务。 SaaS 的针对性更强,它将某些特定应用软件功能封装成服务,如 Salesforce 公司提供 的在线客户关系管理 CRM(Client Relationship Management)服务。SaaS 既不像 PaaS 一 样提供计算或存储资源类型的服务,也不像 IaaS 一样提供运行用户自定义应用程序的环 境,它只提供某些专门用途的服务供应用调用。 需要指出的是,随着云计算的深化发展,不同云计算解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 之间相互渗透融合,同 一种产品往往横跨两种以上类型。例如,Amazon Web Services 是以 IaaS 发展的,但新提 供的弹性 MapReduce 服务模仿了 Google 的 MapReduce,简单数据库服务 SimpleDB 模仿 了 Google 的 Bigtable,这两者属于 PaaS 的范畴,而它新提供的电子商务服务 FPS 和 DevPay 以及网站访问统计服务 Alexa Web 服务,则属于 SaaS 的范畴。 1.2 云计算发展现状 由于云计算是多种技术混合演进的结果,其成熟度较高,又有大公司推动,发展极为 迅速。Google、亚马逊、IBM、微软和 Yahoo 等大公司是云计算的先行者。云计算领域的 众多成功公司还包括 VMware、Salesforce、Facebook、YouTube、MySpace 等。 亚马逊研发了弹性计算云 EC2(Elastic Computing Cloud)和简单存储服务 S3 (Simple Storage Service)为企业提供计算和存储服务。收费的服务项目包括存储空间、带 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 4 云计算 4 宽、CPU 资源以及月租费。月租费与电话月租费类似,存储空间、带宽按容量收费,CPU 根据运算量时长收费。在诞生不到两年的时间内,亚马逊的注册用户就多达 44 万人,其 中包括为数众多的企业级用户。 Google 是最大的云计算技术的使用者。Google 搜索引擎就建立在分布在 200 多个站 点、超过 100 万台的服务器的支撑之上,而且这些设施的数量正在迅猛增长。Google 的 一系列成功应用平台,包括 Google 地球、地图、Gmail、Docs 等也同样使用了这些基础 设施。采用 Google Docs 之类的应用,用户数据会保存在互联网上的某个位置,可以通过 任何一个与互联网相连的终端十分便利地访问和共享这些数据。目前,Google 已经允许 第三方在 Google 的云计算中通过 Google App Engine 运行大型并行应用程序。Google 值得 称颂的是它不保守,它早已以发表学术论文的形式公开其云计算三大法宝:GFS、 MapReduce 和 Bigtable,并在美国、中国等高校开设如何进行云计算编程的课程。相应 的,模仿者应运而生,Hadoop 是其中最受关注的开源项目。 IBM 在 2007 年 11 月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买 即用的云计算平台。它包括一系列自我管理和自我修复的虚拟化云计算软件,使来自全球 的应用可以访问分布式的大型服务器池,使得数据中心在类似于互联网的环境下运行计 算。IBM 正在与 17 个欧洲组织合作开展名为 RESERVOIR 的云计算项目,以“无障碍的 资源和服务虚拟化”为口号,欧盟提供了 1.7 亿欧元作为部分资金。2008 年 8 月,IBM 宣 布将投资约 4 亿美元用于其设在北卡罗来纳州和日本东京的云计算数据中心改造,并 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 2009 年在 10 个国家投资 3 亿美元建设 13 个云计算中心。 微软紧跟云计算步伐,于 2008 年 10 月推出了 Windows Azure 操作系统。Azure(译 为“蓝天”)是继 Windows 取代 DOS 之后,微软的又一次颠覆性转型——通过在互联网 架构上打造新云计算平台,让 Windows 真正由 PC 延伸到“蓝天”上。Azure 的底层是微 软全球基础服务系统,由遍布全球的第四代数据中心构成。目前,微软已经配置了 220 个 集装箱式数据中心,包括 44 万台服务器。 在我国,云计算发展也非常迅猛。2008 年,IBM 先后在无锡和北京建立了两个云计算 中心;世纪互联推出了 CloudEx 产品线,提供互联网主机服务、在线存储虚拟化服务等; 中国移动研究院已经建立起 1024 个 CPU 的云计算试验中心;解放军理工大学研制了云存 储系统 MassCloud,并以它支撑基于 3G 的大规模视频监控应用和数字地球系统。作为云计 算技术的一个分支,云安全技术通过大量客户端的参与和大量服务器端的统计分析来识别 病毒和木马,取得了巨大成功。瑞星、趋势、卡巴斯基、McAfee、Symantec、江民、 Panda、金山、360 安全卫士等均推出了云安全解决方案。值得一提的是,云安全的核心思 想,与早在 2003 年就提出的反垃圾邮件网格非常接近[5]。2008 年 11 月 25 日,中国电子学 会专门成立了云计算专家委员会。2009 年 5 月 22 日,中国电子学会隆重举办首届中国云计 算大会,1200 多人与会,盛况空前。2009 年 11 月 2 日,中国互联网大会专门召开了 “2009 云计算产业峰会”。2009 年 12 月,中国电子学会举办了中国首届云计算学术会议。 2010 年 5 月,中国电子学会将举办第二届中国云计算大会。 1.3 云计算实现机制 由于云计算分为 IaaS、PaaS 和 SaaS 三种类型,不同的厂家又提供了不同的解决方 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 第 1 章 绪论 5 5 案,目前还没有一个统一的技术体系结构,对读者了解云计算的原理构成了障碍。为此, 本书综合不同厂家的方案,构造了一个供参考的云计算体系结构。这个体系结构如图 1-3 所示,它概括了不同解决方案的主要特征,每一种方案或许只实现了其中部分功能,或许 也还有部分相对次要功能尚未概括进来。 管理中间件 资源管理 任务管理 用户管理 负载均衡 故障检测 映像部署和管理 使用计费 用户环境配置 用户交互管理 故障恢复 监视统计 账号管理 安 全 管 理 访问 授权 个人房产授权委托书公司各类授权委托书模版医师授权办法餐饮分店授权书产品代理授权书范本 综合防护 安全审计 服务接口 服务注册 服务查找 服务访问 服务工作流 SOA 构建层 计算资源池 资源池 计算机 存储器 数据库 物理资源 存储资源池 网络资源池 数据资源池 软件资源池 软件 网络设施 身份认证 任务执行 任务调度 生命期管理 图 1-3 云计算技术体系结构 云计算技术体系结构分为四层:物理资源层、资源池层、管理中间件层和 SOA (Service-Oriented Architecture,面向服务的体系结构)构建层。物理资源层包括计算机、 存储器、网络设施、数据库和软件等。资源池层是将大量相同类型的资源构成同构或接近 同构的资源池,如计算资源池、数据资源池等。构建资源池更多的是物理资源的集成和管 理工作,例如研究在一个 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 集装箱的空间如何装下 2000 个服务器、解决散热和故障节 点替换的问题并降低能耗。管理中间件层负责对云计算的资源进行管理,并对众多应用任 务进行调度,使资源能够高效、安全地为应用提供服务。SOA 构建层将云计算能力封装 成标准的 Web Services 服务,并纳入到 SOA 体系进行管理和使用,包括服务接口、服务 注册、服务查找、服务访问和服务工作流等。管理中间件层和资源池层是云计算技术的最 关键部分,SOA 构建层的功能更多依靠外部设施提供。 云计算的管理中间件层负责资源管理、任务管理、用户管理和安全管理等工作。资源 管理负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽之,并对资源的使用 情况进行监视统计;任务管理负责执行用户或应用提交的任务,包括完成用户任务映象 (Image)的部署和管理、任务调度、任务执行、任务生命期管理等;用户管理是实现云计 算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建 用户程序的执行环境、对用户的使用进行计费等;安全管理保障云计算设施的整体安全, 包括身份认证、访问授权、综合防护和安全审计等。 基于上述体系结构,本书以 IaaS 云计算为例,简述云计算的实现机制,如图 1-4 所示。 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 6 云计算 6 图 1-4 简化的 IaaS 实现机制图 用户交互接口向应用以 Web Services 方式提供访问接口,获取用户需求。服务目录是 用户可以访问的服务清单。系统管理模块负责管理和分配所有可用的资源,其核心是负载 均衡。配置工具负责在分配的节点上准备任务运行环境。监视统计模块负责监视节点的运 行状态,并完成用户使用节点情况的统计。执行过程并不复杂,用户交互接口允许用户从 目录中选取并调用一个服务,该请求传递给系统管理模块后,它将为用户分配恰当的资 源,然后调用配置工具为用户准备运行环境。 1.4 网格计算与云计算 网格(Grid)是 20 世纪 90 年代中期发展起来的下一代互联网核心技术。网格技术的 开创者 Ian Foster 将之定义为“在动态、多机构参与的虚拟组织中协同共享资源和求解问 题”[6]。网格是在网络基础之上,基于 SOA,使用互操作、按需集成等技术手段,将分散 在不同地理位置的资源虚拟成为一个有机整体,实现计算、存储、数据、软件和设备等资 源的共享,从而大幅提高资源的利用率,使用户获得前所未有的计算和信息能力。 国际网格界致力于网格中间件、网格平台和网格应用建设。就网格中间件而言,国外 著名的网格中间件有 Globus Toolkit、UNICORE、Condor、gLite 等,其中 Globus Toolkit 得 到了广泛采纳。就网格平台而言,国际知名的网格平台有 TeraGrid、EGEE、CoreGRID、 D-Grid、ApGrid、Grid3、GIG 等。美国 TeraGrid 是由美国国家科学基金会计划资助构建 的超大规模开放的科学研究环境。TeraGrid 集成了高性能计算机、数据资源、工具和高端 实验设施。目前 TeraGrid 已经集成了超过每秒 750 万亿次计算能力、30PB 数据,拥有超 过 100 个面向多种领域的网格应用环境。欧盟 e-Science 促成网格 EGEE(Enabling Grids for E-sciencE),是另一个超大型、面向多种领域的网格计算基础设施。目前已有 120 多个 机构参与,包括分布在 48 个国家的 250 个网格站点、68000 个 CPU、20PB 数据资源,拥 有 8000 个用户,每天平均处理 30000 个作业,峰值超过 150000 个作业。就网格应用而 言,知名的网格应用系统数以百计,应用领域包括大气科学、林学、海洋科学、环境科 Administrator Underline 第 1 章 绪论 7 7 学、生物信息学、医学、物理学、天体物理、地球科学、天文学、 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 学、社会行为学等。 我国在十五期间有 863 支持的中国国家网格(CNGrid,863-10 主题)和中国空间信 息网格(SIG,863-13 主题)、教育部支持的中国教育科研网格(ChinaGrid)、上海市支持 的上海网格(ShanghaiGrid)等。中国国家网格拥有包括香港地区在内的 10 个节点,聚合 计算能力为每秒 18 万亿次,目前拥有 408 个用户和 360 个应用。中国教育科研网格 ChinaGrid 连接了 20 所高校的计算设施,运算能力达每秒 3 万亿次以上,开发并实现了生 物信息、流体力学等五个科学研究领域的网格典型应用。十一五期间,国家对网格支持的 力度更大,通过 973 和 863、自然科学基金等途径对网格技术进行了大力支持。973 计划 有“语义网格的基础理论、模型与方法研究”等,863 计划有“高效能计算机及网格服务 环境”、“网格地理信息系统软件及其重大应用”等,国家自然科学基金重大研究计划有 “网络计算应用支撑中间件”等项目。 就像云计算可以分为 IaaS、PaaS 和 SaaS 三种类型一样,网格计算也可以分为三种类 型:计算网格、信息网格和知识网格[6]。计算网格的目标是提供集成各种计算资源的、虚 拟化的计算基础设施。信息网格的目标是提供一体化的智能信息处理平台,集成各种信息 系统和信息资源,消除信息孤岛,使得用户能按需获取集成后的精确信息,即服务点播 (Service on Demand)和一步到位的服务(One Click is Enough)。知识网格[8]研究一体化的 智能知识处理和理解平台,使得用户能方便地发布、处理和获取知识。 需要说明的是,目前大家对网格的认识存在一种误解,认为只有使用 Globus Toolkit 等知名网格中间件的应用才是网格。我们认为,只要是遵照网格理念,将一定 范围内分布的异构资源集成为有机整体,提供资源共享和协同工作服务的平台,均可以 认为是网格。这是因为,由于网格技术非常复杂,必然有一个从不规范到规范化的过 程,应该承认差异存在的客观性。虽然网格界从一开始就致力于构造能够实现全面互操 作的环境,但由于网格处于信息技术前沿、许多领域尚未定型、已发布的个别规范过于 复杂造成易用性差等原因,现有网格系统多针对具体应用采用适用的、个性化的框架设 计和实现技术等,造成网格系统之间互操作困难,这也是开放网格论坛 OGF(Open Grid Forum)提出建立不同网格系统互通机制计划 GIN(Grid Interoperation Now)的原 因。从另一个角度看,虽然建立全球统一的网格平台还有很长的路要走,但并不妨碍网 格技术在各种具体的应用系统中发挥重要的作用。 网格计算与云计算的关系如表 1-1 所示。 表 1-1 网格计算与云计算的比较 网 格 计 算 云 计 算 目标 共享高性能计算力和数据资源,实现资源共享和协同工作 提供通用的计算平台和存储空间,提供各种软件服务 资源来源 不同机构 同一机构 资源类型 异构资源 同构资源 资源节点 高性能计算机 服务器/PC 虚拟化视图 虚拟组织 虚拟机 计算类型 紧耦合问题为主 松耦合问题 应用类型 科学计算为主 数据处理为主 用户类型 科学界 商业社会 付费方式 免费(政府出资) 按量计费 标准化 有统一的国际标准 OGSA/WSRF 尚无标准,但已经有了开放云计算联盟 OCC Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 8 云计算 8 网格计算在概念上争论多年,在体系结构上有三次大的改变,在标准规范上花费了大 量的人力,所设定的目标又非常远大——要在跨平台、跨组织、跨信任域的极其复杂的异 构环境中共享资源和协同解决问题,所要共享的资源也是五花八门——从高性能计算机、 数据库、设备到软件,甚至知识。云计算暂时不管概念、不管标准,Google 云计算与亚 马逊云计算的差别非常大,云计算只是对它们以前所做事情新的共同的时髦叫法,所共享 的存储和计算资源暂时仅限于某个企业内部,省去了许多跨组织协调的问题。以 Google 为代表的云计算在内部管理运作方式上的简洁一如其界面,能省的功能都省略,Google 文件系统甚至不允许修改已经存在的文件,只允许在文件后追加数据,大大降低了实现难 度,而且借助其无与伦比的规模效应释放了前所未有的能量。 网格计算与云计算的关系,就像是 OSI 与 TCP/IP 之间的关系:国际标准化组织 (ISO)制定的 OSI(开放系统互联)网络标准,考虑得非常周到,也异常复杂,在多年之 前就考虑到了会话层和表示层的问题。虽然很有远见,但过于理想,实现的难度和代价非 常大。当 OSI 的一个简化版——TCP/IP 诞生之后,将七层协议简化为四层,内容也大大 精简,因而迅速取得了成功。在 TCP/IP 一统天下之后多年,语义网等问题才被提上议事 日程,开始为 TCP/IP 补课,增加其会话和表示的能力。因此,可以说 OSI 是学院派, TCP/IP 是现实派;OSI 是 TCP/IP 的基础,TCP/IP 又推动了 OSI 的发展。两者不是“成者 为王、败者为寇”,而是滚动发展。 没有网格计算打下的基础,云计算也不会这么快到来。云计算是网格计算的一种简化 实用版,通常意义的网格是指以前实现的以科学研究为主的网格,非常重视标准规范,也 非常复杂,但缺乏成功的商业模式。云计算是网格计算的一种简化形态,云计算的成功也 是网格的成功。网格不仅要集成异构资源,还要解决许多非技术的协调问题,也不像云计 算有成功的商业模式推动,所以实现起来要比云计算难度大很多。但对于许多高端科学或 军事应用而言,云计算是无法满足需求的,必须依靠网格来解决。 目前,许多人声称网格计算失败了,云计算取而代之了,这其实是一种错觉。网格计 算已经有十多年历史,不如刚兴起时那样引人注目是正常的。事实上,有些政府主导、范 围较窄、用途特定的网格,已经取得了决定性的胜利。代表性的有美国的 TeraGrid 和欧洲 的 EGEE 等,这些网格每天都有几十万个作业在上面执行。未来的科学研究主战场,将建 立在网格计算之上。在军事领域,美军的全球信息网格 GIG 已经囊括超过 700 万台计算 机,规模超过现有的所有云计算数据中心计算机总和。 相信不久的将来,建立在云计算之上的“商业 2.0”与建立在网格计算之上的“科学 2.0”都将取得成功。 参考文献 [1] Michael Armbrust, Armando Fox, and Rean Griffith, et al. Above the Clouds: A Berkeley View of Cloud Computing, mimeo, UC Berkeley, RAD Laboratory, 2009 [2] Ian Foster, Carl Kesselman, and Steve Tuecke. The Anatomy of the Grid: Enabling Scalable Virtual Organizations. International Journal of High Performance Computing Applications, 15(3), 2001 [3] 刘鹏. 提出一种实用的网格实现方式——网格计算池模型,2002 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Highlight Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline 第 1 章 绪论 9 9 http://www.chinagrid.net/show.aspx?id=1672&cid=57 [4] Peng Liu, Yao Shi, San-li Li, Computing Pool—a Simplified and Practical Computational Grid Model, the Second International Workshop on Grid and Cooperative Computing (GCC 2003), Shanghai, Dec 7-10, 2003, published in Lecture Notes in Computer Science (LNCS), Vol. 3032, Heidelberg: Springer-Verlag, 2004 [5] Peng Liu, Yao Shi, Francis C. M. Lau, Cho-Li Wang, San-Li Li, Grid Demo Proposal: AntiSpamGrid, IEEE International Conference on Cluster Computing, Hong Kong, Dec 1-4, 2003, selected as one of the excellent Grid research projects for the GridDemo session [6] 李国杰. 信息服务网格——第三代 Internet. 计算机世界, 2001 年第 40 期 [7] Foster, I., C. Kesselman, and S. Tuecke, The Anatomy of the Grid: Enabling Scalable Virtual Organizations. International Journal of High Performance Computing Applications, 2001. 15(3): p. 200-222 [8] H. Zhuge, The Knowledge Grid, World Scientific Publishing Co., Singapore, 2004 1 0 云计算 10 第 2 章 Google 云计算原理 Google 拥有全球最强大的搜索引擎。除了搜索业务以外,Google 还有 Google Maps、 Google Earth、Gmail、YouTube 等各种业务,包括刚诞生的 Google Wave。这些应用的共 性在于数据量巨大,而且要面向全球用户提供实时服务,因此 Google 必须解决海量数据 存储和快速处理问题。Google 的诀窍在于它发展出简单而又高效的技术,让多达百万台 的廉价计算机协同工作,共同完成这些前所未有的任务,这些技术是在诞生几年之后才被 命名为 Google 云计算技术。Google 云计算技术具体包括:Google 文件系统 GFS、分布式 计算编程模型 MapReduce、分布式锁服务 Chubby 和分布式结构化数据存储系统 Bigtable 等。其中,GFS 提供了海量数据的存储和访问的能力,MapReduce 使得海量信息的并行 处理变得简单易行,Chubby 保证了分布式环境下并发操作的同步问题,Bigtable 使得海量 数据的管理和组织十分方便。本章将对这四种核心技术进行详细介绍。 2.1 Google 文件系统 GFS Google 文件系统(Google File System,GFS)是一个大型的分布式文件系统。它为 Google 云计算提供海量存储,并且与 Chubby、MapReduce 以及 Bigtable 等技术结合十分 紧密,处于所有核心技术的底层。由于 GFS 并不是一个开源的系统,我们仅仅能从 Google 公布的技术文档来获得一点了解,而无法进行深入的研究。文献[1]是 Google 公布 的关于 GFS 的最为详尽的技术文档,它从 GFS 产生的背景、特点、系统框架、性能测试 等方面进行了详细的阐述。 当前主流分布式文件系统有 RedHat 的 GFS[3](Global File System)、IBM 的 GPFS[4]、 Sun 的 Lustre[5]等。这些系统通常用于高性能计算或大型数据中心,对硬件设施条件要求 较高。以 Lustre 文件系统为例,它只对元数据管理器 MDS 提供容错解决方案,而对于具 体的数据存储节点 OST 来说,则依赖其自身来解决容错的问题。例如,Lustre 推荐 OST 节点采用 RAID 技术或 SAN 存储区域网来容错,但由于 Lustre 自身不能提供数据存储的 容错,一旦 OST 发生故障就无法恢复,因此对 OST 的稳定性就提出了相当高的要求,从 而大大增加了存储的成本,而且成本会随着规模的扩大线性增长。 正如李开复所说的那样,创新固然重要,但有用的创新更重要。创新的价值,取决于 一项创新在新颖、有用和可行性这三个方面的综合表现。Google GFS 的新颖之处并不在 于它采用了多么令人惊讶的技术,而在于它采用廉价的商用机器构建分布式文件系统,同 时将 GFS 的设计与 Google 应用的特点紧密结合,并简化其实现,使之可行,最终达到创 意新颖、有用、可行的完美组合。GFS 使用廉价的商用机器构建分布式文件系统,将容错 的任务交由文件系统来完成,利用软件的方法解决系统可靠性问题,这样可以使得存储的 成本成倍下降。由于 GFS 中服务器数目众多,在 GFS 中服务器死机是经常发生事情,甚 至都不应当将其视为异常现象,那么如何在频繁的故障中确保数据存储的安全、保证提供 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Edited by Foxit Reader Copyright(C) by Foxit Corporation,2005-2009 For Evaluation Only. 第 2 章 Google 云计算原理 1 1 11 不间断的数据存储服务是 GFS 最核心的问题。GFS 的精彩在于它采用了多种方法,从多 个角度,使用不同的容错措施来确保整个系统的可靠性。 2.1.1 系统架构 GFS 的系统架构如图 2-1[1]所示。GFS 将整个系统的节点分为三类角色:Client(客户 端)、Master(主服务器)和 Chunk Server(数据块服务器)。Client 是 GFS 提供给应用程 序的访问接口,它是一组专用接口,不遵守 POSIX 规范,以库文件的形式提供。应用程 序直接调用这些库函数,并与该库链接在一起。Master 是 GFS 的管理节点,在逻辑上只 有一个,它保存系统的元数据,负责整个文件系统的管理,是 GFS 文件系统中的大脑。 Chunk Server 负责具体的存储工作。数据以文件的形式存储在 Chunk Server 上,Chunk Server 的个数可以有多个,它的数目直接决定了 GFS 的规模。GFS 将文件按照固定大小 进行分块,默认是 64MB,每一块称为一个 Chunk(数据块),每个 Chunk 都有一个对应 的索引号(Index)。 图 2-1 GFS 体系结构 客户端在访问 GFS 时,首先访问 Master 节点,获取将要与之进行交互的 Chunk Server 信息,然后直接访问这些 Chunk Server 完成数据存取。GFS 的这种设计方法实现了 控制流和数据流的分离。Client 与 Master 之间只有控制流,而无数据流,这样就极大地降 低了 Master 的负载,使之不成为系统性能的一个瓶颈。Client 与 Chunk Server 之间直接传 输数据流,同时由于文件被分成多个 Chunk 进行分布式存储,Client 可以同时访问多个 Chunk Server,从而使得整个系统 I/O 高度并行,系统整体性能得到提高。 相对于传统的分布式文件系统,GFS 针对 Google 应用的特点从多个方面进行了简 化,从而在一定规模下达到成本、可靠性和性能的最佳平衡。具体来说,它具有以下几个 特点。 1.采用中心服务器模式 GFS 采用中心服务器模式来管理整个文件系统,可以大大简化设计,从而降低实现难 度。Master 管理了分布式文件系统中的所有元数据。文件划分为 Chunk 进行存储,对于 Master 来说,每个 Chunk Server 只是一个存储空间。Client 发起的所有操作都需要先通过 Master 才能执行。这样做有许多好处,增加新的 Chunk Server 是一件十分容易的事情, Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Note chunk server Edited by Foxit Reader Copyright(C) by Foxit Corporation,2005-2009 For Evaluation Only. Administrator Note master Administrator Underline Administrator Markup set by Administrator 1 2 云计算 12 Chunk Server 只需要注册到 Master 上即可,Chunk Server 之间无任何关系。如果采用完全 对等的、无中心的模式,那么如何将 Chunk Server 的更新信息通知到每一个 Chunk Server,会是设计的一个难点,而这也将在一定程度上影响系统的扩展性。Master 维护了 一个统一的命名空间,同时掌握整个系统内 Chunk Server 的情况,据此可以实现整个系统 范围内数据存储的负载均衡。由于只有一个中心服务器,元数据的一致性问题自然解决。 当然,中心服务器模式也带来一些固有的缺点,比如极易成为整个系统的瓶颈等。GFS 采 用多种机制来避免 Master 成为系统性能和可靠性上的瓶颈,如尽量控制元数据的规模、 对 Master 进行远程备份、控制信息和数据分流等。 2.不缓存数据 缓存机制是提升文件系统性能的一个重要手段,通用文件系统为了提高性能,一般需 要实现复杂的缓存(Cache)机制。GFS 文件系统根据应用的特点,没有实现缓存,这是 从必要性和可行性两方面考虑的。从必要性上讲,客户端大部分是流式顺序读写,并不存 在大量的重复读写,缓存这部分数据对系统整体性能的提高作用不大;而对于 Chunk Server,由于 GFS 的数据在 Chunk Server 上以文件的形式存储,如果对某块数据读取频 繁,本地的文件系统自然会将其缓存。从可行性上讲,如何维护缓存与实际数据之间的一 致性是一个极其复杂的问题,在 GFS 中各个 Chunk Server 的稳定性都无法确保,加之网 络等多种不确定因素,一致性问题尤为复杂。此外由于读取的数据量巨大,以当前的内存 容量无法完全缓存。对于存储在 Master 中的元数据,GFS 采取了缓存策略,GFS 中 Client 发起的所有操作都需要先经过 Master。Master 需要对其元数据进行频繁操作,为了提高操 作的效率,Master 的元数据都是直接保存在内存中进行操作;同时采用相应的压缩机制降 低元数据占用空间的大小,提高内存的利用率。 3.在用户态下实现 文件系统作为操作系统的重要组成部分,其实现通常位于操作系统底层。以 Linux 为 例,无论是本地文件系统如 Ext3 文件系统,还是分布式文件系统如 Lustre 等,都是在内 核态实现的。在内核态实现文件系统,可以更好地和操作系统本身结合,向上提供兼容的 POSIX 接口。然而,GFS 却选择在用户态下实现,主要基于以下考虑。 1)在用户态下实现,直接利用操作系统提供的 POSIX 编程接口就可以存取数据,无 需了解操作系统的内部实现机制和接口,从而降低了实现的难度,并提高了通用性。 2)POSIX 接口提供的功能更为丰富,在实现过程中可以利用更多的特性,而不像内 核编程那样受限。 3)用户态下有多种调试工具,而在内核态中调试相对比较困难。 4)用户态下,Master 和 Chunk Server 都以进程的方式运行,单个进程不会影响到整 个操作系统,从而可以对其进行充分优化。在内核态下,如果不能很好地掌握其特性,效 率不但不会高,甚至还会影响到整个系统运行的稳定性。 5)用户态下,GFS 和操作系统运行在不同的空间,两者耦合性降低,从而方便 GFS 自身和内核的单独升级。 4.只提供专用接口 通常的分布式文件系统一般都会提供一组与 POSIX 规范兼容的接口。其优点是应用 程序可以通过操作系统的统一接口来透明地访问文件系统,而不需要重新编译程序。GFS 在设计之初,是完全面向 Google 的应用的,采用了专用的文件系统访问接口。接口以库 Administrator Underline Administrator Underline Administrator Underline Administrator Underline Administrator Underline Edited by Foxit Reader Copyright(C) by Foxit Corporation,2005-2009 For Evaluation Only. 第 2 章 Google 云计算原理 1 3 13 文件的形式提供,应用程序与库文件一起编译,Google 应用程序在代码中通过调用这些 库文件的 API,完成对 GFS 文件系统的访问。采用专用接口有以下好处。 1)降低了实现的难度。通常与 POSIX 兼容的接口需要在操作系统内核一级实现,而 GFS 是在应用层实现的。 2)采用专用接口可以根据应用的特点对应用提供一些特殊支持,如支持多个文件并 发追加的接口等。 3)专用接口直接和 Client、Master、Chunk Server 交互,减少了操作系统之间上下文 的切换,降低了复杂度,提高了效率。 2.1.2 容错机制 1.Master 容错 具体来说,Master 上保存了 GFS 文件系统的三种元数据。 1)命名空间(Name Space),也就是整个文件系统的目录结构。 2)Chunk 与文件名的映射表。 3)Chunk 副本的位置信息,每一个 Chunk 默认有三个副本。 首先就单个 Master 来说,对于前两种元数据,GFS 通过操作日志来提供容错功能。 第三种元数据信息则直接保存在各个 Chunk Server 上,当 Master 启动或 Chunk Server 向 Master 注册时自动生成。因此当 Master 发生故障时,在磁盘数据保存完好的情况下,可 以迅速恢复以上元数据。为了防止 Master 彻底死机的情况,GFS 还提供了 Master 远程的 实时备份,这样在当前的 GFS Master 出现故障无法工作的时候,另外一台 GFS Master 可 以迅速接替其工作。 2.Chunk Server 容错 GFS 采用副本的方式实现 Chunk Server 的容错。每一个 Chunk 有多个存储副本(默 认为三个),分布存储在不同的 Chunk Server 上。副本的分布策略需要考虑多种因素,如 网络的拓扑、机架的分布、磁盘的利用率等。对于每一个 Chunk,必须将所有的副本全部 写入成功,才视为成功写入。在其后的过程中,如果相关的副本出现丢失或不可恢复等状 况,Master 会自动将该副本复制到其他 Chunk Server,从而确保副本保持一定的个数。尽 管一份数据需要存储三份,好像磁盘空间的利用率不高,但综合比较多种因素,加之磁盘 的成本不断下降,采用副本无疑是最简单、最可靠、最有效,而且实现的难度也最小的一 种方法。 GFS 中的每一个文件被划分成多个 Chunk,Chunk 的默认大小是 64MB,这是因为 Google 应用中处理的文件都比较大,以
本文档为【国内第一本深入剖析云计算技术的教材《云计算》】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_677727
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:34
分类:英语四级
上传时间:2011-08-21
浏览量:36