IDH集群前期准备

IDH集群前期准备中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有 Intel Hadoop 集群搭建需求版本 V1.0 机密级别：客户保密...

中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有 Intel Hadoop 集群搭建需求版本 V1.0 机密级别：客户保密客户：顺丰速运版本信息作者创作内容 Ver. 20130603 韩小姣 Intel Hadoop 集群搭建需求版本及机密等级说明：本文版权归北京神州立诚科技有限公司所有。本文件必须以成稿时的原稿全文进行发布，任何未经许可的发布行为都将追究法律责任。公开：可对外公开的文件，并允许基于全文原稿的任意转载发布客户保密：只对客户公开，不可公开给任何第三方内部公开：只供北京神州立诚科技有限公司内部使用内部机密：只供北京神州立诚科技有限公司部门主管以上职位使用中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有目录构造集群的主要步骤 ................................................................................................................. 3 1、系统要求 ............................................................................................................................. 4 1.1 硬件要求 ....................................................................................................................... 4 1.1.1 基于 Intel Hadoop2.2 ........................................................................................... 4 1.1.2 基于 Intel Hadoop2.3 ........................................................................................... 5 1.2 软件要求 ....................................................................................................................... 5 1.2.1 基于 Intel Hadoop2.2 ........................................................................................... 5 1.2.2 基于 Intel Hadoop2.3 ........................................................................................... 5 1.3 网络要求 ....................................................................................................................... 6 1.4 链路聚合 ....................................................................................................................... 6 2、规划 Hadoop 集群 ............................................................................................................... 6 2.1 决定将使用哪些 Hadoop 组件 ....................................................................................... 6 2.2. 决定集群大小（服务器数量）和服务器硬件配置。 ..................................................... 6 2.3. 决定集群物理布局 ....................................................................................................... 6 2.4. 决定集群网络 .............................................................................................................. 6 2.5 NameNode 和 JobTracker 的选择 .............................................................................. 7 2.6. 决定哪台机器为管理节点 ............................................................................................ 7 2.7 集群和和客户端的选择 ................................................................................................ 7 3 操作系统磁盘分区 .................................................................................................................. 7 3.1 基于 Intel Hadoop 2.2 ................................................................................................... 7 3.2 基于 Intel Hadoop 2.3 .................................................................................................. 8 4 管理节点的搭建 ..................................................................................................................... 9 5 Intel Hadoop 的集群搭建部署 ................................................................................................ 9 6 集群节点的添加 .................................................................................................................... 9 中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有构造集群的主要步骤创建一个集群前，首先必须保证将用于构造集群的服务器满足一些要求。这些要求包括硬件要求、软件要求以及网络要求。满足了这些要求后，就要做好相关的构造 Hadoop 集群的规划。规划Hadoop 集群后，就可以开始进行系统安装了。系统安装包括以下步骤： 1．正确配置所有节点的RAID。 2．在集群中所有的节点（包括管理节点及Hadoop 集群中所有的节点）上安装所需要的操作系统。 3．在管理节点上安装英特尔® Hadoop 发行版 4．使用管理节点上的Web 用户界面——Intel® Manager for Apache Hadoop— —来把所有的节点加到集群中、对这些节点部署相关软件和配置，并运行服务。进行系统安装使用 Intel Manager for Apache Hadoop 配置节点在管理服务器上安装英特尔 Hadoop 发行版在集群中的所有节点上安装需要的操作系统正确配置所有节点的 RAID 做好构造 Hadoop 集群的规划确保用于构建集群的所有的服务器满足集群节点要求(包括硬件要求、软件要求和网络要求) 中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有 1、系统要求 1.1 硬件要求 1.1.1 基于 Intel Hadoop2.2 服务器运行英特尔® Hadoop发行版至少需要英特尔® 至强处理器，推荐使用双路4核英特尔® 处理器。服务器运行英特尔® Hadoop 发行版的最低内存要求为 16GB 内存。在此基础上，不同服务器角色和服务类型有着各自的内存要求，如表 2.1 所示。推荐内存配置是针对服务器上运行的服务种类，对表 2.1 中的相关内存要求进行叠加。对于所有集群中的服务器（除了主命名节点和从命名节点），推荐在物理硬盘中不要使用RAID。但在RAID无法被移除的情况下，每一个物理硬盘可以被设为一个单独的RAID 0。中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有对于主命名节点和从命名节点，推荐在命名节点数据目录所在的分区使用 RAID 1 或 RAID 5。 1.1.2 基于 Intel Hadoop2.3 集群中的每个节点必须符合以下硬件要求： • 每个节点必须配备至少1GB 的网卡。 • 每个节点必须至少有2 个支持超线程技术的四核芯片（8 个核，2 个接口）。 • 除了JobTracker 和Primary NameNode，其他所有节点都不能安装在磁盘冗余阵列上。也就是说，DataNodes 使用的逻辑盘分区不能用于磁盘冗余阵列。 • 确认每个节点至少有二个逻辑盘分区。一个分区是安装程序的系统分区。另一个分区则用于存储HDFS 数据。你可以在一个或多个物理或逻辑分区上存储HDFS 数据。然而，存储HDFS 数据的逻辑盘分区只能包含HDFS 数据，不能包含其他数据。 1.2 软件要求 1.2.1 基于 Intel Hadoop2.2 本节介绍安装英特尔® Hadoop发行版所需要的软件环境。支持的操作系统包括： 1. Red Hat Enterprise Linux 5.7 、6.1、6.2、6.3 2. CentOS 5.7、6.1、 6.2、 6.3 3. Oracle Enterprise Linux 6.1, 6.2, 6.3 4. SUSE* Linux Enterprise Server 11 sp1 在把一台服务器加入集群前，必须先在该服务器上安装相应的操作系统，并且须要确保 opnssh-server在运行。如果opnssh-server没有运行，请在Hadoop集群中的所有节点中安装openssh-server 包被确保该服务运行。 1.2.2 基于 Intel Hadoop2.3 • 在每个节点上，OpenSSH* 5.3 或更高版本必须已安装并正常运行。sshd daemon 服务器的侦听端口必须为22。 • 集群中的所有节点之间必须允许SSH，HTTP 和FTP 通讯。 • Java Runtime Environment* 版本1.6.0_31 必须已安装。 • sudo 必须已安装并正常运行，这样root 用户可以通过su 命令切换到一个或多个无窗口（faceless）帐户。 • 确认集群的任何节点都没有安装MySQL。中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有 • 集群中的所有节点必须可访问用于安装RPM 包的某个操作系统软件包（repository）。集群中的所有节点必须使用相同的操作系统软件包。在英特尔® Apache Hadoop* 软件发行版的安装配置过程中，脚本必须能从此软件包安装RPM 包。对于OEL 和RHEL 操作系统，这即为yum 软件包。对于SLES 操作系统，这即为zypper 软件包。支持的操作系统包括： 1. Red Hat Enterprise Linux 6.1、6.2、6.3 2. CentOS 6.1、 6.2、 6.3 3. Oracle Enterprise Linux 6.1, 6.2, 6.3 4. SUSE* Linux Enterprise Server 11 sp1 、11 sp2 1.3 网络要求安装英特尔® Hadoop发行版对网络的最低要求为千兆以太网。有关网络方面的其他要求见下。 1.4 链路聚合当一台机器上有多个网络适配器时，用户可以在安装英特尔® Hadoop发行版之前对其进行链路聚合配置以提高网络带宽。 2、规划 Hadoop 集群在安装英特尔® Hadoop发行版前，必须制定一些相关的规划。具体如下： 2.1决定将使用哪些Hadoop组件。这些组件包括Zookeeper, HDFS, MapReduce, HBase, Hive, HA等。 2.2. 决定集群大小（服务器数量）和服务器硬件配置。 2.3. 决定集群物理布局。确定将使用多少机架和每个机架上有多少机器。 2.4. 决定集群网络。中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有包括： ① 决定网络带宽和交换机背板带宽。决定交换机型号。 ② 决定如何连接到交换机。必须知道需要用到哪些以太网端口和是否需要绑定。 ③ 确定每台机器的IP地址和主机名。决定如何分配IP（使用DHCP或静态分配）。决定如何解析主机名（使用DNS或/etc/hosts）。如果使用/etc/hosts，管理节点将负责更新集群中每台机器的/etc/hosts。 ④ 决定如何进行时间同步。管理节点将负责所有服务器上的时间的同步，但您需要决定是否使用外部的NTP服务。如果不使用外部NTP服务，虽然集群中所有服务器的时间是相同的，但这个时间有可能不是标准时间，这有可能导致当Hadoop集群与外部连接时错误的产生。 2.5 NameNode 和 JobTracker 的选择决定哪台机器（当需要HA时为机器对）是NameNode 和 JobTracker（当需要MapReduce时)。对于较大的集群，还需要两台机器来分别充当NameNode和JobTracker。此时，如需HA的话，就需要4台机器。 2.6. 决定哪台机器为管理节点。 2.7 集群和和客户端的选择大致决定由哪些机器用于构建Hadoop集群、哪些机器用于构建客户端。 3 操作系统磁盘分区 3.1 基于 Intel Hadoop 2.2 在硬盘分区时需要遵守以下几点原则： 1. 至少要分出boot, swap和加载于“/”的系统分区。 2. 包含有操作系统的root目录的根分区需要100GB以上空间。推荐此分区使用ext4文件系统。 3. 推荐把每个物理磁盘挂载为在/mnt/disknn (nn为1至2位的数字) 上不同的挂载点。DataNode上每个这样的目录会被管理节点自动配置为HDFS的数据目录。建议使用ext4文件系统。 4. HDFS DataNode 的数据目录不能放在root分区，以避免空间不足和IO竞争。同时也建议不要将他们放在root分区所在的系统盘以避免IO竞争。但是当磁盘空间不足时，可以在系统盘的剩余空间中创建一个新的分区，通过#2所描述的方式挂载来作为数据目录。例子：有一台机子有两个500GB大小的磁盘，请如下将其进行分区：中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有驱动大小挂载点类型 /dev/sda1 100GB / ext4 /dev/sda2 400GB /mnt/disk1 ext4 /dev/sdb1 500GB /mnt/disk2 ext4 5. 如果需要高可用性，则需要对这些用于高可用性的机器配置备用分区，这个分区必须略大于系统内存，并且将该分区设置成非自动挂载(删除/etc/fstab中对应的条目)。同时，两台机器上的备用分区大小必须一致。如果您需要配置高可用性，建议在操作系统安装完成之后再划分该备份分区，防止该分区被设置成自动挂载。例子：有两台用于高可用性配置的机子各拥有两个 500GB 大小的硬盘，当前的内存为 48GB，但它有可能变为 64GB。所以他们的备用分区应该至少为 64GB。请如下对其进行分区: 驱动大小挂载点类型 /dev/sda1 100GB / ext4 /dev/sda2 336GB /mnt/disk1 ext4 /dev/sda3 64GB /dev/sdb1 500GB /mnt/disk2 ext4 其中，/dev/sda1 被作为系统分区，/dev/sda3 被作为备用分区，备用分区不需要挂载，将通过 DRBD 服务来挂载。 3.2 基于 Intel Hadoop 2.3 对 Hadoop 集群中的每个节点，磁盘必须按以下方法分区： • 必须存在三个逻辑分区： — swap — 系统或根分区，挂载在/ 下。 — 数据分区，用于存储所有 HDFS 和 MapReduce 数据。可以有多个数据分区。 • 除了 HDFS 和 MapReduce 的数据，其他数据不能存储在数据分区。 • 如果磁盘分区之前被 Apache Hadoop* 集群使用过，则在其他集群使用该磁盘前，磁盘必须被格式化。 • 每个逻辑分区应该使用 ext4 文件系统。 • 用于存放操作系统的根分区，必须至少有 30GB。 • 每个物理磁盘必须为不同的挂载点。 • 你不可将物理磁盘分成多个挂载点。 • 对每个数据分区，逻辑磁盘分区应有一个符合以下格式的挂载名称：/mnt/disk[number]. 比如，如果你有二个逻辑磁盘分区，分区的挂载名称应该为：/mnt/disk1 和/mnt/disk2。 • HDFS DataNode 的目录不能放在系统分区上，只能放在数据分区上。中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有 4 管理节点的搭建参见《Intel Hadoop 管理节点搭建(基于 RedHat)》或《Intel Hadoop管理节点搭建(基于 SUSE)》 5 Intel Hadoop 的集群搭建部署参见《Intel Hadoop集群搭建(基于 RedHat)》或《Intel Hadoop集群搭建(基于 SUSE)》 6 集群节点的添加参见《Intel Hadoop集群添加节点(基于 RedHat)》或《Intel Hadoop集群添加节点(基于 SUSE)》中国领先的企业级开源产品及服务提供商 Linux  PostgreSQL  Hadoop 大数据  云计算 Intel Hadoop 群号：275480829 地址：北京市海淀区西直门北大街 32 号枫蓝国际写字楼 A 座 1102 室电话：010-62218125 传真：010-62218125-603 © 2012 北京神州立诚科技有限公司版权所有作者简介作者版本更新作者简介韩小姣 [原创] Ver. 20130606 上海势优信息技术有限公司 Hadoop爱好者。 E-Mail: hanxiaojiao@focus-soft.com / hanxiaojiao12@gmail.com。

                    本文档为【IDH集群前期准备】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

IDH集群前期准备

你可能还喜欢