中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
Intel Hadoop 集群搭建需求
版本 V1.0 机密级别:客户保密
客户:顺丰速运
版本信息 作者 创作
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
Ver. 20130603 韩小姣 Intel Hadoop 集群搭建需求
版本及机密等级说明:本文版权归 北京神州立诚科技有限公司 所有。本文件必须以成稿时的原稿全文进行发布,任何未经许可的发布行为都
将追究法律责任。
公 开:可对外公开的文件,并允许基于全文原稿的任意转载发布
客户保密:只对客户公开,不可公开给任何第三方
内部公开:只供 北京神州立诚科技有限公司 内部使用
内部机密:只供 北京神州立诚科技有限公司 部门主管以上职位使用
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
目录
构造集群的主要步骤 ................................................................................................................. 3
1、系统要求 ............................................................................................................................. 4
1.1 硬件要求 ....................................................................................................................... 4
1.1.1 基于 Intel Hadoop2.2 ........................................................................................... 4
1.1.2 基于 Intel Hadoop2.3 ........................................................................................... 5
1.2 软件要求 ....................................................................................................................... 5
1.2.1 基于 Intel Hadoop2.2 ........................................................................................... 5
1.2.2 基于 Intel Hadoop2.3 ........................................................................................... 5
1.3 网络要求 ....................................................................................................................... 6
1.4 链路聚合 ....................................................................................................................... 6
2、规划 Hadoop 集群 ............................................................................................................... 6
2.1 决定将使用哪些 Hadoop 组件 ....................................................................................... 6
2.2. 决定集群大小(服务器数量)和服务器硬件配置。 ..................................................... 6
2.3. 决定集群物理布局 ....................................................................................................... 6
2.4. 决定集群网络 .............................................................................................................. 6
2.5 NameNode 和 JobTracker 的选择 .............................................................................. 7
2.6. 决定哪台机器为管理节点 ............................................................................................ 7
2.7 集群和和客户端的选择 ................................................................................................ 7
3 操作系统磁盘分区 .................................................................................................................. 7
3.1 基于 Intel Hadoop 2.2 ................................................................................................... 7
3.2 基于 Intel Hadoop 2.3 .................................................................................................. 8
4 管理节点的搭建 ..................................................................................................................... 9
5 Intel Hadoop 的集群搭建部署 ................................................................................................ 9
6 集群节点的添加 .................................................................................................................... 9
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
构造集群的主要步骤
创建一个集群前,首先必须保证将用于构造集群的服务器满足一些要求。这些要求包括硬件要求、
软件要求以及网络要求。满足了这些要求后,就要做好相关的构造 Hadoop 集群的规划。
规划Hadoop 集群后,就可以开始进行系统安装了。系统安装包括以下步骤:
1.正确配置所有节点的RAID。
2.在集群中所有的节点(包括管理节点及Hadoop 集群中所有的节点)上安装所需要的操作系
统。
3.在管理节点上安装英特尔® Hadoop 发行版
4.使用管理节点上的Web 用户界面——Intel® Manager for Apache Hadoop— —来把所有的节点
加到集群中、对这些节点部署相关软件和配置,并运行服务。
进行系统安装
使用 Intel
Manager
for Apache
Hadoop 配
置节点
在管理服
务器上安
装英特尔
Hadoop 发
行版
在集群中的
所有节点上
安装需要的
操作系统
正确配置
所有节点
的 RAID
做好构造 Hadoop 集群的
规划
确保用于构建集群的所有的服务器
满足集群节点要求(包括硬件要求、
软件要求和网络要求)
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
1、系统要求
1.1 硬件要求
1.1.1 基于 Intel Hadoop2.2
服务器运行英特尔® Hadoop发行版至少需要英特尔® 至强处理器,推荐使用双路4核英特尔® 处理器。
服务器运行英特尔® Hadoop 发行版的最低内存要求为 16GB 内存。在此基础上,不同服务器角色和
服务类型有着各自的内存要求,如
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
2.1 所示。推荐内存配置是针对服务器上运行的服务种类,对表
2.1 中的相关内存要求进行叠加。
对于所有集群中的服务器(除了主命名节点和从命名节点),推荐在物理硬盘中不要使用RAID。
但在RAID无法被移除的情况下,每一个物理硬盘可以被设为一个单独的RAID 0。
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
对于主命名节点和从命名节点,推荐在命名节点数据目录所在的分区使用 RAID 1 或 RAID 5。
1.1.2 基于 Intel Hadoop2.3
集群中的每个节点必须符合以下硬件要求:
• 每个节点必须配备至少1GB 的网卡。
• 每个节点必须至少有2 个支持超线程技术的四核芯片(8 个核,2 个接口)。
• 除了JobTracker 和Primary NameNode,其他所有节点都不能安装在磁盘冗余阵列上。也就是
说,DataNodes 使用的逻辑盘分区不能用于磁盘冗余阵列。
• 确认每个节点至少有二个逻辑盘分区。一个分区是安装程序的系统分区。另一个分区则用于存
储HDFS 数据。你可以在一个或多个物理或逻辑分区上存储HDFS 数据。然而,存储HDFS 数据的
逻辑盘分区只能包含HDFS 数据,不能包含其他数据。
1.2 软件要求
1.2.1 基于 Intel Hadoop2.2
本节介绍安装英特尔® Hadoop发行版所需要的软件环境。
支持的操作系统包括:
1. Red Hat Enterprise Linux 5.7 、6.1、6.2、6.3
2. CentOS 5.7、6.1、 6.2、 6.3
3. Oracle Enterprise Linux 6.1, 6.2, 6.3
4. SUSE* Linux Enterprise Server 11 sp1
在把一台服务器加入集群前,必须先在该服务器上安装相应的操作系统,并且须要确保
opnssh-server在运行。如果opnssh-server没有运行,请在Hadoop集群中的所有节点中安装openssh-server
包被确保该服务运行。
1.2.2 基于 Intel Hadoop2.3
• 在每个节点上,OpenSSH* 5.3 或更高版本必须已安装并正常运行。sshd daemon 服务器的侦
听端
口必须为22。
• 集群中的所有节点之间必须允许SSH,HTTP 和FTP 通讯。
• Java Runtime Environment* 版本1.6.0_31 必须已安装。
• sudo 必须已安装并正常运行,这样root 用户可以通过su 命令切换到一个或多个无窗口
(faceless)帐户。
• 确认集群的任何节点都没有安装MySQL。
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
• 集群中的所有节点必须可访问用于安装RPM 包的某个操作系统软件包(repository)。集群中
的所有节点必须使用相同的操作系统软件包。
在英特尔® Apache Hadoop* 软件发行版的安装配置过程中,脚本必须能从此软件包安装RPM
包。对于OEL 和RHEL 操作系统,这即为yum 软件包。对于SLES 操作系统,这即为zypper 软件
包。
支持的操作系统包括:
1. Red Hat Enterprise Linux 6.1、6.2、6.3
2. CentOS 6.1、 6.2、 6.3
3. Oracle Enterprise Linux 6.1, 6.2, 6.3
4. SUSE* Linux Enterprise Server 11 sp1 、11 sp2
1.3 网络要求
安装英特尔® Hadoop发行版对网络的最低要求为千兆以太网。有关网络方面的其他要求见下。
1.4 链路聚合
当一台机器上有多个网络适配器时,用户可以在安装英特尔® Hadoop发行版之前对其进行链路聚
合配置以提高网络带宽。
2、规划 Hadoop 集群
在安装英特尔® Hadoop发行版前,必须制定一些相关的规划。具体如下:
2.1决定将使用哪些Hadoop组件。
这些组件包括Zookeeper, HDFS, MapReduce, HBase, Hive, HA等。
2.2. 决定集群大小(服务器数量)和服务器硬件配置。
2.3. 决定集群物理布局。
确定将使用多少机架和每个机架上有多少机器。
2.4. 决定集群网络。
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
包括:
① 决定网络带宽和交换机背板带宽。决定交换机型号。
② 决定如何连接到交换机。必须知道需要用到哪些以太网端口和是否需要绑定。
③ 确定每台机器的IP地址和主机名。决定如何分配IP(使用DHCP或静态分配)。决定如何解析
主机名(使用DNS或/etc/hosts)。如果使用/etc/hosts,管理节点将负责更新集群中每台机器的/etc/hosts。
④ 决定如何进行时间同步。管理节点将负责所有服务器上的时间的同步,但您需要决定是否使
用外部的NTP服务。如果不使用外部NTP服务,虽然集群中所有服务器的时间是相同的,但这个时间
有可能不是
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
时间,这有可能导致当Hadoop集群与外部连接时错误的产生。
2.5 NameNode 和 JobTracker 的选择
决定哪台机器(当需要HA时为机器对)是NameNode 和 JobTracker(当 需要MapReduce时)。
对于较大的集群,还需要两台机器来分别充当NameNode和JobTracker。此时,如需HA的话,就
需要4台机器。
2.6. 决定哪台机器为管理节点。
2.7 集群和和客户端的选择
大致决定由哪些机器用于构建Hadoop集群、哪些机器用于构建客户端。
3 操作系统磁盘分区
3.1 基于 Intel Hadoop 2.2
在硬盘分区时需要遵守以下几点原则:
1. 至少要分出boot, swap和加载于“/”的系统分区。
2. 包含有操作系统的root目录的根分区需要100GB以上空间。推荐此分区使用ext4文件系统。
3. 推荐把每个物理磁盘挂载为在/mnt/disknn (nn为1至2位的数字) 上不同的挂载点。DataNode上每个
这样的目录会被管理节点自动配置为HDFS的数据目录。建议使用ext4文件系统。
4. HDFS DataNode 的数据目录不能放在root分区,以避免空间不足和IO竞争。同时也建议不要将他
们放在root分区所在的系统盘以避免IO竞争。但是当磁盘空间不足时,可以在系统盘的剩余空间中创
建一个新的分区,通过#2所描述的方式挂载来作为数据目录。
例子:有一台机子有两个500GB大小的磁盘,请如下将其进行分区:
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
驱动 大小 挂载点 类型
/dev/sda1 100GB / ext4
/dev/sda2 400GB /mnt/disk1 ext4
/dev/sdb1 500GB /mnt/disk2 ext4
5. 如果需要高可用性,则需要对这些用于高可用性的机器配置备用分区,这个分区必须略大于系统
内存,并且将该分区设置成非自动挂载(删除/etc/fstab中对应的条目)。同时,两台机器上的备用分区
大小必须一致。如果您需要配置高可用性,建议在操作系统安装完成之后再划分该备份分区,防止
该分区被设置成自动挂载。
例子:有两台用于高可用性配置的机子各拥有两个 500GB 大小的硬盘,当前的内存为 48GB,但它
有可能变为 64GB。所以他们的备用分区应该至少为 64GB。请如下对其进行分区:
驱动 大小 挂载点 类型
/dev/sda1 100GB / ext4
/dev/sda2 336GB /mnt/disk1 ext4
/dev/sda3 64GB
/dev/sdb1 500GB /mnt/disk2 ext4
其中,/dev/sda1 被作为系统分区,/dev/sda3 被作为备用分区,备用分区不需要挂载,将通过 DRBD
服务来挂载。
3.2 基于 Intel Hadoop 2.3
对 Hadoop 集群中的每个节点,磁盘必须按以下
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
分区:
• 必须存在三个逻辑分区:
— swap
— 系统或根分区, 挂载在/ 下。
— 数据分区,用于存储所有 HDFS 和 MapReduce 数据。可以有多个数据分区。
• 除了 HDFS 和 MapReduce 的数据,其他数据不能存储在数据分区。
• 如果磁盘分区之前被 Apache Hadoop* 集群使用过,则在其他集群使用该磁盘前,磁盘必
须被格
式化。
• 每个逻辑分区应该使用 ext4 文件系统。
• 用于存放操作系统的根分区,必须至少有 30GB。
• 每个物理磁盘必须为不同的挂载点。
• 你不可将物理磁盘分成多个挂载点。
• 对每个数据分区,逻辑磁盘分区应有一个符合以下
格式
pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载
的挂载名称:/mnt/disk[number].
比
如,如果你有二个逻辑磁盘分区,分区的挂载名称应该为:/mnt/disk1 和/mnt/disk2。
• HDFS DataNode 的目录不能放在系统分区上,只能放在数据分区上。
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
4 管理节点的搭建
参见 《Intel Hadoop 管理节点搭建(基于 RedHat)》或
《Intel Hadoop管理节点搭建(基于 SUSE)》
5 Intel Hadoop 的集群搭建部署
参见《Intel Hadoop集群搭建(基于 RedHat)》或
《Intel Hadoop集群搭建(基于 SUSE)》
6 集群节点的添加
参见《Intel Hadoop集群添加节点(基于 RedHat)》或
《Intel Hadoop集群添加节点(基于 SUSE)》
中国领先的企业级开源产品及服务提供商
Linux PostgreSQL Hadoop 大数据 云计算
Intel Hadoop 群号:275480829
地址:北京市海淀区西直门北大街 32 号
枫蓝国际写字楼 A 座 1102 室
电话:010-62218125
传真:010-62218125-603 © 2012 北京神州立诚科技有限公司 版权所有
作者简介
作者 版本更新 作者简介
韩小姣 [原创] Ver. 20130606
上海势优信息技术有限公司 Hadoop爱好者。
E-Mail: hanxiaojiao@focus-soft.com / hanxiaojiao12@gmail.com。