而是利用的曾编译好之spark和hive的本。而是采用的就编译好之spark和hive的版。

引言

    在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试。其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式。至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了。。。 
    整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多。在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来。于是就有了本篇博文。
    其实我在搭建的时候,并不是按部就班的搭建,中间或多或少都更改过不少,试验出来了目前没啥问题的集群搭建。在写本文的时候,开始准备将环境在一台机器上搭建,然后全部传输到其他机器上。但是想了想,这样或许在搭建环境的时候快速,但是对于阅读者来说,不太友好。于是便拆分出来了,单独搭建一个也是可以的。好了,废话就少说了,教程如下。

引言

    在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试。其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式。至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了。。。 
    整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多。在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来。于是就有了本篇博文。
    其实我在搭建的时候,并不是按部就班的搭建,中间或多或少都更改过不少,试验出来了目前没啥问题的集群搭建。在写本文的时候,开始准备将环境在一台机器上搭建,然后全部传输到其他机器上。但是想了想,这样或许在搭建环境的时候快速,但是对于阅读者来说,不太友好。于是便拆分出来了,单独搭建一个也是可以的。好了,废话就少说了,教程如下。

目录

[TOC]

目录

[TOC]

平等、环境选择

平等、环境选择

1,集群机器安装图

这次以凡集群搭建,所以在条件布置方面,我以同样摆放表来大概描述。集群使用了3雅机械,分别是master、slave1、slave2,通过名称命名就得解主从关系了。使用的操作系统是CentOS6.8,具体各个机器安装之配置如下表:
图片 1

实际每个机器的配置就设达到图了。需要加的是,spark这块我莫利用官方自带的spark,而是利用的都编译好的spark和hive的本。因为背后在行使hive查询的时节,不思量行使hive默认的mr,在hive2.x后,官方也非建议了。因为用mr效率实在太没有,所以于后面我会将hive的引擎换成spark,而好还要非思量再编译spark
,所以即使用是本子了。如果各位想活动编译,或者出现重复强之版,就从不必要肯定按照上面的来。还有存放路径这块,没必要肯定要是采用方面的,可以事先以机器及采用
df -h 查看相应的磁盘空间,再来拓展配备。

1,集群机器安装图

这次以凡集群搭建,所以在条件布置方面,我用同样布置表来大概讲述。集群使用了3华机械,分别是master、slave1、slave2,通过名称命名就好理解主从关系了。使用的操作系统是CentOS6.8,具体各个机器安装的配备如下表:
图片 2

现实每个机器的配备就设达到图了。需要加的是,spark这块我尚未采取官方自带的spark,而是以的已经编译好之spark和hive的本。因为背后在应用hive查询的上,不思行使hive默认的mr,在hive2.x从此,官方也非建议了。因为运用mr效率实在太没有,所以在后面我会将hive的引擎换成spark,而好并且无思量再编译spark
,所以即便用是本子了。如果各位想活动编译,或者出现又强之版,就没必要肯定按照上面的来。还有存放路径这块,没必要肯定要是采用方面的,可以优先以机器及采用
df -h 查看相应的磁盘空间,再来进展安排。

2,配置说明

  • JDK :Hadoop和Spark 依赖之配备,官方建议JDK版本在1.7上述!!!
  • Scala:Spark依赖之安排,建议版本不低于spark的本。
  • Hadoop: 是一个分布式系统基础架构。
  • Spark: 分布式存储的百般数目开展处理的工具。
  • zookeeper:分布式应用程序协调服务,HBase集群需要。
  • HBase: 一个结构化数据的分布式存储系统。
  • Hive: 基于Hadoop的一个数据仓库工具,目前的默认元数据库是mysql。

2,配置说明

  • JDK :Hadoop和Spark 依赖之配备,官方建议JDK版本在1.7之上!!!
  • Scala:Spark依赖之部署,建议版本不低于spark的本子。
  • Hadoop: 是一个分布式系统基础架构。
  • Spark: 分布式存储的良数据开展处理的工具。
  • zookeeper:分布式应用程序协调服务,HBase集群需要。
  • HBase: 一个结构化数据的分布式存储系统。
  • Hive: 基于Hadoop的一个数据仓库工具,目前底默认元数据库是mysql。

3,下载地址

官地址:
Hadoop:
http://www.apache.org/dyn/closer.cgi/hadoop/common

Spark:
http://spark.apache.org/downloads.html

Spark Sql on Hive
http://mirror.bit.edu.cn/apache/spark

Scala:
http://www.scala-lang.org/download

JDK:
http://www.oracle.com/technetwork/java/javase/downloads

HBase
http://mirror.bit.edu.cn/apache/hbase/

Zookeeper
http://mirror.bit.edu.cn/apache/zookeeper/

Hive
http://mirror.bit.edu.cn/apache/hive/

百度云:
链接:https://pan.baidu.com/s/1kUYfDaf 密码:o1ov

3,下载地址

官方地址:
Hadoop:
http://www.apache.org/dyn/closer.cgi/hadoop/common

Spark:
http://spark.apache.org/downloads.html

Spark Sql on Hive
http://mirror.bit.edu.cn/apache/spark

Scala:
http://www.scala-lang.org/download

JDK:
http://www.oracle.com/technetwork/java/javase/downloads

HBase
http://mirror.bit.edu.cn/apache/hbase/

Zookeeper
http://mirror.bit.edu.cn/apache/zookeeper/

Hive
http://mirror.bit.edu.cn/apache/hive/

百度云:
链接:https://pan.baidu.com/s/1kUYfDaf 密码:o1ov

第二、集群的相关部署

次、集群的相干配置

1,主机名改成和主机和IP做连锁映射

1,主机名反和主机及IP做连锁映射

1. 复改主机名

说明:更改主机名是为便利集群管理,不然每个机器的称号都为localhost也非太好吧!
集群所有的机械都使做是操作。

输入

 vim /etc/sysconfig/network 

以localhost.localdomain修改也您要是重复改之号,每台名称还无一致
例如:

HOSTNAME=master

注: 名称更改了之后输入reboot重启才会生效。

1. 还改主机名

说明:更改主机名是为了有利于集群管理,不然每个机器的称号还吃localhost也未极端好吧!
集群所有的机械还如举行这操作。

输入

 vim /etc/sysconfig/network 

拿localhost.localdomain修改为卿若重复改之号,每令名称都不等同
例如:

HOSTNAME=master

注: 名称更改了之后输入reboot重启才会生效。

2.举行主机与IP的关联映射

修改hosts文件,做涉嫌映射
征:这个每台机器还举行这个布局,具体ip和主机名称为自己的吗依照。
输入:

vim /etc/hosts

添加

192.169.0.23 master
192.169.0.24 slave1
192.169.0.25 slave2

图片 3
说明:可以在同等光机器上加了以后可以使scp
命令或应用ftp将之文件copy到 其他机器中。
scp命令示例:

scp -r /etc/hosts root@192.169.0.24:/etc

2.举行主机和IP的关联映射

改hosts文件,做涉嫌映射
证实:这个每台机器还举行这个布局,具体ip和主机名称为祥和的也以。
输入:

vim /etc/hosts

添加

192.169.0.23 master
192.169.0.24 slave1
192.169.0.25 slave2

图片 4
说明:可以以相同贵机器上加了后可以使scp
命令或应用ftp将之文件copy到 其他机器中。
scp命令示例:

scp -r /etc/hosts root@192.169.0.24:/etc

2,ssh免登录

安装ssh免密码登录是为操作方便
变更秘钥文件
当列台机器上且实行同一布满
先是输入:

ssh-keygen -t rsa -P ''

转移秘钥之后,然后用各个令机器/root/.ssh
都存入内容同样的文本,文件名称叫authorized_keys,文件内容是咱们才为3雅机器生成的公钥。可以于平玉机器上变化,然后复制到其它的机械及。

新建authorized_keys文件
输入 :

 touch  /root/.ssh/authorized_keys

编辑 authorized_keys 并以其余机器及之秘钥拷贝过来

cat /root/.ssh/id_rsa.pub
vim /root/.ssh/authorized_keys

拿另机器上的 id_rsa.pub 的始末拷贝到 authorized_keys这个文件被。
首先只机械:
图片 5

老二只机械:
图片 6

老三独机器:
图片 7

最终authorized_keys文件之始末
图片 8

将这最终的authorized_keys文件copy到其它机器的 /root/.ssh
目录下。使用scp或者ftp都好。
scp命令示例:

scp -r /root/.ssh/authorized_keys root@192.169.0.24:/root/.ssh

测试不密码登录
输入:

ssh slave1
ssh slave2

输入 exit 退出
图片 9

2,ssh免登录

安装ssh免密码登录是为操作便利
转移秘钥文件
当每令机械及还施行同样布满
首先输入:

ssh-keygen -t rsa -P ''

变化秘钥之后,然后拿各个台机器/root/.ssh
都存入内容同样之公文,文件名称叫authorized_keys,文件内容是我们才为3华机器生成的公钥。可以当一如既往令机械及转,然后复制到其它的机器上。

新建authorized_keys文件
输入 :

 touch  /root/.ssh/authorized_keys

编辑 authorized_keys 并拿其余机器上的秘钥拷贝过来

cat /root/.ssh/id_rsa.pub
vim /root/.ssh/authorized_keys

将另机器及之 id_rsa.pub 的内容拷贝到 authorized_keys这个文件中。
率先只机器:
图片 10

第二独机器:
图片 11

其三个机械:
图片 12

最终authorized_keys文件的内容
图片 13

以此最终之authorized_keys文件copy到其它机器的 /root/.ssh
目录下。使用scp或者ftp都可。
scp命令示例:

scp -r /root/.ssh/authorized_keys root@192.169.0.24:/root/.ssh

测试不密码登录
输入:

ssh slave1
ssh slave2

输入 exit 退出
图片 14

3,防火墙关闭

说明:其实可以不停歇防火墙,进行权力设置,但是以好访问,于是便关门大吉了防火墙。每个机器还开!!!

关防火墙的通令
停下防火墙:
service iptables stop
起步防火墙:
service iptables start
重新开防火墙:
service iptables restart
永关闭防火墙:
chkconfig iptables off

3,防火墙关闭

说明:其实可以不倒闭防火墙,进行权力设置,但是为了方便访问,于是便关门大吉了防火墙。每个机器还开!!!

闭馆防火墙的通令
停下防火墙:
service iptables stop
启航防火墙:
service iptables start
复开防火墙:
service iptables restart
世世代代关闭防火墙:
chkconfig iptables off

4,时间部署

集群达的机械时如一同,因为自己当时边的是虚拟机,所以尽管绝不了。
安集群时间同步可以采取NTP服务。
切实可以参见: http://blog.csdn.net/to_baidu/article/details/52562574

4,时间安排

集群达的机械时若是共同,因为自马上边的凡虚拟机,所以就是绝不了。
设置集群时间一起可以行使NTP服务。
具体可以参见: http://blog.csdn.net/to_baidu/article/details/52562574

5,快捷键设置(可选)

说明:因为一旦时不时切换各个目录以内,所以为了偷懒,就安装别叫了。只待以linux输入别名,就足以执行别名后面的指令,相当之造福。
例如:我们经常因此之ll就是 ls -l 的别名。关于别名这块各位可自行检索。
输入:

vim ~/.bashrc

增长下的情

# Some more ailases
alias chd='cd /opt/hadoop/hadoop2.8'
alias chb='cd /opt/hbase/hbase1.2'
alias chi='cd /opt/hive/hive2.1'
alias czk='cd /opt/zookeeper/zookeeper3.4'
alias csp='cd /opt/spark/spark2.0-hadoop2.4-hive'

alias fhadoop='/opt/hadoop/hadoop2.8/bin/hdfs namenode -format'
alias starthadoop='/opt/hadoop/hadoop2.8/sbin/start-all.sh'
alias stophadoop='/opt/hadoop/hadoop2.8/sbin/stop-all.sh'

alias starthbase='/opt/hbase/hbase1.2/bin/start-hbase.sh'
alias stophbase='/opt/hbase/hbase1.2/bin/stop-hbase.sh'

alias startzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start'
alias stopzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop'
alias statuszk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'

alias startsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/start-all.sh'
alias stopsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/stop-all.sh'

图片 15

事业有成添加之后输入

source ~/.bashrc

下一场输入设置的号就好履你所设置的情了。别名的安装不肯定非要是按上面的,如果有再度好法子尽管伸手以

5,快捷键设置(可选)

证实:因为只要常切换各个目录里,所以为了偷懒,就安装别叫了。只待以linux输入别名,就可执行别名后面的命,相当之便民。
例如:我们常常因此之ll就是 ls -l 的号。关于别名这块各位可自动检索。
输入:

vim ~/.bashrc

增长底的情节

# Some more ailases
alias chd='cd /opt/hadoop/hadoop2.8'
alias chb='cd /opt/hbase/hbase1.2'
alias chi='cd /opt/hive/hive2.1'
alias czk='cd /opt/zookeeper/zookeeper3.4'
alias csp='cd /opt/spark/spark2.0-hadoop2.4-hive'

alias fhadoop='/opt/hadoop/hadoop2.8/bin/hdfs namenode -format'
alias starthadoop='/opt/hadoop/hadoop2.8/sbin/start-all.sh'
alias stophadoop='/opt/hadoop/hadoop2.8/sbin/stop-all.sh'

alias starthbase='/opt/hbase/hbase1.2/bin/start-hbase.sh'
alias stophbase='/opt/hbase/hbase1.2/bin/stop-hbase.sh'

alias startzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start'
alias stopzk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop'
alias statuszk='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'

alias startsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/start-all.sh'
alias stopsp='/opt/spark/spark1.6-hadoop2.4-hive/sbin/stop-all.sh'

图片 16

打响添加之后输入

source ~/.bashrc

下一场输入设置的别名就得履你所设置的情节了。别名的安不必然不要是依上面的,如果发再度好法子尽管请求动

6,整体环境变量设置

每当 /etc/profile
这个布局文件要添加很多的环境布置,这里就是先行用一体化的条件布置列举出,各位在布置环境变量的为投机之呢按照!!!
可以事先配备好环境变量之后,在传到其他机器上。
本身这边先将这些配置都传到外的机械及了,并且都source了,所以下文中这布局文件的操作实际是没有做的。具体情况以相好的啊仍。

#Java Config
export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
# Scala Config
export SCALA_HOME=/opt/scala/scala2.12
# Spark Config
export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
# Zookeeper Config
export ZK_HOME=/opt/zookeeper/zookeeper3.4
# HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2
# Hadoop Config 
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
# Hive Config
export HIVE_HOME=/opt/hive/hive2.1
export HIVE_CONF_DIR=${HIVE_HOME}/conf

export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH

6,整体环境变量设置

在 /etc/profile
这个布局文件要抬高很多之环境布置,这里虽优先用完全的环境布置列举出,各位在部署环境变量的因友好之啊仍!!!
可以预先配备好环境变量之后,在传输至其它机器上。
本身这里先以这些部署都传至其他的机及了,并且还source了,所以下文中是布局文件之操作实际是从来不开的。具体情况以友好之也罢按。

#Java Config
export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
# Scala Config
export SCALA_HOME=/opt/scala/scala2.12
# Spark Config
export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
# Zookeeper Config
export ZK_HOME=/opt/zookeeper/zookeeper3.4
# HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2
# Hadoop Config 
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
# Hive Config
export HIVE_HOME=/opt/hive/hive2.1
export HIVE_CONF_DIR=${HIVE_HOME}/conf

export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH

老二、Hadoop的环境搭建

先说明,这些安排可以在同等玉机械及配备,然后复制到任何机器上虽尽了。复制之后注意要这些安排文件生效。

第二、Hadoop的条件搭建

先期说明,这些部署好以同一宝机械及部署,然后复制到其他机器及即行了。复制之后注意要这些部署文件生效。

1,JDK配置

说明:
一般CentOS自带了openjdk,但是hadoop集群使用的是oracle官方的jdk,所以先卸载CentOS的jdk,然后再次设置于oracle下充斥好之JDK。
首先输入 java -version
查看是否安装了JDK,如果设置了,但本不入的话,就卸载
图片 17

输入
rpm -qa | grep java
翻信息
图片 18
接下来输入:
rpm -e –nodeps “你要是卸载JDK的音”
如: rpm -e –nodeps java-1.7.0-openjdk-1.7.0.99-2.6.5.1.el6.x86_64
图片 19

承认没有了之后,解压下充斥下来的JDK

tar  -xvf   jdk-8u144-linux-x64.tar.gz

倒到opt/java文件夹着,没有就新建,然后拿文件夹又命名也jdk1.8。

mv  jdk1.8.0_144 /opt/java
mv  jdk1.8.0_144  jdk1.8

下一场编辑 profile 文件,添加如下配置
输入:

vim /etc/profile

添加:

export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=.:${JAVA_HOME}/bin:$PATH

丰富成功之后,输入

source /etc/profile
java  -version 

查是否配备成功

1,JDK配置

说明:
一般CentOS自带了openjdk,但是hadoop集群使用的是oracle官方的jdk,所以先卸载CentOS的jdk,然后再安装于oracle下充斥好之JDK。
首先输入 java -version
翻是否安装了JDK,如果设置了,但本不抱的话,就卸载
图片 20

输入
rpm -qa | grep java
翻看信息
图片 21
下一场输入:
rpm -e –nodeps “你而推脱载JDK的音讯”
如: rpm -e –nodeps java-1.7.0-openjdk-1.7.0.99-2.6.5.1.el6.x86_64
图片 22

肯定没有了后,解压下充斥下来的JDK

tar  -xvf   jdk-8u144-linux-x64.tar.gz

走及opt/java文件夹着,没有就新建,然后拿文件夹又命名为jdk1.8。

mv  jdk1.8.0_144 /opt/java
mv  jdk1.8.0_144  jdk1.8

接下来编辑 profile 文件,添加如下配置
输入:

vim /etc/profile

添加:

export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=.:${JAVA_HOME}/bin:$PATH

长成功以后,输入

source /etc/profile
java  -version 

翻是否配备成功

2,hadoop配置

2,hadoop配置

3.2.1 文件准备

将下载下来的Hadoop的布文件进行解压
在linux上输入:

 tar  -xvf   hadoop-2.8.2.tar.gz

接下来拿解压之后的文本夹移动到opt/hadoop文件夹下,没有拖欠公文夹就新建,然后以文件夹又命名也hadoop2.8。
在linux上输入移动文件夹命令:

mv  hadoop-2.8.2 /opt/hadoop
mv  hadoop-2.8.2 hadoop2.8

3.2.1 文件准备

以下载下来的Hadoop的部署文件进行解压
在linux上输入:

 tar  -xvf   hadoop-2.8.2.tar.gz

接下来拿解压之后的公文夹移动及opt/hadoop文件夹下,没有该文件夹就新建,然后用文件夹又命名也hadoop2.8。
以linux上输入移动文件夹命令:

mv  hadoop-2.8.2 /opt/hadoop
mv  hadoop-2.8.2 hadoop2.8

3.2.2 环境布置

编辑 /etc/profile 文件
输入:

vim /etc/profile

添加:

export HADOOP_HOME=/opt/hadoop/hadoop2.8 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

输入:

source  /etc/profile

要配置生效

3.2.2 环境布置

编辑 /etc/profile 文件
输入:

vim /etc/profile

添加:

export HADOOP_HOME=/opt/hadoop/hadoop2.8 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

输入:

source  /etc/profile

设配置生效

3.2.3 修改配置文件

改 core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml
等这些安排文件
在linux输入进去该目录的吩咐:

cd /opt/hadoop/hadoop2.8/etc/hadoop

3.2.3 修改配置文件

改 core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml
等这些部署文件
每当linux输入进去该目录的指令:

cd /opt/hadoop/hadoop2.8/etc/hadoop
3.2.3.1 修改 core-site.xml

hadoop的存放路径可以自行更改。开始自我觉着这些文件夹需要手动创建,后来实践了,如果未手动创建,会活动创建的,所以就算失丢了手动创建目录的步调。
输入:

vim core-site.xml

<configuration>节点内进入配置:

 <configuration>
<property>
    <name>hadoop.temp.dir</name>
    <value>file:/root/hadoop/tmp</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
<!-- eclipse连接hive 的配置-->
<property>
  <name>hadoop.proxyuser.root.hosts</name>
  <value>*</value>
 </property>
 <property>
  <name>hadoop.proxyuser.root.groups</name>
  <value>*</value>
</property>
</configuration>

图片 23

说明: fs.defaultFS 是缺省文书之称呼, 最早以的凡
fs.default.name,后来当风行官方文档中翻及拖欠措施已丢用了。于是边转移成为这了。ps:感觉吗不曾啥区别。

3.2.3.1 修改 core-site.xml

hadoop的存路径可以自行转移。开始自我以为这些文件夹需要手动创建,后来实践了,如果无手动创建,会自行创建的,所以尽管去丢了手动创建目录的步调。
输入:

vim core-site.xml

<configuration>节点内进入配置:

 <configuration>
<property>
    <name>hadoop.temp.dir</name>
    <value>file:/root/hadoop/tmp</value>
  </property>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
  </property>
<!-- eclipse连接hive 的配置-->
<property>
  <name>hadoop.proxyuser.root.hosts</name>
  <value>*</value>
 </property>
 <property>
  <name>hadoop.proxyuser.root.groups</name>
  <value>*</value>
</property>
</configuration>

图片 24

说明: fs.defaultFS 是缺省文件的名目, 最早以的是
fs.default.name,后来当新式官方文档中查及拖欠方式就丢用了。于是边转移成为这个了。ps:感觉呢从不啥区别。

3.2.3.2 修改 hadoop-env.sh

以此要做,不晓怎么相对路径不识别,于是就使用绝对路径。

export   JAVA_HOME=${JAVA_HOME}

修改为:

export   JAVA_HOME=/opt/java/jdk1.8

流动:修改也协调JDK的路径
图片 25

3.2.3.2 修改 hadoop-env.sh

此要开,不亮堂怎么相对路径不识别,于是便采用绝对路径。

export   JAVA_HOME=${JAVA_HOME}

修改为:

export   JAVA_HOME=/opt/java/jdk1.8

流动:修改为团结JDK的门道
图片 26

3.2.2.3 修改 hdfs-site.xml

下的hdfs的寄放路径,可以依据自己机器更改。
<configuration>节点内参加配置:

 <property>
    <name>dfs:replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/root/hadoop/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/root/hadoop/data</value>
  </property>    

图片 27

3.2.2.3 修改 hdfs-site.xml

下的hdfs的寄放路径,可以依据自己机器更改。
<configuration>节点内投入配置:

 <property>
    <name>dfs:replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/root/hadoop/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/root/hadoop/data</value>
  </property>    

图片 28

3.5.2.4 修改mapred-site.xml

实践mapreduce的运行框架配置。ps:感觉是布局没啥用,可能自己并未因此mr吧。
若果没有 mapred-site.xml
该公文,就复制mapred-site.xml.template文件并重命名为mapred-site.xml。
修改是新建的mapred-site.xml文件,在<configuration>节点内参加配置:

<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>
3.5.2.4 修改mapred-site.xml

实施mapreduce的运作框架配置。ps:感觉这布局没啥用,可能我从未因此mr吧。
假定没有 mapred-site.xml
该文件,就复制mapred-site.xml.template文件并重命名为mapred-site.xml。
改者新建的mapred-site.xml文件,在<configuration>节点内加入配置:

<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>
3.5.2.5 修改yarn-site.xml文件

yarn 资源调度的配备,集群的说话是布局是必须的。
修改/opt/hadoop/hadoop2.8/etc/hadoop/yarn-site.xml文件,
<configuration>节点内参加配置

<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
   </property>
   <property>
        <name>yarn.resourcemanager.address</name>
        <value>${yarn.resourcemanager.hostname}:8032</value>
   </property>
   <property>
        <description>The address of the scheduler interface.</description>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>${yarn.resourcemanager.hostname}:8030</value>
   </property>
   <property>
        <description>The http address of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>${yarn.resourcemanager.hostname}:8088</value>
   </property>
   <property>
        <description>The https adddress of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>${yarn.resourcemanager.hostname}:8090</value>
   </property>
   <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>${yarn.resourcemanager.hostname}:8031</value>
   </property>
   <property>
        <description>The address of the RM admin interface.</description>
        <name>yarn.resourcemanager.admin.address</name>
        <value>${yarn.resourcemanager.hostname}:8033</value>
   </property>
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
   <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>8182</value>
        <discription>每个节点可用内存,单位MB,默认8182MB</discription>
   </property>
   <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
   </property>
   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
</property>
   <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

图片 29

征:yarn.nodemanager.vmem-check-enabled这个的意是忽视虚拟内存的检讨,如果你是设置于虚拟机上,这个布局好有因此,配上后继续操作不轻有问题。如果是实体机上,并且内存够多,可以用以此布局去丢。

3.5.2.5 修改yarn-site.xml文件

yarn 资源调度的配置,集群的口舌是布局是得的。
修改/opt/hadoop/hadoop2.8/etc/hadoop/yarn-site.xml文件,
<configuration>节点内加入配置

<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
   </property>
   <property>
        <name>yarn.resourcemanager.address</name>
        <value>${yarn.resourcemanager.hostname}:8032</value>
   </property>
   <property>
        <description>The address of the scheduler interface.</description>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>${yarn.resourcemanager.hostname}:8030</value>
   </property>
   <property>
        <description>The http address of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>${yarn.resourcemanager.hostname}:8088</value>
   </property>
   <property>
        <description>The https adddress of the RM web application.</description>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>${yarn.resourcemanager.hostname}:8090</value>
   </property>
   <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>${yarn.resourcemanager.hostname}:8031</value>
   </property>
   <property>
        <description>The address of the RM admin interface.</description>
        <name>yarn.resourcemanager.admin.address</name>
        <value>${yarn.resourcemanager.hostname}:8033</value>
   </property>
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
   <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>8182</value>
        <discription>每个节点可用内存,单位MB,默认8182MB</discription>
   </property>
   <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
   </property>
   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
</property>
   <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

图片 30

证实:yarn.nodemanager.vmem-check-enabled这个的意思是忽视虚拟内存的检查,如果您是设置于虚拟机上,这个布局好有因此,配上然后继续操作不易于产生题目。如果是实体机上,并且内存够多,可以用以此布局去丢。

3.5.2.6 修改slaves

装基本的布置。如果不装这个,集群就无法获悉主从了。如果是单机模式,就从未有过必要配置了。
修改/opt/hadoop/hadoop2.8/etc/hadoop/slaves文件
更改为

slave1 
slave2

这些安排参考Hadoop官方文档。
Hadoop官方配置文件具体说明: http://hadoop.apache.org/docs/r2.8.3/

于同一尊机械及(最好是master)做扫尾这些配置之后,我们利用scp命令将这些安排传输至其他机器上。
输入:
jdk环境传输

scp -r /opt/java root@slave1:/opt
scp -r /opt/java root@slave2:/opt

hadoop环境传输

scp -r /opt/hadoop root@slave1:/opt
scp -r /opt/hadoop root@slave2:/opt

传之后,便在主节点启动集群。
以开行hadoop之前,需要初始化,这个仅需要以master上初始化就可以了。

3.5.2.6 修改slaves

设置基本的布。如果非装这个,集群就无法得知主从了。如果是单机模式,就没必要配置了。
修改/opt/hadoop/hadoop2.8/etc/hadoop/slaves文件
更改为

slave1 
slave2

这些安排参考Hadoop官方文档。
Hadoop官方配置文件具体说明: http://hadoop.apache.org/docs/r2.8.3/

每当同等大机器上(最好是master)做截止这些配置之后,我们应用scp命令将这些安排传输至另外机器及。
输入:
jdk环境传输

scp -r /opt/java root@slave1:/opt
scp -r /opt/java root@slave2:/opt

hadoop环境传输

scp -r /opt/hadoop root@slave1:/opt
scp -r /opt/hadoop root@slave2:/opt

传输之后,便以主节点启动集群。
于开行hadoop之前,需要初始化,这个只是需要在master上初始化就得了。

3,hadoop启动

:启动hadoop之前确保防火墙关闭,各个机器时经过,ssh免登录都未曾问题。
初始化hadoop
切换到/opt/hadoop/hadoop2.8/bin索引下输入

./hdfs  namenode  -format

初始化成功以后,切换到/opt/hadoop/hadoop2.8/sbin
启动hadoop 的hdfs和yarn
输入:

start-dfs.sh
start-yarn.sh

先是浅登录会询问是否连,输入yes ,然后输入密码就可以了
起步成功后,可以利用jps命令在一一机器及查看是否成功
足在浏览器输入: ip+50070 和8088端口查看
图片 31

图片 32

假设要图显示,则启动成功。
要是败,检查jps是否成功启动,防火墙是否还关门。都认账没有问题下,还是无法开拓界面,请查看日志,再来探寻原因。

3,hadoop启动

:启动hadoop之前确保防火墙关闭,各个机器时通过,ssh免登录都未曾问题。
初始化hadoop
切换到/opt/hadoop/hadoop2.8/bin索引下输入

./hdfs  namenode  -format

初始化成功以后,切换到/opt/hadoop/hadoop2.8/sbin
启动hadoop 的hdfs和yarn
输入:

start-dfs.sh
start-yarn.sh

首先糟登录会询问是不是连,输入yes ,然后输入密码便足以了
起先成功后,可以采取jps命令于一一机器上查看是否成
可以于浏览器输入: ip+50070 和8088端口查看
图片 33

图片 34

假若使图展示,则启动成功。
假如败,检查jps是否中标启动,防火墙是否都关闭。都认可没有问题后,还是无法开拓界面,请查看日志,再来寻找原因。

季、Spark的环境布置

说明:其实spark的有关安排,我当老数据上系列的六 —–
Hadoop+Spark环境搭建
http://www.panchengming.com/2017/12/19/pancm63/
应该就说的挺详细了,虽然是单机环境。其实集群为尽管增加个slave配置,其他的小好像没什么了。所以尽管概括的贴下配置。

季、Spark的环境布置

说明:其实spark的相干配置,我于非常数额上系列之六 —–
Hadoop+Spark环境搭建
http://www.panchengming.com/2017/12/19/pancm63/
应该都说之慌详细了,虽然是单机环境。其实集群为就算加个slave配置,其他的临时好像没什么了。所以就算概括的贴下配置。

1,Scala配置

跟JDK配置几乎一样

1,Scala配置

暨JDK配置几乎一致

4.1.1 文件准备

拿下充斥好之Scala文件解压
输入

tar -xvf scala-2.12.2.tgz

接下来倒到/opt/scala 里面
还要又命名也scala2.1
输入

mv  scala-2.12.2  /opt/scala
mv scala-2.12.2 scala2.12

4.1.1 文件准备

拿下充斥好之Scala文件解压
输入

tar -xvf scala-2.12.2.tgz

接下来倒到/opt/scala 里面
并且再命名吧scala2.1
输入

mv  scala-2.12.2  /opt/scala
mv scala-2.12.2 scala2.12

4.1.2 环境布置

编辑 /etc/profile 文件
输入:

export SCALA_HOME=/opt/scala/scala2.12
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:$PATH

输入:

source  /etc/profile

而配置生效
输入 scala -version 查看是否安装成功

4.1.2 环境布置

编辑 /etc/profile 文件
输入:

export SCALA_HOME=/opt/scala/scala2.12
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:$PATH

输入:

source  /etc/profile

倘配置生效
输入 scala -version 查看是否安装成功

2,Spark配置

2,Spark配置

4.2.1,文件准备

将生充斥好之Spark文件解压
输入

tar -xvf spark-1.6.3-bin-hadoop2.4-without-hive.tgz

接下来倒到/opt/spark 里面,并重命名
输入

mv  spark-1.6.3-bin-hadoop2.4-without-hive  /opt/spark
mv  spark-1.6.3-bin-hadoop2.4-without-hive  spark1.6-hadoop2.4-hive

4.2.1,文件准备

拿下充斥好之Spark文件解压
输入

tar -xvf spark-1.6.3-bin-hadoop2.4-without-hive.tgz

接下来倒到/opt/spark 里面,并重命名
输入

mv  spark-1.6.3-bin-hadoop2.4-without-hive  /opt/spark
mv  spark-1.6.3-bin-hadoop2.4-without-hive  spark1.6-hadoop2.4-hive

4.2.2,环境布置

编辑 /etc/profile 文件
输入:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

设若配置生效

4.2.2,环境布置

编辑 /etc/profile 文件
输入:

export  SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

倘若配置生效

4.2.3,更改配置文件

切换目录
输入:

cd /opt/spark/spark1.6-hadoop2.4-hive/conf

4.2.3,更改配置文件

切换目录
输入:

cd /opt/spark/spark1.6-hadoop2.4-hive/conf
4.2.3.1 修改 spark-env.sh

于conf目录下,修改spark-env.sh文件,如果没 spark-env.sh
该文件,就复制spark-env.sh.template文件并重命名为spark-env.sh。
改是新建的spark-env.sh文件,加入配置:

export SCALA_HOME=/opt/scala/scala2.1    
export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8    
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
export SPARK_MASTER_IP=master    
export SPARK_EXECUTOR_MEMORY=4G

:上面的路子为祥和的呢按照,SPARK_MASTER_IP为主机,SPARK_EXECUTOR_MEMORY也安的运行内存。

4.2.3.1 修改 spark-env.sh

在conf目录下,修改spark-env.sh文件,如果无 spark-env.sh
该文件,就复制spark-env.sh.template文件并重命名为spark-env.sh。
修改是新建的spark-env.sh文件,加入配置:

export SCALA_HOME=/opt/scala/scala2.1    
export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8    
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop  
export SPARK_HOME=/opt/spark/spark1.6-hadoop2.4-hive
export SPARK_MASTER_IP=master    
export SPARK_EXECUTOR_MEMORY=4G

:上面的路子为温馨之啊仍,SPARK_MASTER_IP为主机,SPARK_EXECUTOR_MEMORY也设置的运作内存。

4.2.3.2 修改slaves

slaves 分布式文件
每当conf目录下,修改slaves文件,如果无 slaves 该公文,就复制slaves
.template文件并重命名为slaves 。
修改者新建的slaves 文件,加入配置:

slave1 
slave2

每当同贵机械及(最好是master)做了这些安排之后,我们使用scp命令将这些配置传输到另外机器上。
输入:
scala环境传输

scp -r /opt/scala root@slave1:/opt
scp -r /opt/scala root@slave2:/opt

spark环境传输

scp -r /opt/spark root@slave1:/opt
scp -r /opt/spark root@slave2:/opt

传之后,便在主节点启动集群。

4.2.3.2 修改slaves

slaves 分布式文件
于conf目录下,修改slaves文件,如果没 slaves 该公文,就复制slaves
.template文件并重命名为slaves 。
改者新建的slaves 文件,加入配置:

slave1 
slave2

于平雅机器上(最好是master)做得了这些部署之后,我们运用scp命令将这些配置传输至其他机器及。
输入:
scala环境传输

scp -r /opt/scala root@slave1:/opt
scp -r /opt/scala root@slave2:/opt

spark环境传输

scp -r /opt/spark root@slave1:/opt
scp -r /opt/spark root@slave2:/opt

传输之后,便以主节点启动集群。

3,spark启动

证:要事先启动Hadoop
切换到Spark目录下
输入:

cd /opt/spark/spark2.2/sbin

下一场启动Spark
输入:

 start-all.sh

开行成功之后,可以采取jps命令于各个机器及查看是否成功。
可于浏览器输入: ip+8080 端口查看

图片 35
倘若成功展示是界面,则意味Spark成功启动。

3,spark启动

证实:要先期启动Hadoop
切换到Spark目录下
输入:

cd /opt/spark/spark2.2/sbin

然后启动Spark
输入:

 start-all.sh

启动成功以后,可以用jps命令于挨家挨户机器及查看是否中标。
可以于浏览器输入: ip+8080 端口查看

图片 36
比方成功展示这界面,则代表Spark成功启动。

五、Zookeeper的环境布置

因HBase做集群,所以便需zookeeper了。
zookeeper
在博环境多建筑及,都见面来他的人影,如kafka、storm等,这里就是无多说了。

五、Zookeeper的条件布置

为HBase做集群,所以便得zookeeper了。
zookeeper
于许多条件多建筑及,都见面生出异的身影,如kafka、storm等,这里就非多说了。

1,文件准备

将下载下来的Zookeeper 的安排文件进行解压
在linux上输入:

 tar  -xvf   zookeeper-3.4.10.tar.gz

然后倒到/opt/zookeeper里面,没有就新建,然后拿文件夹又命名为zookeeper3.4
输入

mv  zookeeper-3.4.10  /opt/zookeeper
mv  zookeeper-3.4.10  zookeeper3.4

1,文件准备

以下载下来的Zookeeper 的配备文件进行解压
在linux上输入:

 tar  -xvf   zookeeper-3.4.10.tar.gz

接下来倒到/opt/zookeeper里面,没有就新建,然后将文件夹又命名吧zookeeper3.4
输入

mv  zookeeper-3.4.10  /opt/zookeeper
mv  zookeeper-3.4.10  zookeeper3.4

2,环境布置

编辑 /etc/profile 文件
输入:

export  ZK_HOME=/opt/zookeeper/zookeeper3.4 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${ZK_HOME}/bin:$PATH

输入:

source  /etc/profile

万一配置生效

2,环境布置

编辑 /etc/profile 文件
输入:

export  ZK_HOME=/opt/zookeeper/zookeeper3.4 
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:${ZK_HOME}/bin:$PATH

输入:

source  /etc/profile

若配置生效

3,修改配置文件

3,修改配置文件

5.3.1 创建文件与目录

每当集群的服务器上还创这些目录

mkdir   /opt/zookeeper/data  
mkdir   /opt/zookeeper/dataLog

并且在/opt/zookeeper/data目录下创造myid文件
输入:

touch  myid

缔造成功以后,更改myid文件。
自就边为了有利于,将master、slave1、slave2的myid文件内容变更吗1,2,3
图片 37

5.3.1 创建文件与目录

当集群的服务器上还创这些目录

mkdir   /opt/zookeeper/data  
mkdir   /opt/zookeeper/dataLog

再者在/opt/zookeeper/data目录下创办myid文件
输入:

touch  myid

缔造成功后,更改myid文件。
自当下边为了好,将master、slave1、slave2的myid文件内容变更呢1,2,3
图片 38

5.3.2 新建zoo.cfg

切换到/opt/zookeeper/zookeeper3.4/conf 目录下
假使没有 zoo.cfg 该文件,就复制zoo_sample.cfg文件并重命名为zoo.cfg。
修改是新建的zoo.cfg文件

dataDir=/opt/zookeeper/data
dataLogDir=/opt/zookeeper/dataLog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

图片 39

说明:client
port,顾名思义,就是客户端连接zookeeper服务之端口。这是一个TCP
port。dataLogDir里是放到的各个日志(WAL)。而dataDir里放的凡内存数据结构的snapshot,便于快速还原。为了达成性能最大化,一般建议把dataDir和dataLogDir分及不同之磁盘上,这样就是得充分利用磁盘顺序写的表征。dataDir和dataLogDir需要好创建,目录可以自己制订,对许即可。server.1中的这1消同master这个机器及的dataDir目录中的myid文件被的数值对应。server.2中之斯2用以及slave1这个机器上的dataDir目录中之myid文件中之数值对应。server.3中的这个3索要同slave2这个机器及之dataDir目录中之myid文件被的数值对应。当然,数值你可以凭用,只要对应即可。2888跟3888之捧口号为堪管用,因为于不同机器及,用成一样吗无所谓。
1.tickTime:CS通信心跳数
Zookeeper 服务器之间或客户端与服务器之间维持心跳的时刻距离,也尽管是每个
tickTime 时间虽会发送一个心跳。tickTime以毫秒为单位。
tickTime=2000
2.initLimit:LF初始通信时限
集合众多被之follower服务器(F)与leader服务器(L)之间开始连接时能够忍受的太多心灵跳数(tickTime的多少)。
initLimit=10
3.syncLimit:LF同步通信时限
集结众多被的follower服务器和leader服务器之间请求与答之间会容忍的不过多中心跳数(tickTime的数目)。
syncLimit=5

仍以zookeeper传输到其他的机器及,记得改 /opt/zookeeper/data
下之myid,这个不可知平等。
输入:

scp -r /opt/zookeeper root@slave1:/opt
scp -r /opt/zookeeper root@slave2:/opt

5.3.2 新建zoo.cfg

切换到/opt/zookeeper/zookeeper3.4/conf 目录下
要是没 zoo.cfg 该公文,就复制zoo_sample.cfg文件并重命名为zoo.cfg。
改者新建的zoo.cfg文件

dataDir=/opt/zookeeper/data
dataLogDir=/opt/zookeeper/dataLog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

图片 40

说明:client
port,顾名思义,就是客户端连接zookeeper服务的端口。这是一个TCP
port。dataLogDir里是放置的逐一日志(WAL)。而dataDir里放之是内存数据结构的snapshot,便于快速回复。为了达到性能最大化,一般提议将dataDir和dataLogDir分至不同的磁盘上,这样即使可以充分利用磁盘顺序写的特性。dataDir和dataLogDir需要团结创办,目录可以好创制,对承诺即可。server.1中之这个1欲以及master这个机器及之dataDir目录中之myid文件中的数值对应。server.2中的此2待与slave1这个机器及之dataDir目录中的myid文件被的数值对应。server.3中之之3亟需以及slave2这个机器上的dataDir目录中的myid文件中之数值对应。当然,数值你可无用,只要对应即可。2888和3888的端口号也堪管用,因为当不同机器及,用成一样也不在乎。
1.tickTime:CS通信心跳数
Zookeeper 服务器之间或客户端和服务器之间维持心跳的年月间隔,也便是每个
tickTime 时间即会见发送一个心跳。tickTime以毫秒为单位。
tickTime=2000
2.initLimit:LF初始通信时限
汇众多被的follower服务器(F)与leader服务器(L)之间开始连接时会隐忍的不过多中心跳数(tickTime的数码)。
initLimit=10
3.syncLimit:LF同步通信时限
聚集众多中之follower服务器和leader服务器之间请求和回应之间能够耐受的极致多心灵跳数(tickTime的数量)。
syncLimit=5

依旧将zookeeper传输到任何的机器上,记得改 /opt/zookeeper/data
下之myid,这个不可知同。
输入:

scp -r /opt/zookeeper root@slave1:/opt
scp -r /opt/zookeeper root@slave2:/opt

4,启动zookeeper

以zookeeper是选举制,它的主从关系并无是像hadoop那样指定的,具体可看官方的文档说明。
打响安排zookeeper之后,在各令机械上启动zookeeper。
切换到zookeeper目录下

cd /opt/zookeeper/zookeeper3.4/bin

输入:

zkServer.sh start

成启动以后
翻状态输入:

 zkServer.sh status

足查阅各个机器上zookeeper的leader和follower
图片 41

4,启动zookeeper

因为zookeeper是选举制,它的主从关系并无是比如说hadoop那样指定的,具体可以拘留官方的文档说明。
打响安排zookeeper之后,在各国台机器及启动zookeeper。
切换到zookeeper目录下

cd /opt/zookeeper/zookeeper3.4/bin

输入:

zkServer.sh start

遂启动后
查阅状态输入:

 zkServer.sh status

可查看各个机器及zookeeper的leader和follower
图片 42

六、HBase的条件布置

六、HBase的条件布置

1,文件准备

用下载下来的HBase的配置文件进行解压
在linux上输入:

 tar  -xvf   hbase-1.2.6-bin.tar.gz

接下来倒到/opt/hbase 文件夹里面,并重命名为 hbase1.2
输入

mv  hbase-1.2.6  /opt/hbase
mv  hbase1.2  /opt/hbase

1,文件准备

用下载下来的HBase的部署文件进行解压
在linux上输入:

 tar  -xvf   hbase-1.2.6-bin.tar.gz

然后倒到/opt/hbase 文件夹里面,并重命名为 hbase1.2
输入

mv  hbase-1.2.6  /opt/hbase
mv  hbase1.2  /opt/hbase

2,环境布置

编辑 /etc/profile 文件
输入:

export HBASE_HOME=/opt/hbase/hbase1.2
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

万一配置生效
输入
hbase version
查看版本
图片 43

2,环境布置

编辑 /etc/profile 文件
输入:

export HBASE_HOME=/opt/hbase/hbase1.2
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

输入:

source  /etc/profile

若配置生效
输入
hbase version
翻版本
图片 44

3,修改配置文件

切换到 /opt/hbase/hbase-1.2.6/conf 下

3,修改配置文件

切换到 /opt/hbase/hbase-1.2.6/conf 下

6.3.1 修改hbase-env.sh

编辑 hbase-env.sh 文件,添加以下配置

export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HBASE_HOME=/opt/hbase/hbase1.2
export HBASE_CLASSPATH=/opt/hadoop/hadoop2.8/etc/hadoop
export HBASE_PID_DIR=/root/hbase/pids
export HBASE_MANAGES_ZK=false

图片 45
说明:配置的门路为好之吧仍。HBASE_MANAGES_ZK=false
是勿启用HBase自带的Zookeeper集群。

6.3.1 修改hbase-env.sh

修 hbase-env.sh 文件,添加以下配置

export JAVA_HOME=/opt/java/jdk1.8
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HBASE_HOME=/opt/hbase/hbase1.2
export HBASE_CLASSPATH=/opt/hadoop/hadoop2.8/etc/hadoop
export HBASE_PID_DIR=/root/hbase/pids
export HBASE_MANAGES_ZK=false

图片 46
说明:配置的不二法门为祥和的吗依照。HBASE_MANAGES_ZK=false
是匪启用HBase自带的Zookeeper集群。

6.3.2 修改 hbase-site.xml

编辑hbase-site.xml 文件,在<configuration>长如下配置

<property>
 <name>hbase.rootdir</name>
 <value>hdfs://master:9000/hbase</value>
 <description>The directory shared byregion servers.</description>
</property>
 <!-- hbase端口 -->
<property>
 <name>hbase.zookeeper.property.clientPort</name>
 <value>2181</value>
</property>
<!-- 超时时间 -->
<property>
 <name>zookeeper.session.timeout</name>
 <value>120000</value>
</property>
<!--防止服务器时间不同步出错 -->
<property>
<name>hbase.master.maxclockskew</name>
<value>150000</value>
</property>
<!-- 集群主机配置 -->
<property>
 <name>hbase.zookeeper.quorum</name>
 <value>master,slave1,slave2</value>
</property>
<!--   路径存放 -->
<property>
 <name>hbase.tmp.dir</name>
 <value>/root/hbase/tmp</value>
</property>
<!-- true表示分布式 -->
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
  <!-- 指定master -->
  <property>
    <name>hbase.master</name>
    <value>master:60000</value>
  </property>

</configuration>

图片 47
说明:hbase.rootdir:这个目录是region
server的共享目录,用来持久化Hbase 。hbase.cluster.distributed
:Hbase的运作模式。false是单机模式,true是分布式模式。若为false,Hbase和Zookeeper会运行在和一个JVM里面。

6.3.2 修改 hbase-site.xml

编辑hbase-site.xml 文件,在<configuration>加上如下配置

<property>
 <name>hbase.rootdir</name>
 <value>hdfs://master:9000/hbase</value>
 <description>The directory shared byregion servers.</description>
</property>
 <!-- hbase端口 -->
<property>
 <name>hbase.zookeeper.property.clientPort</name>
 <value>2181</value>
</property>
<!-- 超时时间 -->
<property>
 <name>zookeeper.session.timeout</name>
 <value>120000</value>
</property>
<!--防止服务器时间不同步出错 -->
<property>
<name>hbase.master.maxclockskew</name>
<value>150000</value>
</property>
<!-- 集群主机配置 -->
<property>
 <name>hbase.zookeeper.quorum</name>
 <value>master,slave1,slave2</value>
</property>
<!--   路径存放 -->
<property>
 <name>hbase.tmp.dir</name>
 <value>/root/hbase/tmp</value>
</property>
<!-- true表示分布式 -->
<property>
 <name>hbase.cluster.distributed</name>
 <value>true</value>
</property>
  <!-- 指定master -->
  <property>
    <name>hbase.master</name>
    <value>master:60000</value>
  </property>

</configuration>

图片 48
说明:hbase.rootdir:这个目录是region
server的共享目录,用来持久化Hbase 。hbase.cluster.distributed
:Hbase的运行模式。false是单机模式,true是分布式模式。若否false,Hbase和Zookeeper会运行于跟一个JVM里面。

6.3.3 修改regionservers

点名hbase的着力,和hadoop的slaves文件配置一样
用文件修改为

slave1 
slave2

图片 49
:上面的也集群的主机名称

当同令机械及(最好是master)做了这些配置之后,我们用scp命令将这些安排传输到其他机器上。
输入:
hbase环境传输

scp -r /opt/hbaseroot@slave1:/opt
scp -r /opt/hbase root@slave2:/opt

传输之后,便在主节点启动集群。

6.3.3 修改regionservers

指定hbase的中心,和hadoop的slaves文件配置一样
以文件修改也

slave1 
slave2

图片 50
:上面的吧集群的主机名称

当同一令机器上(最好是master)做截止这些部署之后,我们以scp命令将这些配置传输到其它机器及。
输入:
hbase环境传输

scp -r /opt/hbaseroot@slave1:/opt
scp -r /opt/hbase root@slave2:/opt

传之后,便在主节点启动集群。

4,启动hbase

以成启动Hadoop、zookeeper之后
切换到HBase目录下

cd /opt/hbase/hbase1.2/bin

输入:

start-hbase.sh

开行成功以后,可以采用jps命令在各个机器上查看是否中标
好于浏览器输入: ip+16010 端口查看
图片 51

如成功展示该界面,则启动成功。

4,启动hbase

在成功启动Hadoop、zookeeper之后
切换到HBase目录下

cd /opt/hbase/hbase1.2/bin

输入:

start-hbase.sh

起先成功之后,可以下jps命令于各个机器及查看是否中标
足在浏览器输入: ip+16010 端口查看
图片 52

使成功展示该界面,则启动成功。

七、Hive的条件设置配置

盖hive安装使用无欲集群,只需要在同样令机械及设置使用就足以了,之前在自己的
大数目上系列的四 —–
Hadoop+Hive环境多建筑图文详解(单机)
http://www.panchengming.com/2017/12/16/pancm61/
里面已经教的慌详细,所以本文就非以讲述了。

七、Hive的环境设置配备

坐hive安装使用不需集群,只待以平等令机器上安装使用就得了,之前以本人之
万分数量上系列之四 —–
Hadoop+Hive环境多建筑图文详解(单机)
http://www.panchengming.com/2017/12/16/pancm61/
里面已经教的充分详细,所以本文就不在叙述了。

八、其他

条件搭建参考:
http://blog.csdn.net/pucao_cug/article/details/72773564
环境布置参考的官文档。

暨是,本学科就结束了,谢谢阅读!

版权声明:
作者:虚无境
博客园出处:http://www.cnblogs.com/xuwujing
CSDN出处:http://blog.csdn.net/qazwsxpcm    
私博客出处:http://www.panchengming.com
原创是,转载请标明出处,谢谢!

八、其他

环境搭建参考:
http://blog.csdn.net/pucao_cug/article/details/72773564
条件布置参考的官文档。

交者,本课程就结束了,谢谢阅读!

版权声明:
作者:虚无境
博客园出处:http://www.cnblogs.com/xuwujing
CSDN出处:http://blog.csdn.net/qazwsxpcm    
村办博客出处:http://www.panchengming.com
原创是,转载请标明出处,谢谢!

相关文章