大数据学习笔记1-hadoop-landuochong-ChinaUnix博客

BigTeam_learninglanduochong.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

landuochong

博客访问： 3595497
博文数量： 864
博客积分： 14125
博客等级：上将
技术积分： 10634
用户组：普通用户
注册时间： 2007-07-27 16:53

个人简介

https://github.com/zytc2009/BigTeam_learning

文章分类

全部博文（864）

webrtc（1）
小程序（1）
管理（0）
大数据（8）
图像处理（3）
html5（0）
iphone（9）
web创新（5）
开发模式（5）
SDL（20）
QT（150）

徒弟们的作品（0）
Java（21）
shell（16）
测试（1）
MeeGo（7）
市场动态（12）
php（5）
配置管理（8）
多媒体（40）
嵌入式培训（12）
教育（79）
其他（8）
Android（187）
ARM（2）
network（17）
openGL（46）
GTK（2）
生活经典（54）
linux（74）
C和C++（68）
未分配的博文（3）

文章存档

2023年（1）

2021年（1）

2019年（3）

2018年（1）

2017年（10）

2015年（3）

2014年（8）

2013年（3）

2012年（69）

2011年（103）

2010年（357）

2009年（283）

2008年（22）

我的朋友

相关博文

大数据学习笔记1-hadoop

分类：大数据

2017-09-08 16:03:40

1.安装vmware，共享目录：
    vmware版本：10.0.0 build-1295980
    ubuntu版本：14.04.4
    先安装的vmware workstation自带光盘中vmare tools包，安装完成后没有产生vmhgfs模块；

    可以认为此方法失败，然后根据网上的提示安装open-vm-tools，使用命令行：
    sudo apt-get install open-vm-tools

    安装完成后，依然没有成功的vmhgfs模块；
    最后根据中的方法，执行如下命令行成功；
    $ git clone .git
    $ cd vmware-tools-patches
    $ sudo ./patched-open-vm-tools.sh

2.Ubuntu14.04下安装并开启SSH服务，这样你可以用MobaXterm进行连接，执行命令了，方便复制粘贴

    1).打开终端窗口，输入命令,等待安装完成
        sudo apt-get install openssh-server

    2).查看SSH服务是否启动,输入命令,看到sshd则说明服务已经启动
        sudo ps -e |grep ssh
        如果没有启动，输入命令,sudo service ssh start

    3).修改配置文件
        sudo gedit /etc/ssh/sshd_config
    把配置文件中的"PermitRootLogin without-password"加一个"#"号注释掉，再增加一句"PermitRootLogin yes"，保存文件。这样做是为了允许root用户登录。

    4）设置 ssh 免密码登陆执行命令
        (1)ssh-keygen -t rsa
        (2)cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

    验证：ssh hostname

**完成以上步骤之后，克隆2份slave1，slave2，为构建伪分布式系统做准备**

3.设置主机名

    sudo gedit /etc/ssh/hostname
      把里面的默认主机名字删除，并修改为自己的主机名。

4.设置主机名和ip一致
   vi /etc/hosts

**开始下面的操作前，最好创建一个自己的工作目录，我是创建/study目录：**

sudo chown yourname:yourname /study

5.安装jdk.
   解压jdk到你的工作目录下，mv jdk-1.8.0_24 jdk

    vi /etc/environment
    增加内容如下:
    JAVA_HOME=/study/jdk
    PATH=.:/study/jdk/bin:$PATH
    执行: source /etc/environment 命令使得当前终端窗口生效，新开窗口无效，如果想全部窗口生效，需要添加到/etc/profile或者~/.profile中重启

6.安装 hadoop, 执行命令

    (1)tar -zxvf hadoop-2.7.3.tar.gz
    (2)mv hadoop-2.7.3 hadoop
    (3)vi /etc/environment 增加内容如下:
        JAVA_HOME=/study/jdk
        HADOOP_HOME=/study/hadoop
        PATH=.:/study/hadoop/bin:/study/jdk/bin:$PATH
    (4)source /etc/environment

    (5)修改 conf 目录下的配置文件
        1.hadoop-env.sh 2.7之后不再需要修改
        export JAVA_HOME=/usr/local/jdk/
        2.core-site.xml

点击(此处)折叠或打开

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value> //你的hostname:9000
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/study/hadoop/tmp</value> //你的工作目录下
</property>
</configuration>

3.hdfs-site.xml

点击(此处)折叠或打开

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

4.mapred-site.xml,如果不存在，可以复制mapred-site.xml.templete改名

点击(此处)折叠或打开

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5.yarn-site.xml
点击(此处)折叠或打开

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
</configuration>

(6)格式化 HDFS：hadoop namenode -format

    (7)启动 Hadoop
      可以分步启动
        1.先启动 HDFS： sbin/start-dfs.sh
        2.再启动 Yarn: sbin/start-yarn.sh
      或者启动所有：sbin/start-all.sh

    检测是否启动成功：jps，启动hdfs 3个namenode任务，yarn 2个manager任务
    在浏览器查看:

    http://master:18088

7.windows上的java程序无法操作hdfs,报错
org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security .AccessControlException: Permission denied: user=Administator, access=EXECUTE, inode="/whb/mkdirs-test":wanghb:supergroup:drw-rw-rw-

用户Administator在hadoop上执行写操作时被权限系统拒绝.

    1).只要在系统的环境变量里面添加 HADOOP_USER_NAME=wanghb 或者将当前系统的帐号修改为wanghb(你的hadoop账号)
    2).也可以修改你要操作的目录，如hadoop fs -chmod 777 /whb
    3).在java代码中设置用户名，System.setProperty("HADOOP_USER_NAME", "xxxx");

阅读(1245) | 评论(0) | 转发(0) |

上一篇：使用ContentProvider访问非数据库数据

下一篇：大数据学习笔记2-Flume

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6