Chinaunix首页 | 论坛 | 博客
  • 博客访问: 381532
  • 博文数量: 69
  • 博客积分: 1486
  • 博客等级: 上尉
  • 技术积分: 630
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-22 18:38
个人简介

...

文章分类
文章存档

2024年(1)

2021年(2)

2020年(2)

2016年(9)

2015年(34)

2011年(14)

2010年(7)

分类: HADOOP

2015-09-17 15:41:50

Hive导入数据到hadoop

简介
这里使用 hive,Hive一般在工作站上运行。它把SQL查询转换成一系列在 Hadoop 集群上运行的 MapReduce 作业。Hive把数据组织成表,通过
这种方式为存储在HDFS的数据赋予结构。元数据(如表模式)存储在 metastore 数据库中



Hive 模式把数据组织成表,创建表 hoop, 默认数据库为default

点击(此处)折叠或打开

  1. $ ./spark-sql --master=yarn --hiveconf hive.cli.print.header=false -S -e "create table hoop(id int, name string) row format delimited fields terminated by '\t';"
备注:
1)通过参数  hive.cli.print.header  可以控制在cli中是否显示表的列名,可以试试将其改为 true
2)row format delimited fields terminated by '\t'      -------> 其中这个是必须的,hive导入数据默认的模式

查看创建的表,这里使用 spark-sql 的JDBC Server查询刚刚创建的表
点击(此处)折叠或打开
  1. $ ./beeline -u jdbc:hive2://2.hadoop.com:10008 -n biadmin
  2. scan complete in 3ms
  3. Connecting to jdbc:hive2://2.hadoop.com:10008
  4. Connected to: Spark SQL (version 1.4.0)
  5. Driver: Spark Project Core (version 1.4.0)
  6. Transaction isolation: TRANSACTION_REPEATABLE_READ
  7. Beeline version 1.4.0 by Apache Hive
  8. 0: jdbc:hive2://2.hadoop.com:10008> show databases;
  9. +-----------+
  10. | result |
  11. +-----------+
  12. | default |
  13. | dp_click |
  14. | dp_dump |
  15. | dp_ods |
  16. | dp_tmp |
  17. +-----------+
  18. 0: jdbc:hive2://2.hadoop.com:10008> use default;
  19. +---------+
  20. | result |
  21. +---------+
  22. +---------+
  23. No rows selected (0.02 seconds)
  24. 0: jdbc:hive2://2.hadoop.com:10008> show tables;
  25. +------------+--------------+
  26. | tableName | isTemporary |
  27. +------------+--------------+
  28. | hoop | false |
  29. +------------+--------------+
  30. 1 row selected (0.023 seconds)
  31. 0: jdbc:hive2://2.hadoop.com:10008> desc hoop;
  32. +-----------+------------+----------+
  33. | col_name | data_type | comment |
  34. +-----------+------------+----------+
  35. | id | int | NULL |
  36. | name | string | NULL |
  37. +-----------+------------+----------+
  38. 2 rows selected (0.021 seconds)

导入数据,指定本地文件

点击(此处)折叠或打开

  1. $ spark-sql --master=yarn --hiveconf hive.cli.print.header=false -S -e "load data local inpath './hoop.txt' overwrite into table default.hoop;"
  2. SET spark.sql.hive.version=0.13.1
  3. SET spark.sql.hive.version=0.13.1
  4. Copying data from file:hoop.txt
  5. Copying file: file:hoop.txt
  6. Loading data to table default.hoop
  7. Table default.hoop stats: [numFiles=1, numRows=0, totalSize=81, rawDataSize=0]
  8. OK


  9. $ ./beeline -u jdbc:hive2://2.hadoop.com:10008 -n biadmin
  10. scan complete in 2ms
  11. Connecting to jdbc:hive2://2.hadoop.com:10008
  12. Connected to: Spark SQL (version 1.4.0)
  13. Driver: Spark Project Core (version 1.4.0)
  14. Transaction isolation: TRANSACTION_REPEATABLE_READ
  15. Beeline version 1.4.0 by Apache Hive
  16. 0: jdbc:hive2://2.hadoop.com:10008> select * from default.hoop;
  17. +-----+---------+
  18. | id | name |
  19. +-----+---------+
  20. | 1 | qqqqqq |
  21. | 2 | wwwwww |
  22. | 3 | eeeeee |
  23. | 4 | rrrrrr |
  24. | 5 | tttttt |
  25. | 6 | yyyyyy |
  26. | 7 | uuuuuu |
  27. | 8 | iiiiii |
  28. | 9 | oooooo |
  29. +-----+---------+
  30. 9 rows selected (0.467 seconds)
  31. 0: jdbc:hive2://2.hadoop.com:10008>

待续。。。。。。


阅读(2414) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~