Hive调用python脚本实现数据清洗（UDF）-jelon521-ChinaUnix博客

宝马追猪

首页　| 　博文目录　| 　关于我

jelon521

博客访问： 1118480
博文数量： 165
博客积分： 0
博客等级：民兵
技术积分： 1352
用户组：普通用户
注册时间： 2016-03-11 14:13

个人简介

狂甩酷拽吊炸天

文章分类

全部博文（165）

软件安装（4）
python相关（17）
黑客之道（3）
数据库（16）
想coding吗？（10）
大数据（30）
关于linux（84）
未分配的博文（1）

文章存档

2024年（1）

2023年（1）

2022年（3）

2021年（4）

2020年（17）

2019年（37）

2018年（17）

2017年（35）

2016年（50）

我的朋友

相关博文

Hive调用python脚本实现数据清洗（UDF）

分类： LINUX

2019-12-06 15:27:49

Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能，本实例通过python脚本对电影数据进行清洗，帮助读者了解hive调用python脚本的整个流程。一般开发hive的UDF都是用java，hive调用python脚本类似于python版本的UDF。话不多说，直接上步骤

1、创建基表

点击(此处)折叠或打开

CREATE TABLE u_data (
userid INT, -- 用户ID
movieid INT, -- 电影ID
rating INT, -- 电影评分
unixtime STRING --时间戳
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

2、加载数据
下载数据：wget .grouplens.org/datasets/movielens/ml-100k.zip
解压：unzip ml-100k.zip
加载数据：LOAD DATA LOCAL IN PATH '/home/xxxx/ml-100k/u.data' OVERWRITE INTO TABLE u_data;

3、查询数据是否load进表
select * from u_data limit 10；
4、建立python脚本
此脚本主要清洗数据集中的时间戳，将时间戳转化为字符串日期时间，提取日期时间中的星期值。脚本命名为transform.py

点击(此处)折叠或打开

#!/usr/bin/python
# -*- coding:utf-8 -*-
"""
@Author: xxxxx
@Date: 2019/12/06 15:19
@FileName：transform.py
"""
import sys
import datetime
reload(sys)
sys.setdefaultencoding("utf-8")
for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('\t') # 分割一条数据
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday() # 转化unixtime时间戳为日期时间，获取对应的星期值
print "\t".join([userid, movieid, rating, str(weekday)]) # 输出清洗后的数据

5、创建子表,用于存储清晰过后的数据

点击(此处)折叠或打开

CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'

6、添加python脚本：
hive (recommend)> add file /home/xxxx/transform.py;

7、查看是否添加成功
hive (recommend)> list files;
/home/xxxx/transform.py

8、插入数据
将原数据表u_data中经过python脚本清洗后的数据，加载到子表u_data_new中

点击(此处)折叠或打开

INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime) --输入值（基表）
USING 'python transform.py' --使用脚本清洗
AS (userid, movieid, rating, weekday) --输出值（子表）
FROM u_data

9、查询数据
查询新表u_data_new数据，并与基表u_data数据对比，执行：
select * from u_data_new limit 10;
select * from u_data limit 10;

阅读(7147) | 评论(0) | 转发(0) |

上一篇：hive在指定位置添加字段

下一篇：Git命令大全

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6