HIVE中UDTF使用说明-jiongtoast-ChinaUnix博客

jiongtoast的ChinaUnix博客

首页　| 　博文目录　| 　关于我

jiongtoast

博客访问： 59266
博文数量： 15
博客积分： 0
博客等级：民兵
技术积分： 206
用户组：普通用户
注册时间： 2013-10-23 13:47

文章分类

全部博文（15）

数据处理（0）
Impala（1）
hadoop（2）
喃喃自语（4）
Hive（8）
未分配的博文（0）

文章存档

2013年（15）

我的朋友

相关博文

HIVE中UDTF使用说明

分类：高性能计算

2013-10-28 14:10:42

1. UDTF介绍

UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。

2. 编写自己需要的UDTF

继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。
实现initialize, process, close三个方法
UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法，对传入的参数进行处理，可以通过forword()方法把结果返回。最后close()方法调用，对需要清理的方法进行清理。

下面是我写的一个用来切分”key:value;key:value;”这种字符串，返回结果为key, value两个字段。供参考：

import java.util.ArrayList;
				

				
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
				
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
				
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
				
import org.apache.hadoop.hive.ql.metadata.HiveException;
				
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
				
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
				
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
				
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
				

				
public class ExplodeMap extends GenericUDTF{
				

				
@Override
				
public void close() throws HiveException {
				
// TODO Auto-generated method stub 
				
}
				

				
@Override
				
public StructObjectInspector initialize(ObjectInspector[] args)
				
throws UDFArgumentException {
				
if (args.length != 1) {
				
throw new UDFArgumentLengthException("ExplodeMap takes only one argument");
				
}
				
if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {
				
throw new UDFArgumentException("ExplodeMap takes string as a parameter");
				
}
				

				
ArrayList fieldNames = new ArrayList();
				
ArrayList fieldOIs = new ArrayList();
				
fieldNames.add("col1");
				
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
				
fieldNames.add("col2");
				
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
				

				
return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);
				
}
				

				
@Override
				
public void process(Object[] args) throws HiveException {
				
String input = args[0].toString();
				
String[] test = input.split(";");
				
for(int i=0; i
				
try {
				
String[] result = test[i].split(":");
				
forward(result);
				
} catch (Exception e) {
				
continue;
				
}
				
}
				
}
				
}

3. 使用方法

UDTF有两种使用方法，一种直接放到select后面，一种和lateral view一起使用。

1：直接select中使用：select explode_map(properties) as (col1,col2) from src;

不可以添加其他字段使用：select a, explode_map(properties) as (col1,col2) from src

不可以嵌套调用：select explode_map(explode_map(properties)) from src

不可以和group by/cluster by/distribute by/sort by一起使用：select explode_map(properties) as (col1,col2) from src group by col1, col2

2：和lateral view一起使用：select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;

此方法更为方便日常使用。执行过程相当于单独执行了两次抽取，然后union到一个表里。

阅读(831) | 评论(0) | 转发(0) |

上一篇：Hive的安装配置

下一篇：Hive的一些小技巧

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6