脚踏实地、勇往直前!
全部博文(1005)
分类: HADOOP
2017-12-07 11:26:32
平时我们在将外部文件导入到hive表的过程中,要是原文件包含有中文的,导入就经常会出现乱码,这个时候我们可以事先把文件编码格式修改为utf8后再导入.
1.查看文件的当前的编码
[hadoop@master exter_data]$ file --mime-encoding provcode.TXT
provcode.TXT: iso-8859-1
2.转换为utf8格式
iconv -f iso-8859-1 -t utf-8 provcode.TXT -o provcode.TXT.utf8
3.然后进行导入
load data local inpath '/opt/hadoop/exter_data/provcode.TXT.utf8' into table xxx