搜狗语料库默认编码都是GBK,而现在大部分Linux下都使用UTF-8编码,为了使用方便,先把其都转换一下编码。搜狗语料库(我这里用的是分类语料库)一般就两层目录:
顶层目录-分类目录
--------------------------- convert2Utf.sh ---------------------------------
#! /bin/bash
echo 'convert dir: ' $1
cd $1
ls | while read d; do
if [ -d $d ]; then
echo 'processing dir: ' $d ' ...'
cd $d
ls | while read f; do
if [ -f $f ]; then
#count=`expr $count + 1`
echo 'convert file: ' $f
iconv -f 'GBK' -t 'UTF-8' $f > $f.bak
rm $f
mv $f.bak $f
fi
done
cd ..
fi
done
cd ..
----------------------------------------------------------------------------
假设要转换当前目录下的Sample/目录下所有文件编码,直接运行:
$./convert2Utf.sh ./Sample
阅读(2031) | 评论(1) | 转发(1) |