Chinaunix首页 | 论坛 | 博客
  • 博客访问: 415208
  • 博文数量: 45
  • 博客积分: 4075
  • 博客等级: 上校
  • 技术积分: 666
  • 用 户 组: 普通用户
  • 注册时间: 2007-04-24 18:09
个人简介

百度网页搜索部高级工程师 我的微博:http://weibo.com/pengwh85

文章分类

全部博文(45)

文章存档

2012年(3)

2011年(1)

2010年(19)

2009年(10)

2008年(12)

我的朋友

分类: LINUX

2010-08-03 15:04:18

    搜狗语料库默认编码都是GBK,而现在大部分Linux下都使用UTF-8编码,为了使用方便,先把其都转换一下编码。搜狗语料库(我这里用的是分类语料库)一般就两层目录:
    顶层目录-分类目录
 
--------------------------- convert2Utf.sh ---------------------------------
#! /bin/bash
echo 'convert dir: ' $1
cd $1
ls | while read d; do
        if [ -d $d ]; then
                echo 'processing dir: ' $d ' ...'
                cd $d
                ls | while read f; do
                        if [ -f $f ]; then
#count=`expr $count + 1`
                                echo 'convert file: ' $f
                                iconv -f 'GBK' -t 'UTF-8' $f > $f.bak
                                rm $f
                                mv $f.bak $f
                        fi
                done
                cd ..
        fi
done
cd ..
 
----------------------------------------------------------------------------
 
假设要转换当前目录下的Sample/目录下所有文件编码,直接运行:
$./convert2Utf.sh ./Sample
阅读(2031) | 评论(1) | 转发(1) |
给主人留下些什么吧!~~

chinaunix网友2010-11-03 22:07:53

很好