C++编码转换问题-pamire-ChinaUnix博客

进步每一天pamire.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

pamire

博客访问： 2742429
博文数量： 416
博客积分： 10220
博客等级：上将
技术积分： 4193
用户组：普通用户
注册时间： 2006-12-15 09:47

文章分类

全部博文（416）

math（1）
android（6）
QT4（37）
邮件系统（6）
财经（1）
多媒体（59）

H264（5）

MPEG（6）

DirectShow（44）
数据库（3）

mongo（0）

ORACLE（2）

MYSQL（0）
程序语言（242）

脚本（22）

MFC（15）

COM（7）

PHP（9）

JAVA（5）

C++（78）

C语言（12）

VC（89）
杂谈（24）
算法（2）
搜索（4）

clucene（2）

lucene（2）
分词（21）

产品（4）

编码（3）
LINUX（4）
未分配的博文（6）

文章存档

2022年（1）

2021年（1）

2020年（1）

2019年（5）

2018年（7）

2017年（6）

2016年（7）

2015年（11）

2014年（1）

2012年（5）

2011年（7）

2010年（35）

2009年（64）

2008年（48）

2007年（177）

2006年（40）

我的朋友

jpwang09

相关博文

C++编码转换问题

分类： C/C++

2007-01-27 10:39:02

在做Clucene与lucene生成的Index文件相互兼容时，遇到了编码转换问题。它们的兼容性对于非英文的编码可能都会存在这样的问题，经过跟踪clucene程序，发现它用的是unicode编码方式储蓄，因此，要先把字符串或文件转换成unicode编码，然后再进行其它处理。

转换的具体代码如下(Linux与vc6.0测试通过)：

#ifndef _UNIX
static inline int codepage(const char* code_page)
{
return 936;//"GBK"
}
#endif

static inline int mb2wc(const char* code_page,/*in*/const char* in,int in_len,
/*out*/wchar_t* out,int out_max)
{
#ifdef _UNIX
size_t result;
iconv_t env;
env = iconv_open("WCHAR_T",code_page);
result = iconv(env,(char**)&in,(size_t*)&in_len,(char**)&out,(size_t*)&out_max);
iconv_close(env);
return (int) result;
#else
return ::MultiByteToWideChar(codepage(code_page),0,in,in_len,out,out_max);
#endif
}

static inline int wc2mb(const char* code_page,/*in*/const wchar_t* in,int in_len,
/*out*/char* out,int out_max)
{
#ifdef _UNIX
size_t result;
iconv_t env;
env = iconv_open(code_page,"WCHAR_T");
result = iconv(env,(char**)&in,(size_t*)&in_len,(char**)&out,(size_t*)&out_max);
iconv_close(env);
return (int) result;
#else
return ::WideCharToMultiByte(codepage(code_page),0,in,-1,out,out_max, NULL, NULL);
#endif
}

void str_to_UnicodeChar(const char* strIn,TCHAR* &strOut){
if(!strIn)
return;

int i= mb2wc("936",(char*)strIn, -1, NULL, 0);
strOut = (TCHAR*)malloc(sizeof(TCHAR)*i);
mb2wc("936",(char*)strIn, -1, strOut, i);
}
void UnicodeChar_to_str(const TCHAR* strIn,char* &strOut){
if(!strIn)
return;

int i = wc2mb("936",strIn,-1,NULL,0);
strOut = new char[i+1];
wc2mb("936", strIn, -1, strOut, i);
strOut[i] = 0;
}

void tchar_to_str(const const TCHAR* strIn ,char* &strOut){
int i=0;
if(!strIn)
  return ;
strOut = new char[1024];

while(*strIn) {
  strOut[i]=*strIn++;
  i++;
}
strOut[i]='\0';
}

阅读(2762) | 评论(0) | 转发(0) |

上一篇：GrabBitmaps抓图过程

下一篇：clucene+ictclas接口

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6