eleqi:文章不错很实用
哇!兄弟身体要紧啊!
(发表于2005-2-2 21:36:00)
superdai:我靠,也不能总吃方便面吧。
有段时间也是天天吃,那东西吃多会有问题的。
(发表于2005-2-3 8:33:00)
starcat2002:我也一样,公司不给饭就只能啃方便面~~~
(发表于2005-2-3 9:14:00)
zyl910:从Wndows2000开始,Windows系统就支持了UTF-8代码页65001
(甚至还支持UTF-7——65000)
先使用代码页65001调用MultiByteToWideChar将UTF-8转为UTF-16LE(Windows中的Unicode字符串实际上是UTF-16LE)
再使用代码页936调用WideCharToMultiByte将UTF-16LE字符串转为GB2312字符串
CP_ACP是指系统代码页
只有在“中文(中国)”的时候
CP_ACP才等价与GB2312
所以在必需转成GB2312时必须写清楚936
从Windows98开始
代码页936不再指GB2312-1980
而是GBK——GB2312扩展
GBK的收录了2万多字,简体繁体都有(GB13000-1993的字汇范围)
现在最新的汉子标准是GB18030-2000
允许4字节编码的汉字
所以编码空间是260万
足够收录所有汉字
但是只有WindowsXP(及以上,如Windows Server 2003)才在内核上支持GB18030-2000(Win2000需要打补丁)
GB18030-2000的代码页是54936
(发表于2005-2-3 9:31:00)
wuhuaqiang:什么都别说了,换一份工作吧;写文章的事情不着急。
看过你的另一篇ftp断点续传的文章,学到了一些东西。
(发表于2005-2-3 10:20:00)
sllihui:请作者贴出UTF-8转换成GB2312的实现函数。谢谢。
我截获网页数据包。可以通过这种办法将乱码转成汉字吗??
(发表于2005-2-3 13:24:00)
shines:
char *buffer = NULL;
int buffersize;
buffersize = WideCharToMultiByte(CP_UTF8, MB_PRECOMPOSED, unicode, wide_size, NULL, 0, NULL, 0);
buffer = new char[buffersize+1];
BOOL bUsedDefaultChar = FALSE;
int sizeUTF = WideCharToMultiByte(CP_UTF8, MB_PRECOMPOSED, unicode, wide_size,
buffer, buffersize+1,
NULL, NULL);
if (sizeUTF != 0)
{
buffer[sizeUTF] = 0;
strUTF = buffer;
bSuccess = true;
}
else
{
strUTF = _T("");
bSuccess = false;
}
delete[] unicode;
delete[] buffer;
delete[] byteArray;
return bSuccess;
}
(发表于2005-2-6 17:19:00)
shines:bool ConvGB2312ToUTF8(CString strGB2312, CString& strUTF)
{
int nLength = strGB2312.GetLength();
bool bSuccess = false;
if (nLength == 0)
{
strUTF = _T("");
return false;
}
int nByteLength = nLength + 1;
char *byteArray = NULL;
byteArray = new char[nByteLength];
if (byteArray == NULL)
return false;
strcpy(byteArray, (LPCTSTR)strGB2312);
wchar_t *unicode = NULL;
int uni_size;
uni_size = MultiByteToWideChar(LANG_CP_GB2312, 0, byteArray, nLength, NULL, 0);
unicode = new wchar_t[uni_size+1];
int wide_size = MultiByteToWideChar(LANG_CP_GB2312, 0, byteArray, nLength, unicode, uni_size+1);
unicode[wide_size] = 0;
if (wide_size == 0)
{
delete[] buffer;
return false;
}
(发表于2005-2-6 17:19:00)
shines:UTF-8就是专门手机这种嵌入式设备的新的编码法,他的特点是,传统的ASCII字符还是以一个字
节来表示的,但是如果字符不属于ASCII字符集时,就用两至三个位来表示。
在 0x0001-0x007F之间的字符(传统的ASCII字符)用一个位来表示
0 | bits0-6
在 0x000以及在0x0080-0x07FF之间的字符使用下面来表示:
1 | 1 | 0 | bits 6-10 | 1 | 0 | bits 0-5
如果虚拟机看到这样的一个字符的话,虚拟机会把第一个字节最前头的110以及第二个字节的前头
的10拿掉把剩下的位重新组合成一个2字节的数位来表示字符:
00000 | bits 6-10 | bits 0-5
同理,0x0800 - 0xFFFF的字符表示:
1 | 1 | 1 | 0 | bits 12-15 | 1 | 0 | bits 6-11 | 1 | 0 | bits 0-5
也可以用同样的方法重新组合成一个两个字节的字符串来
特别需要注意的是kjava中的null字符也使用两个字节来表示而不是一个字节:)
******************************************************************************/
(发表于2005-2-6 17:21:00)
shines:/*****************************************************************************
手机里面的字符串基本上都是采用的UTF-8的编码法。
而我们在PC机器上所采用的基本上都是ASCII和unicode编码法
ASCII编码法是单字节的编码方法,只能表示256个字符,英文字母是足够了
但是无法表示汉字
unicode是双字节的编码法,可以用来表示汉字,但是却对于一般的英文字母浪费了太多的空间
(至少面对于手机的存储是这样的)。
(发表于2005-2-6 17:21:00)
shines:贴一个我自己写的GB2312转UTF8的函数,也许比楼主的简单一些,如果是要转换成的格式那种的话,则需要另外写,其实中的 "FFFF" 就是Unicode的十六进制表示。
这里的UTF8编码方式,与Java的InputStream.WriteUTF()的编码方式一致。
由于评论只能贴1000个字,所以采取这种倒贴的方式,请见谅,大家合起来看吧
(发表于2005-2-6 17:23:00)
shines:另外补充一下,我的程序也许只能在Win2000、WinNT以后(XP,Win2003等)的系统工作,Win98下是否可以没有试过,这年头很少用这个系统了
(发表于2005-2-6 17:27:00)
Mycro:谁知道Unix下,除了ICU,还有什么更简单的办法?
我不想用XML4C来搞。。
(发表于2005-2-16 21:48:00)
hryyx:强烈建议作者贴出UTF-8转换成GB2312的实现函数。谢谢。
否则文章与题目就不符了,UTF-8与GB2312之间的“互换”
(发表于2005-2-18 10:48:00)
CodeStylite:// LPSTR str = "浠嬬粛";
LPSTR str = new char[14];
BYTE a[] = { 0x54, 0x65, 0x78, 0x74, 0xE5,
0x92, 0x8C, 0xE4, 0xB8, 0xAD,
0xE6, 0x96, 0x87 };
memset( str, 0, 14 );
memcpy( str, a, 13 );
CString strGB;
/*可逆
// int n = (str[0]+256)*256+str[1]+256;
// char c1,c2;
// c1 = n/256 - 256;
// c2 = n%256 - 256;
// strGB.Format("%c%c", c1, c2 );
*/
// LPSTR lpstr = new char[1024];
LPWSTR lp = new unsigned short[1024];
// for( int i=0; i<3;i++)
// lp[i] = (str[i*2]+256)*256 + str[i*2+1]+256;
// nLeft = strTemp.GetAt(0) + 256;
// nRight = strTemp.GetAt(1) + 256;
// nCode = ( nLeft<<8 ) + nRight;
memset( lp, 0, 1024 );
// WideCharToMultiByte( CP_UTF8, 0, lp, 3, lpstr, 1024, NULL, NULL );
MultiByteToWideChar( CP_UTF8, 0, str, 100, lp, 1024);
strGB.Empty();
for( int i= 0; i <100; i++ )
{
char c1,c2;
c1 = lp[i]/256-256;
c2 = lp[i]%256-256;
//strGB.Format("%c%c",c1,c2);
strGB += c1 + c2;
}
(发表于2005-2-23 14:01:00)
sandy6173:呵呵,我忘记给出UTF-8 转 GB2312的代码,对不起啊,代码如下:
(发表于2005-3-3 9:52:00)
sandy6173:char * CXmlProcess::TranslateUTF_8ToGB(char *xmlStream, int len) //len 是xmlStream的长度
{
char * newCharBuffer = new char[len];
int index =0;
int nCBIndex = 0;
while(index < len)
{
if(xmlStream[index] > 0) // 如果是GB2312的字符
{
newCharBuffer[nCBIndex] = xmlStream[index]; //直接复制
index += 1; //源字符串偏移量1
nCBIndex += 1; //目标字符串偏移量1
}
else //如果是UTF-8的字符
{
WCHAR * Wtemp = this->UTF_8ToUnicode(xmlStream + index); //先把UTF-8转成Unicode
char * Ctemp = this->UnicodeToGB2312(*Wtemp);//再把Unicode 转成 GB2312
newCharBuffer[nCBIndex] = * Ctemp; // 复制
newCharBuffer[nCBIndex + 1] = *(Ctemp + 1);
index += 3; //源字符串偏移量3
nCBIndex += 2; //目标字符串偏移量2 因为一个中文UTF-8占3个字节,GB2312占两个字节
}
}
newCharBuffer[nCBIndex] = 0; //结束符
return newCharBuffer;
}
(发表于2005-3-3 9:53:00)
Mycro:对于编码函数,效率要求非常高;
//将2进制数转换成16进制
static char* BinToHex(char pc);
可以这样写:
int CChineseCodeLib::BinToInt(char *pBin)
{
int m_Dec = 0;
int m_Len = strlen(pBin);
for(int i =0 ;i < m_Len ;i ++)
{
m_Dec = (m_Dec << 1) + (pBin[i] - '0');
}
return m_Dec;
}
(发表于2005-4-9 1:19:00)
Mycro://看了1个多小时,原来是这个意思
WCHAR* CXmlProcess::UTF_8ToUnicode(char *pText)
{
char char_one;
char char_two;
char char_three;
char uchar[2];
WCHAR *unicode;
char_one = pText[0];
char_two = pText[1]);
char_three = pText[2];
uchar[1] = ((char_one & 0x0F) << 4) + ((char_two >> 2) & 0x0F);
uchar[0] = (char_two & 0x03) << 6 + (char_three & 0x3F);
unicode = (WCHAR *)uchar;
return unicode;
}
(发表于2005-4-9 3:28:00)
Mycro://对不起,少加了个扩号
WCHAR* CXmlProcess::UTF_8ToUnicode(char *pText)
{
char uchar[2];
WCHAR *unicode;
char_one = pText[0];
char_two = pText[1]);
char_three = pText[2];
uchar[1] = ((pText[0] & 0x0F) << 4) + ((pText[1] >> 2) & 0x0F);
uchar[0] = ((pText[1] & 0x03) << 6) + (pText[2] & 0x3F);
unicode = (WCHAR *)uchar;
return unicode;
}
(发表于2005-4-9 3:40:00)
zztop5384:int WideCharToMultiByte(
UINT CodePage, // code page
DWORD dwFlags, // performance and mapping flags
LPCWSTR lpWideCharStr, // wide-character string
int cchWideChar, // number of chars in string
LPSTR lpMultiByteStr, // buffer for new string
int cbMultiByte, // size of buffer
LPCSTR lpDefaultChar, // default for unmappable chars
LPBOOL lpUsedDefaultChar // set when default char used
); //将宽字符转换成多个窄字符
这些只是函数原型,并没有具体实现
(发表于2005-4-18 10:27:00)
zztop5384:帮忙弄以下
(发表于2005-4-18 10:35:00)
鬼龙之舞:支持楼主!是因为你我才写出来的,不管是在体积还是在速度,相信都比楼主的强一点,如果不考虑移植性的话
感谢楼主!!
UTF8toUnicode proc uses esi edi lpszBuf_OUT,lpszUTF8_IN
mov esi,lpszUTF8_IN
mov edi,lpszBuf_OUT
.while TRUE
mov al,[esi]
.if sbyte ptr al <0
mov al,[esi]
and al,00001111b
shl al,4
mov [edi+1],al
mov al,[esi+1]
and al,00111100b
shr al,2
or [edi+1],al
mov al,[esi+1]
and al,11b
shl al,6
mov [edi+0],al
mov al,[esi+2]
and al,00111111b
or [edi+0],al
add edi,2
add esi,3
.elseif al
xor ah,ah
stosw
inc esi
.else
mov WORD ptr [edi],0
.break
.endif
.endw
ret
UTF8toUnicode endp
(发表于2005-8-25 16:11:00)
鬼龙之舞:UnicodetoUTF8 proc uses esi edi lpBuf_OUT,lpszUTF8_IN
mov esi,lpszUTF8_IN
mov edi,lpBuf_OUT
.while TRUE
mov ax,[esi]
.if ax==0
stosw
.break
.elseif ah==0
add esi,2
stosw
.else
mov al,[esi+1]
shr al,4
or al,11100000b
mov [edi+0],al
mov al,[esi+1]
and al,00001111b
shl al,2
or al,10000000b
mov ah,[esi+0]
shr ah,6
or al,ah
mov [edi+1],al
mov al,[esi+0]
and al,00111111b
or al,10000000b
mov [edi+2],al
add edi,3
add esi,2
.endif
.endw
ret
UnicodetoUTF8 endp
(发表于2005-8-25 16:11:00)
鬼龙之舞:晕.格式没有了
原文请看
(发表于2005-8-25 16:13:00)
robin_fox_nan:shines在2005-2-6,提供了一段程序,里面有
buffersize = WideCharToMultiByte(CP_UTF8, MB_PRECOMPOSED, unicode, wide_size, NULL, 0, NULL, 0);
buffer = new char[buffersize+1];
但是,我在调试的时候发现:buffersize似乎已经预先留了‘\0’的位置,或者是不是我出错了
比如:“i love you,爱”GB2312是需要14个字节
UTF8是需要15个字节,返回时候就是这些了啊,
我的地址是:robin-fox@sohu.com,
谁能回答以下,感谢!!
(发表于2006-3-19 20:20:00)
kudoo:translateCharToUTF_8的编码不对,
请作者检查一下,
如: "你是我的好朋友"
转换成了;"浣犳槸鎴戠殑濂芥i脲弸鍚?"
正确的应是:
"浣犳槸鎴戠殑濂芥湅鍙嬪悧"
对于有的编码还能对...
交流一下:kudoo.aos@gmail.com
(发表于2006-8-20 19:46:00)
雁过留声:[ 原创文档 本文适合中级读者 已阅读34485次 ]
搞笑,这种害人害己的文章还有这么多人访问。
作者光知道 WideCharToMultiByte 可以把 Unicode 转成 GB2312 就不知道也可以把 Unicode 转换为 UTF-8 吗?
其实这是一个很简单的程序,都被作者搞复杂了。
要实现 GB2312 (其实是GBK)转换为 UTF-8 其实很简单,先用 MultiByteToWideChar 把 GB2312 转换为 Unicode,再用 WideCharToMultiByte 把 Unicode 转换为 UTF-8 就可以了。
UTF-8 转换为 GB2312 是个相反的过程,先用 MultiByteToWideChar 把 UTF-8 转换为 Unicode,再用 WideCharToMultiByte 把 Unicode 转换为 GB2312 就可以了。
(发表于2007-1-11 9:11:00)
..........................................................................
--------------------next---------------------