不用iconv函数实现UTF-8编码转换GB2312的PHP函数-剑心通明-ChinaUnix博客

BSD爱好者乐园jxtm.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

剑心通明

博客访问： 19521457
博文数量： 7460
博客积分： 10434
博客等级：上将
技术积分： 78178
用户组：普通用户
注册时间： 2008-03-02 22:54

文章分类

全部博文（7460）

武林英雄攻略（0）
淘宝网推荐（0）

节日礼物（0）

特产美食（0）

运动户外（0）

计算机相关（0）

女人（0）

男人（0）

母婴（0）

居家（0）

美容时尚（0）

手机数码（0）
其他（0）
数据库/php网页编（0）
交换机/路由器/网（0）
AIX（0）
MacOS（0）
C程序设计（0）
BSD相关（0）
shell脚本（0）
未分配的博文（7460）

文章存档

2011年（1）

2009年（669）

2008年（6790）

我的朋友

最近访客

推荐博文

不用iconv函数实现UTF-8编码转换GB2312的PHP函数

分类：

2008-05-29 21:46:51

如果使用 iconv() 函数转换编码就相比比较简单了，不过很多虚拟主机里并不支持这个组件，我在网上找半天，才找到一个gb2312转utf-8的方法，但不能逆向转换。

这个函数如下：

以下为引用的内容：
*******************************
//GB转UTF-8编码
*******************************/
function gb2utf8($gbstr) {
global $CODETABLE;
if(trim($gbstr)=="") return $gbstr;
if(empty($CODETABLE)){
  $filename = dirname(__FILE__)."/gb2312-utf8.table";
  $fp = fopen($filename,"r");
  while ($l = fgets($fp,15))
  { $CODETABLE[hexdec(substr($l, 0, 6))] = substr($l, 7, 6); }
  fclose($fp);
}
$ret = "";
$utf8 = "";
while ($gbstr) {
  if (ord(substr($gbstr, 0, 1)) > 127) {
   $thisW = substr($gbstr, 0, 2);
   $gbstr = substr($gbstr, 2, strlen($gbstr));
   $utf8 = "";
   @$utf8 = u2utf8(hexdec($CODETABLE[hexdec(bin2hex($thisW)) - 0x8080]));
   if($utf8!=""){
    for ($i = 0;$i < strlen($utf8);$i += 3)
     $ret .= chr(substr($utf8, $i, 3));
   }
  }
  else
  {
   $ret .= substr($gbstr, 0, 1);
   $gbstr = substr($gbstr, 1, strlen($gbstr));
  }
}
return $ret;
}
//Unicode转utf8
function u2utf8($c) {
for ($i = 0;$i < count($c);$i++)
  $str = "";
if ($c < 0x80) {
  $str .= $c;
} else if ($c < 0x800) {
  $str .= (0xC0 | $c >> 6);
  $str .= (0x80 | $c & 0x3F);
} else if ($c < 0x10000) {
  $str .= (0xE0 | $c >> 12);
  $str .= (0x80 | $c >> 6 & 0x3F);
  $str .= (0x80 | $c & 0x3F);
} else if ($c < 0x200000) {
  $str .= (0xF0 | $c >> 18);
  $str .= (0x80 | $c >> 12 & 0x3F);
  $str .= (0x80 | $c >> 6 & 0x3F);
  $str .= (0x80 | $c & 0x3F);
}
return $str;
}

因为gb2312都是双字节的，因此转换为utf-8就相对比较简单，但反之有很麻烦了，我尝试了一下：

这样

function utf82u_3($c)
{
      $n = (ord($c[0]) & 0x1f) << 12;
      $n += (ord($c[1]) & 0x3f) << 6;
      $n += ord($c[2]) & 0x3f;
      return $n;
}

按这种方法，大部份字符也算是能转换成功的了，不过总是有点不妥之处，我把程序改成这样子：

阅读(615) | 评论(0) | 转发(0) |

上一篇：关于GB编码的一些常识

下一篇：用php写的一个HTTP下载类

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6