XML中的非法字符的处理-剑心通明-ChinaUnix博客

文章分类

文章存档

2009年（669）

2008年（6790）

我的朋友

最近访客

推荐博文

XML中的非法字符的处理

分类：

2008-05-16 17:53:55

在开发中遇到了这样的问题。UTF-8编码的字符保存到数据库时可能因为字符串过长被截取保存了，截取后的数据很可能就包含非法字符了。这样的字符放到中，会导致整个XML不合法，无法被解析，程序对数据的依赖性太大。即使是放到CDATA中也是如此。所以必须对可能的非法字串进行预处理。

发现PHP有个函数mb_check_encoding，可以判断是否是某个编码的合法字串：

function validUTF($str){
   if( mb_check_encoding($str,"UTF-8") )
      return $str;
else
    return "Unknow data";
}

用上面的函数，返回的就一定是合法的UTF-8字串了，可用于组装XML. 非法数据毕竟是少数，用Unknow data代替。

阅读(834) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们