标签存档: Encoding

在JScript中使用ADODB.Stream判断文件编码

作者: Xu Jiwei 日期: 5月 31, 2008 没有评论

在实现TextStraem的时候，找到判断文件编码的代码是VBS的，但是在JScript中是没有ASC等函数的，也不能对二进制数据进行处理，因此需要通过一个特别的方法来获取文件开关的编码标识。

一开始使用ASCII编码来读取文本数据，模拟读取二进制数据，但是发现如果字符编码大于127时，只会得到小于128的值，相当于和128取余了，因此ASCII编码是不行的。

继续寻找，在CodeProejct.com找到一篇文章《Reading And Writing Binary Files Using JScript》，里面刚好有我需要的内容。

其实说来也简单，就是把编码换一下，使用437，这个是IBM扩展过的ASCII编码，把ASCII编码的最高位也利用起来，将字符集中的字符从128个扩展到256个，而使用这个字符集读取的字符数据就相当于原始二进制数据了。

解决了障碍后，就要开始识别文件的编码了，通过使用ADODB.Stream对象来读取文件的开始两个字节，然后根据这两个字节就可以判断文件编码是什么了。

UTF-8文件如果带BOM的话，那么头两个字节就是0xEF、0xBB，再例如Unicode文件的开始两个字节是0xFF、0xFE，这些就是判断文件编码的依据。

需要注意的是，在ADODB.Stream读取字符时，并不是一一对应的，也就是说，如果二进制数据是0xEF，读取出来的字符经过charCodeAt之后，并不是0xFE，而是另外的值，这个对应表可以在上面提到的文章里查到。

作者: Xu Jiwei 日期: 4月 19, 2008 没有评论

页面的上部比正常状态下多出一块空白，而且整个页面的布局完全是混乱的。

一开始以为是服务器上文件版比本地的文件版本旧的原因，比对了一番没找到不同的，然后想到会不会是文件编码的问题。

切换到Zend Studio，找到首页的模板文件，属性里一看，编码UTF-8，对的，但是下面一行字引起了我的注意，“Byte Order Mark is UTF-8 (BOM)”，于是就想是不是这个玩意引起的布局混乱。

打开EditPlus，设置文件保存选项为一直删除BOM，打开首页模板，保存，上传，测试，没有问题！

看来果然是BOM的问题了，接下来的事就比较机械了，在模板文件里看哪些是带了BOM的，直接到EditPlus里走一遭就行了。

解决了这个问题才想起来，有些模板为了转换成UTF-8编码的，就用记事本打开文件，然后另存为UTF-8编码了，但是记事本是会给UTF-8编码的文件加上BOM的，因此就引起了首页布局的混乱。

嗯，问题解决，就这样。

作者: Xu Jiwei 日期: 11月 17, 2007 没有评论

在AJAX开发中，编码问题往往是令开发者比较头痛的，特别是在编码不是UTF-8的情况下。虽然这篇文章是讲的怎么处理乱码问题的，但是我还是推荐在做AJAX开发的时候使用UTF-8编码，这样可以避免很多问题。

AJAX中，XMLHttpRequest发送数据和接收数据的时候往往都是使用UTF-8来处理数据的，也就是说，虽然程序是使用GB2312作为编码的，但是XMLHttpRequest还是以UTF-8来处理，这样就导致乱码问题了。

所以如果要解决乱码问题，可以通过指定文件编码来解决。指定文件编码后，XMLHttpRequest就会使用指定的编码来处理文件，这样，碰到GB2312编码的文件时，XMLHttpRequest还是能以GB2312编码来读取文件，这样就能避免乱码了。

要设置编码方式，可以发送ContentType头来指定。

在ASP里，要设置ContentType，可以用以下语句：

在ContentType里，charset就指定了文件编码。

一般在AJAX客户端需要处理和显示中文数据时候，最好在服务端设置文件编码，即设置ContentType。如果服务端不知道是否会返回中文数据，那么还是设置一下编码的好。

这样处理AJAX中乱码的方法并不局限于ASP，比如在PHP里也可以使用header函数来设置ContentType。其实理论上只要能在服务端设置HTTP请求的header，就能通过这样的方式来解决乱码问题。

就这样。