UTF8的BOM

windows下用notepad++写一python脚本 test.py，编码方式为utf8:

f=open("test.py")
line=f.readline()
while line:
	print (line,)
	line=f.readline()
f.close()

执行python test.py出错：

$ python test.py
Traceback (most recent call last):
  File "test.py", line 7, in <module>
    print (line)
UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence

原因是编码方式为带bom的UTF8，改成无bom就好了。

关于bom：

UTF- 8编码的文件中，BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话，用UE打开这个文件，切换到十六进制编辑状态就可以看到开头的FFFE了。这是个标识UTF-8编码文件的好办法，软件通过BOM来识别这个文件是否是UTF-8编码，很多软件还要求读入的文件必须带BOM。可是，还是有很多软件不能识别BOM。

上面的报错中的 '\ufeff' 正是带bom的文件开头的 FFFE。

另，改了之后如果文件中有中文一样会报错，这时需要指定以何种编码读取文件：

f=open("test.py",encoding=("utf8"))

Netbeans的报错比较明确：

File ”<string>”, line None SyntaxError: Non-ASCII character in file 'D:\NetBeansProjects\NewPythonProject\src\newpythonproject.py', but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

参考：http://afericazebra.blog.163.com/blog/static/30050408201211199298711/

4 thoughts on “UTF8的BOM”

雨痕 on 2014 年 3 月 19 日 at 19:06 said:

最近Blog变化略大啊…

Reply ↓
- annhe_net on 2014 年 3 月 20 日 at 00:18 said:
  
  手抖删掉了主题，才想起来那主题自己修改过很多（现在的主题是重新装的）
  
  Reply ↓
test on 2014 年 3 月 18 日 at 12:54 said:

测试一下

Reply ↓
- annhe_net on 2014 年 3 月 18 日 at 12:55 said:
  
  .........................................
  
  Reply ↓

知行近思

知行合一，切问近思

4 thoughts on “UTF8的BOM”

发表回复取消回复

相关文章:

4 thoughts on “UTF8的BOM”

发表回复 取消回复

发表回复取消回复