真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法

全栈程序员-用户IM • 2022年6月24日下午8:00 • 未分类

真正解决Windows下UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0错误的方法问题现象：在Windows下使用Python读文件时，经常遇到UnicodeDecodeError:’gbk’codeccan’tdecodebyte0xffinposition0:illegalmultibytesequence错误。在open函数参数中设置encoding=’utf-8’也不能解决问题，会出现UnicodeDecodeError:’utf-8’codeccan’tdecodebyte0xffinposition0:invalidsta

大家好，又见面了，我是你们的朋友全栈君。

问题现象：

在Windows下使用Python读文件时，经常遇到UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xff in position 0: illegal multibyte sequence错误。

在open函数参数中设置encoding=’utf-8’也不能解决问题，会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte类似错误。

问题原因：

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式，含义为：

ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
Unicode: UTF-16(LE)
Unicode big endian: UTF-16(BE)
UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种，这3种编码方式的区别不再赘述，我们可以从文件的头部（即Windows中的特色！BOM:byte order mark）来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时，是UTF-16(LE)编码；当头部的两个字节为FEFF时，是UTF-16(BE)编码；当头部两个字节为EF BB时，是UTF-8-sig编码。

因此，错误信息中0xff说明文件的编码为UTF-16！因此，设置UTF-8编码根本不解决问题。

解决方法：

在open函数encoding参数中设置正确的文件编码。

推荐使用chardet模块，检测文件编码方式。chardet非标准库模块，需要安装：pip install chardet

示例代码：

# coding=utf-8
def check_charset(file_path):
    import chardet
    with open(file_path, "rb") as f:
        data = f.read(4)
        charset = chardet.detect(data)['encoding']
    return charset

your_path = 你的文件路径
with open(your_path, encoding=check_charset(your_path)) as f:
    data = f.read()
    print(data)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/149493.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

Python超越Java语言，跃居世界编程语言第2位了！你却还在犹豫学不学Python？

Python超越Java语言，跃居世界编程语言第2位了！你却还在犹豫学不学Python？一、前言C、Java、Python作为常据世界编程语言排行榜的前三甲，必然有其得天独厚的优势。以下是2021年5月最新的高级编程语言排行榜，可以看到，Python已经超越Java语言跃居世界第二位，为什么Python越来越受欢迎了呢？看完以下几个例子，你就知道为什么了！二、几个案例让你想学Python2.1交换变量值Python在这里插入代码片C在这里插入代码片Java在这里插入代码片2.2筛选列表2.32.4…

全栈程序员-用户IM
2022年5月18日
pycharm怎么看函数源代码_python查看第三方库的源码

pycharm怎么看函数源代码_python查看第三方库的源码pycharm查看python源代码

全栈程序员-用户IM
2022年8月28日
DDR3原理详解_判断能量信号和功率信号

DDR3原理详解_判断能量信号和功率信号转自：http://www.360doc.com/content/14/0116/16/15528092_345730642.shtml 首先，我们先了解一下内存的大体结构工作流程，这样会比较容量理解这些参数在其中所起到的作用。这部分的讲述运用DDR3的简化时序图。 DDR3的内部是一个存储阵列，将数据“填”进去，你可以它想象成一张表格。和表格的检索原理一样，先指定一个行（Row），再指定一个…

全栈程序员-用户IM
2022年10月25日
播放ipod歌曲

播放ipod歌曲

全栈程序员-用户IM
2021年8月17日
redis默认端口为什么是6379_redis连接池的作用

redis默认端口为什么是6379_redis连接池的作用找到redis的安装目录，正常应该都会在/usr/local/下*cd/usr/local/redis-5.0.8*viredis.conf*键入i>>修改默认端口号：6379>>6380，esc>>:wq*redis-server/usr/local/redis-5.0.8/redis.conf

全栈程序员-用户IM
2022年9月17日
SQL嵌套查询_sql差集嵌套

SQL嵌套查询_sql差集嵌套selecttop11from…主要是用来判断表是否有记录TRUNCATE：删除内容、释放空间但不删除定义，保留数据表的结构删除目标表中所有字段，不影响表结构派生表：派生表就是一个由查询结果生成的临时表。他是在外部查询的FROM中定义的。派生表的存在范围只是在外部查询中，只要外部查询结束了，派生表也就不存在了。派生表一定要写在FROM后面范围内，用（）括起来。后面跟着派生表的名称。se…

全栈程序员-用户IM
2022年8月10日

发表回复

关注全栈程序员社区公众号