UnicodeDecodeError:'utf8'编解码器无法解码字节 0x9c
- 2024-09-30 15:23:00
- admin 原创
- 93
问题描述:
我有一个套接字服务器,应该从客户端接收 UTF-8 有效字符。
问题是一些客户端(主要是黑客)通过它发送了所有错误类型的数据。
我可以轻松区分真正的客户端,但我会将所有发送的数据记录到文件中,以便稍后进行分析。
有时我会收到这样的字符,œ
从而导致UnicodeDecodeError
错误。
我需要能够使字符串包含或不包含这些字符成为 UTF-8。
更新:
就我的特定情况而言,套接字服务是 MTA,因此我只希望接收如下 ASCII 命令:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
我正在用 JSON 记录所有这些。
然后一些心怀不轨的人决定发送各种垃圾邮件。
这就是为什么对于我的特定情况来说,删除非 ASCII 字符是完全可以的。
解决方案 1:
http://docs.python.org/howto/unicode.html#the-unicode-type
str = unicode(str, errors='replace')
或者
str = unicode(str, errors='ignore')
注意: 这将删除(忽略)有问题的字符并返回不包含这些字符的字符串。
对我来说这是理想的情况,因为我用它来保护我应用程序不允许的非 ASCII 输入。
或者:使用模块中的 open 方法codecs
读取文件:
import codecs
with codecs.open(file_name, 'r', encoding='utf-8',
errors='ignore') as fdata:
解决方案 2:
将引擎从 C 更改为 Python 对我来说很有效。
引擎是C:
pd.read_csv(gdp_path, sep=' ', engine='c')
‘utf-8’ 编解码器无法解码位置 18 处的字节 0x92:无效的起始字节
引擎是 Python:
pd.read_csv(gdp_path, sep=' ', engine='python')
对于我来说没有错误。
解决方案 3:
现在我已经转向 Python 3,这种问题就出现了。我不知道 Python 2 可以轻易解决文件编码方面的问题。
在上述方法都对我不起作用之后,我发现了这个关于差异的很好的解释以及如何找到解决方案。
http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html
简而言之,为了使 Python 3 的行为尽可能类似于 Python 2,请使用:
with open(filename, encoding="latin-1") as datafile:
# work on datafile here
然而,阅读本文后,你会发现,没有一种解决方案可以解决所有问题。
解决方案 4:
第一、使用get_encoding_type获取文件的编码类型:
import os
from chardet import detect
# get file encoding type
def get_encoding_type(file):
with open(file, 'rb') as f:
rawdata = f.read()
return detect(rawdata)['encoding']
第二步,使用以下类型打开文件:
open(current_file, 'r', encoding = get_encoding_type, errors='ignore')
解决方案 5:
>>> ''.decode('cp1252')
u'œ'
>>> print ''.decode('cp1252')
œ
解决方案 6:
我遇到了同样的问题UnicodeDecodeError
,我用这个方法解决了。不知道这是否是最好的方法,但对我来说很有效。
str = str.decode('unicode_escape').encode('utf-8')
解决方案 7:
当使用拉丁美洲口音(例如“ñ”)时,此解决方案效果很好。
我已经通过添加解决了这个问题
df = pd.read_csv(fileName,encoding='latin1')
解决方案 8:
以防万一有人遇到同样的问题。我正在使用 vim 和YouCompleteMe,无法启动 ycmd 并出现此错误消息,我所做的是:export LC_CTYPE="en_US.UTF-8"
,问题就解决了。
解决方案 9:
如果您需要更改文件,但不知道文件的编码,该怎么办?如果您知道编码与 ASCII 兼容,并且只想检查或修改 ASCII 部分,则可以使用 surrogateescape 错误处理程序打开文件:
with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
data = f.read()
解决方案 10:
类似的错误,例如
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 22: invalid start byte
read_csv()
如果有人尝试使用pandas打开 Excel 文件,也会显示此错误。改用pd.read_excel()
可解决此错误。
一个演示它的示例(文件名是 data_dictionary,因为数据字典通常是 Excel 文件,而数据集本身是 CSV 文件)。
import pandas as pd
# some sample data
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
df.to_excel('data_dictionary.xlsx', index=False)
df = pd.read_csv("data_dictionary.xlsx") # <----- error
df = pd.read_excel("data_dictionary.xlsx") # <----- OK
解决方案 11:
如果像您所说的那样,您只想允许纯 7 位 ASCII,则只需丢弃任何不符合要求的字节即可。无论如何,没有明确指定的编码,就没有直接的方法来猜测远程端希望它们表示什么。
while bytes := socket.read_line_bytes():
try:
string = bytes.decode('us-ascii')
except UnicodeDecodeError as exc:
logger.warning('[%s] - rejected non-ASCII input %s' % (client, bytes.decode('us-ascii', errors='backslashreplace'))
socket.write(b'421 communication error - non-ASCII content rejected
')
continue
...
解决方案 12:
我也犯了同样的错误。
对我来说,Python 抱怨字节“0x87”。我在<https://bytetool.web.app/en/ascii/code/0x87/>上查找了它,它告诉我这个字节属于编解码器 Windows-1252。
然后我只将这一行添加到我的 Python 文件的开头:
#-*- encoding: Windows-1252 -*-"
所有错误都消失了。在添加此行之前,我曾尝试使用 Pandas 导入文件,如下所示:
Df = pd.read_csv(data, sep=",", engine='python', header=0, encoding='Windows-1252')
但这返回了一个错误。所以我将其改回如下:
Df = pd.read_csv(data, sep=",", engine='python', header=0)
解决方案 13:
django-storage 隐式支持以文本模式读取字节文件,直到 django-storage == 1.8
删除了https://github.com/jschneier/django-storages/pull/657中的支持
需要指定读取字节文件的二进制模式。
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件