UnicodeDecodeError：'utf8'编解码器无法解码字节 0x9c-IT科技

摘要：问题描述：我有一个套接字服务器，应该从客户端接收 UTF-8 有效字符。问题是一些客户端（主要是黑客）通过它发送了所有错误类型的数据。我可以轻松区分真正的客户端，但我会将所有发送的数据记录到文件中，以便稍后进行分析。有时我会收到这样的字符，œ从而导致UnicodeDecodeError错误。我需要能够使字符串...

问题描述：

我有一个套接字服务器，应该从客户端接收 UTF-8 有效字符。

问题是一些客户端（主要是黑客）通过它发送了所有错误类型的数据。

我可以轻松区分真正的客户端，但我会将所有发送的数据记录到文件中，以便稍后进行分析。

有时我会收到这样的字符，œ从而导致UnicodeDecodeError错误。

我需要能够使字符串包含或不包含这些字符成为 UTF-8。

更新：

就我的特定情况而言，套接字服务是 MTA，因此我只希望接收如下 ASCII 命令：

EHLO example.com
MAIL FROM: &lt;john.doe@example.com>
...

我正在用 JSON 记录所有这些。

然后一些心怀不轨的人决定发送各种垃圾邮件。

这就是为什么对于我的特定情况来说，删除非 ASCII 字符是完全可以的。

解决方案 1：

http://docs.python.org/howto/unicode.html#the-unicode-type

str = unicode(str, errors=&#039;replace&#039;)

或者

str = unicode(str, errors=&#039;ignore&#039;)

注意： 这将删除（忽略）有问题的字符并返回不包含这些字符的字符串。

对我来说这是理想的情况，因为我用它来保护我应用程序不允许的非 ASCII 输入。

或者：使用模块中的 open 方法codecs读取文件：

import codecs
with codecs.open(file_name, &#039;r&#039;, encoding=&#039;utf-8&#039;,
                 errors=&#039;ignore&#039;) as fdata:

解决方案 2：

将引擎从 C 更改为 Python 对我来说很有效。

引擎是C：

pd.read_csv(gdp_path, sep=&#039;    &#039;, engine=&#039;c&#039;)

‘utf-8’ 编解码器无法解码位置 18 处的字节 0x92：无效的起始字节

引擎是 Python：

pd.read_csv(gdp_path, sep=&#039;    &#039;, engine=&#039;python&#039;)

对于我来说没有错误。

解决方案 3：

现在我已经转向 Python 3，这种问题就出现了。我不知道 Python 2 可以轻易解决文件编码方面的问题。

在上述方法都对我不起作用之后，我发现了这个关于差异的很好的解释以及如何找到解决方案。

http://python-notes.curiousefficiency.org/en/latest/python3/text_file_processing.html

简而言之，为了使 Python 3 的行为尽可能类似于 Python 2，请使用：

with open(filename, encoding=&quot;latin-1&quot;) as datafile:
    # work on datafile here

然而，阅读本文后，你会发现，没有一种解决方案可以解决所有问题。

解决方案 4：

第一、使用get_encoding_type获取文件的编码类型：

import os    
from chardet import detect

# get file encoding type
def get_encoding_type(file):
    with open(file, &#039;rb&#039;) as f:
        rawdata = f.read()
    return detect(rawdata)[&#039;encoding&#039;]

第二步，使用以下类型打开文件：

open(current_file, &#039;r&#039;, encoding = get_encoding_type, errors=&#039;ignore&#039;)

解决方案 5：

>>> &#039;&#039;.decode(&#039;cp1252&#039;)
u&#039;œ&#039;
>>> print &#039;&#039;.decode(&#039;cp1252&#039;)
œ

解决方案 6：

我遇到了同样的问题UnicodeDecodeError，我用这个方法解决了。不知道这是否是最好的方法，但对我来说很有效。

str = str.decode(&#039;unicode_escape&#039;).encode(&#039;utf-8&#039;)

解决方案 7：

当使用拉丁美洲口音（例如“ñ”）时，此解决方案效果很好。

我已经通过添加解决了这个问题

df = pd.read_csv(fileName,encoding=&#039;latin1&#039;)

解决方案 8：

以防万一有人遇到同样的问题。我正在使用 vim 和YouCompleteMe，无法启动 ycmd 并出现此错误消息，我所做的是：export LC_CTYPE="en_US.UTF-8"，问题就解决了。

解决方案 9：

如果您需要更改文件，但不知道文件的编码，该怎么办？如果您知道编码与 ASCII 兼容，并且只想检查或修改 ASCII 部分，则可以使用 surrogateescape 错误处理程序打开文件：

with open(fname, &#039;r&#039;, encoding=&quot;ascii&quot;, errors=&quot;surrogateescape&quot;) as f:
    data = f.read()

解决方案 10：

类似的错误，例如

UnicodeDecodeError: &#039;utf-8&#039; codec can&#039;t decode byte 0xa0 in position 22: invalid start byte

read_csv()如果有人尝试使用pandas打开 Excel 文件，也会显示此错误。改用pd.read_excel()可解决此错误。

一个演示它的示例（文件名是 data_dictionary，因为数据字典通常是 Excel 文件，而数据集本身是 CSV 文件）。

import pandas as pd

# some sample data
df = pd.DataFrame({&#039;A&#039;: [1, 2, 3], &#039;B&#039;: [&#039;a&#039;, &#039;b&#039;, &#039;c&#039;]})
df.to_excel(&#039;data_dictionary.xlsx&#039;, index=False)


df = pd.read_csv(&quot;data_dictionary.xlsx&quot;)         # &lt;----- error

df = pd.read_excel(&quot;data_dictionary.xlsx&quot;)       # &lt;----- OK

解决方案 11：

如果像您所说的那样，您只想允许纯 7 位 ASCII，则只需丢弃任何不符合要求的字节即可。无论如何，没有明确指定的编码，就没有直接的方法来猜测远程端希望它们表示什么。

while bytes := socket.read_line_bytes():
    try:
        string = bytes.decode(&#039;us-ascii&#039;)
    except UnicodeDecodeError as exc:
        logger.warning(&#039;[%s] - rejected non-ASCII input %s&#039; % (client, bytes.decode(&#039;us-ascii&#039;,  errors=&#039;backslashreplace&#039;))
        socket.write(b&#039;421 communication error - non-ASCII content rejected
&#039;)
        continue
    ...

解决方案 12：

我也犯了同样的错误。

对我来说，Python 抱怨字节“0x87”。我在<https://bytetool.web.app/en/ascii/code/0x87/>上查找了它，它告诉我这个字节属于编解码器 Windows-1252。

然后我只将这一行添加到我的 Python 文件的开头：

#-*- encoding: Windows-1252 -*-&quot;

所有错误都消失了。在添加此行之前，我曾尝试使用 Pandas 导入文件，如下所示：

Df = pd.read_csv(data, sep=&quot;,&quot;, engine=&#039;python&#039;, header=0, encoding=&#039;Windows-1252&#039;)

但这返回了一个错误。所以我将其改回如下：

Df = pd.read_csv(data, sep=&quot;,&quot;, engine=&#039;python&#039;, header=0)

解决方案 13：

django-storage 隐式支持以文本模式读取字节文件，直到 django-storage == 1.8
删除了https://github.com/jschneier/django-storages/pull/657中的支持
需要指定读取字节文件的二进制模式。