python字符编码问题汇总(str、byte转换,乱码处理,ASCII、Unicode、UTF

您所在的位置:网站首页 python字母的数据类型 python字符编码问题汇总(str、byte转换,乱码处理,ASCII、Unicode、UTF

python字符编码问题汇总(str、byte转换,乱码处理,ASCII、Unicode、UTF

2023-10-09 22:24| 来源: 网络整理| 查看: 265

python字符串处理,专栏总目录:

1.python字符串格式化

2.python字符编码

3.python字符串常用函数

Python 3的字符串使用Unicode,直接支持多语言。

1、ASCII、Unicode、UTF-8

        ASCII编码和Unicode编码的区别:ASCII编码是1个字节,扩展ASCII码是从128-255的字符。而Unicode只是一个符号集,通常是2个字节。

        本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。

        在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

        用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:

2、获取/改变系统编码

设置系统默认编码为utf-8:

import sys reload(sys) sys.setdefaultencoding('utf-8')

获取系统默认编码:

import sys print(sys.getdefaultencoding()) 3、python的字符转换

        在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例如:

>>> print('包含中文的str') 包含中文的str

        对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

>>> ord('A') 65 >>> ord('中') 20013 >>> chr(66) 'B' >>> chr(25991) '文'

        如果知道字符的整数编码,还可以用十六进制这么写str:

>>> '\u4e2d\u6587' '中文'

        两种写法完全是等价的。0xu4e2d=20013,0x6587=25991。

4、python字符保存

        由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。

4.1、字符串编码

        Python对bytes类型的数据用带b前缀的单引号或双引号表示:

x = b'ABC'

        要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。

        以unicode表示的str通过encode()方法可以编码为指定的bytes,例如:

>>> 'ABC'.encode('ascii') b'ABC' >>> '中文'.encode('utf-8') b'\xe4\xb8\xad\xe6\x96\x87' >>> '中文'.encode('ascii') Traceback (most recent call last): File "", line 1, in UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

        1)纯英文的str可以用ASCII编码为bytes,内容是一样的;

        2)含有中文的str可以用UTF-8编码为bytes;

        3)含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。

        在bytes中,无法显示为ASCII字符的字节,用\x##显示。

4.2、字符串解码

        反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:

>>> b'ABC'.decode('ascii') 'ABC' >>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8') '中文'

        如果bytes中包含无法解码的字节,decode()方法会报错:

>>> b'\xe4\xb8\xad\xff'.decode('utf-8') Traceback (most recent call last): ... UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

        如果bytes中只有一小部分无效的字节,可以传入errors='ignore'忽略错误的字节:

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中' 5、字符窗的len()计算

        要计算str包含多少个字符,可以用len()函数:

>>> len('ABC') 3 >>> len('中文') 2

        len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数:

>>> len(b'ABC') 3 >>> len(b'\xe4\xb8\xad\xe6\x96\x87') 6 >>> len('中文'.encode('utf-8')) 6

        1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节;

        在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。

        文本编辑器正在使用UTF-8 without BOM编码;

6、其它编码转换

        当str和bytes互相转换时,需要指定编码。最常用的编码是UTF-8。Python当然也支持其他编码方式,比如把Unicode编码成GB2312:

>>> '中文'.encode('gb2312') b'\xd6\xd0\xce\xc4' 7、str与bytes转换 7.1、字符表达 # bytes object b = b"example" # str object s = "example" 7.2、字符格式转换 # str转bytes bytes(s, encoding = "utf8") # bytes转str str(b, encoding = "utf-8") 7.3、字符编解码 # str to bytes str.encode(s) # bytes to str bytes.decode(b) 8、解决python乱码问题

        字符串在python内部中是采用unicode的编码方式,所以其他语言先decode转换成unicode编码,再encode转换成utf8编码。编码是一种用二进制数据表示抽象字符的方式,utf8是一种编码方式。

        代码中的字符串编码默认和代码文件编码相同。

        python2中的unicode和python3中的str等价。可以查看s.__class__,如果为则为unicode编码及文本数据,如果为则为utf8编码及二进制数据。str(s, 'utf8')和s.decode('utf8')等价。

        如果字符串在代码中被定义为s=u'中文',则s就是python内部编码unicode。

        unicode类型再解码会报错。

        判断一个字符串是否为unicode方法isinstance(s, unicode),python2中的unicode和python3中的str等价,所以在python3中判断一个字符串是否为unicode方法为isinstance(s, str)。

        有些IDE输出乱码是因为控制台不能输出字符串的编码不是程序本身的问题。比如windows的控制台是gb2312,则utf8的输出格式不能正确输出。

一种输出格式为gb2312避免乱码的方式:

#coding=utf-8 s='中文' if(isinstance(s, str)): #s为u'中文' s.encode('gb2312') else: #s为'中文' s.decode('utf8').encode('gb2312')

采用标准库codecs模块:

codecs.open(filename, mode='r', encoding=None, errors='strict', buffering=1) import codecs2 f = codecs.open(filename, encoding='utf-8')

        使用上边这种方式读进来utf-8文件,会自动转换为unicode。但必须明确该文件类型为utf8类型。如果是文件中有汉字,不是一个字节一个字节地读而是整个汉字的所有字节读进来然后转换成unicode(猜想跟汉字的utf8编码有关)。

下边的代码也是一种使用codecs的读写方式:

#coding=utf-8 import codecsfin = open("test.txt", 'r') fout = open("utf8.txt", 'w') reader = codecs.getreader('gbk')(fin) writer = codecs.getwriter('gbk')(fout) data = reader.read(10) # 10是最大字节数,默认值为-1表示尽可能大。可以避免一次处理大量数据 while data: writer.write(data) data = reader.read(10)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3