基础知识

您所在的位置：网站首页 › 文本解码是什么意思啊 › 基础知识

基础知识

2024-07-13 14:26| 来源: 网络整理| 查看: 265

前言

自从踉跄尝试开发，不停地被提醒自己基本功的薄弱——人家随随便便抛出一句“这本来就是二进制文件（无法解码很正常）”，我却纳闷了半天到底什么是二进制文件。没办法，基础差就要好好学习。

来吧，今日关键词：二进制文件 vs. 文本文件

数据在物理上的存储方式是二进制的，即由0/1字符串构成。而我们解读这些的方式有两种：基于字符编码，和基于值编码。

基于字符编码

基于字符编码，即每个我们肉眼可读的字符都有唯一对应的0/1字符串，我们读、写这些字符都使用同一套编码方式。

如果某文件的数据使用基于字符的编码，那么该文件即为“文本文件”。

常见的基于字符的编码有：ASCII码，Unicode编码。

1. ASCII码我们都比较熟悉了，它是一种定长编码，编码规则为：

1字节 0xxxxxxx

2. Unicode编码中比较常见的是UTF-8编码，其为变长编码，即某一个字符的UTF-8编码有可能是1字节，也有可能是多字节。具体编码规则如下：

1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

基于值编码

基于值编码，可以理解为自定义的编码。

如果某文件的数据使用基于值的编码，那么该文件即为“二进制文件”。不同的应用程序对二进制文件中的每个值会有不同的解读，就像不同的编码对文本文件中的每一/多个字节有不同的解读。

常见的二进制文件有可执行程序、图形、图像、声音等等。

*用记事本打开二进制文件出现乱码

由于二进制文件有其独立的编码解码规则，而这一规则通常是不同于文本文件的编码解码规则的，所以当我们用记事本打开二进制文件，也就是说，我们尝试用ASCII码的规则去解读二进制文件时，会出现乱码。因为：

同样的一串字符串 00000000 00000000 00000000 00000001 在二进制文件里可能想表达的是一个4字节的整数1，而误用ASCII码解码便会输出NUL NUL NUL SOH。

以上~

【本文地址】

基础知识

基础知识

今日新闻

推荐新闻