文本文件与二进制文件区别

您所在的位置：网站首页 › python的文件可分哪两种文件 › 文本文件与二进制文件区别

文本文件与二进制文件区别

2023-07-08 09:57| 来源: 网络整理| 查看: 265

1)文本文件：这类文件以文本的ASCII码形式存储在计算机中。它是以"行"为基本结构的一种信息组织和存储方式。 2)二进制文件：这类文件以文本的二进制形式存储在计算机中，用户一般不能直接读懂它们，只有通过相应的软件才能将其显示出来。二进制文件一般是可执行程序、图形、图像、声音等等。

C++标准库提供了基于输入/输出流机制的文件操作，叫做文件流(File Stream)。打开文件的时候，可以用参数制定按照二进制方式还是文本方式。

然而，可能与你的想象不同的是，这里的二进制或者文本与文件的格式并没有任何关系，而是文件流操作时对数据的表达方式。

文本方式和二进制方式的最大区别在于文本方式对于'\n'换行符的理解不同，在DOS平台下，该字符会被展开成< LF>两个控制字符(相当于"\r\n")，在ASCII字符集下是0DH,0AH，而在UNIX平台下，仅仅是，不会展开。而在二进制方式下，不管是什么平台，'\n'都是精确的。

而类似于一个数学上的数字128，会在文件中以什么样的格式存储，是以数字形式存储(80H)，还是对应的可读文本('1','2','8')，却和文件流的打开方式无关。

在C++的文件流中，使用的术语叫做格式化输入输出操作和无格式化操作，前者也就是运算符，将数字按照可读文本存储，后者是get/put成员函数，直接存储数字格式。

一、文本文件与二进制文件的定义

大家都知道计算机的存储在物理上是二进制的，所以文本文件与二进制文件的区别并不是物理上的，而是逻辑上的。这两者只是在编码层次上有差异。简单来说，文本文件是基于字符编码的文件，常见的编码有ASCII编码，UNICODE编码等等。二进制文件是基于值编码的文件，你可以根据具体应用，指定某个值是什么意思（这样一个过程，可以看作是自定义编码。

从上面可以看出文本文件基本上是定长编码的(也有非定长的编码如UTF-8)。而二进制文件可看成是变长编码的，因为是值编码嘛，多少个比特代表一个值，完全由你决定。大家可能对BMP文件比较熟悉，就拿它举例子吧，其头部是较为固定长度的文件头信息，前2字节用来记录文件为BMP格式，接下来的8个字节用来记录文件长度，再接下来的4字节用来记录bmp文件头的长度。

二、文本文件与二进制文件的存取

　　文本工具打开一个文件的过程是怎样的呢？拿记事本来说，它首先读取文件物理上所对应的二进制比特流，然后按照你所选择的解码方式来解释这个流，然后将解释结果显示出来。一般来说，你选取的解码方式会是ASCII码形式（ASCII码的一个字符是８个比特），接下来，它8个比特8个比特地来解释这个文件流。例如对于这么一个文件流"01000000_01000001_01000010_01000011"(下划线''_''，为了增强可读性手动添加的)，第一个8比特''01000000''按ASCII码来解码的话，所对应的字符是字符''A''，同理其它3个8比特可分别解码为''BCD''，即这个文件流可解释成“ABCD”，然后记事本就将这个“ABCD”显示在屏幕上。

事实上，世界上任何东西要与其他东西通信会话，都存在一个既定的协议，既定的编码。人与人之间通过文字联络，汉字“妈”代表生你的那个人，这就是一种既定的编码。但注意到这样一种情况，汉字“妈”在日本文字里有可能是你生下的那个人，所以当一个中国人Ａ与日本Ｂ之间用“妈”这个字进行交流，出现误解就很正常的。用记事本打开二进制文件与上面的情况类似。记事本无论打开什么文件都按既定的字符编码工作（如ASCII码），所以当他打开二进制文件时，出现乱码也是很必然的一件事情了，解码和译码不对应嘛。例如文件流''00000000_00000000_00000000_00000001''可能在二进制文件中对应的是一个四字节的整数int 1，在记事本里解释就变成了"NULL_NULL_NULL_SOH"这四个控制符。

文本文件的存储与其读取基本上是个逆过程。而二进制文件的存取显然与文本文件的存取差不多，只是编／解码方式不同而已，也不再叙述。

三、文本文件与二进制文件的优缺点

因为文本文件与二进制文件的区别仅仅是编码上不同，所以他们的优缺点就是编码的优缺点，这个找本编码的书来看看就比较清楚了。一般认为，文本文件编码基于字符定长，译码容易些；二进制文件编码是变长的，所以它灵活，存储利用率要高些，译码难一些（不同的二进制文件格式，有不同的译码方式）。关于空间利用率，想想看，二进制文件甚至可以用一个比特来代表一个意思(位操作)，而文本文件任何一个意思至少是一个字符．

在windows下,文本文件不一定是一ASCII来存贮的,因为ASCII码只能表示128的标识,你打开一个txt文档,然后另存为,有个选项是编码,可以选择存贮格式,一般来说UTF-8编码格式兼容性要好一些.而二进制用的计算机原始语言,不存贮兼容性. 很多书上还认为，文本文件的可读性要好些，存储要花费转换时间(读写要编译码)，而二进制文件可读性差，存储不存在转换时间（读写不要编解码，直接写值）．这里的可读性是从软件使用者角度来说的，因为我们用通用的记事本工具就几乎可以浏览所有文本文件，所以说文本文件可读性好；而读写一个具体的二进制文件需要一个具体的文件解码器，所以说二进制文件可读性差，比如读BMP文件，必须用读图软件．

而这里的存储转换时间应该是从编程的角度来说的，因为有些操作系统如windows需要对回车换行符进行转换(将''\n''，换成''\r\n''，所以文件读写时，操作系统需要一个一个字符的检查当前字符是不是''\n''或''\r\n'').这个在存储转换在Linux操作系统中并不需要，当然，当在两个不同的操作系统上共享文件时，这种存储转换又可能出来(如Linux系统和Windows系统共享文本文件)。关于这个转换怎样进行，我将在下一篇文章《Linux文本文件与Windows文本文件间的转换》给出^_^

四、Ｃ的文本读写和二进制读写

应该说Ｃ的文本读写与二进制的读写是一个编程层次上的问题，与具体的操作系统有关，所以＂用文本方式读写的文件一定是文本文件，用二进制读写的文件一定是二进制文件"这类观点是错误的．下面的讲述非明确指出操作系统类型，都暗指windows．

Ｃ的文本方读写与二进制读写的差别仅仅体现在回车换行符的处理上．文本方式写时，每遇到一个''\n''(0AH换行符)，它将其换成''\r\n''(0D0AH，回车换行)，然后再写入文件；当文本读取时，它每遇到一个''\r\n''将其反变化为''\n''，然后送到读缓冲区．正因为文本方式有''\n''－－''\r\n''之间的转换，其存在转换耗时．二进制读写时，其不存在任何转换，直接将写缓冲区中数据写入文件．

总地来说，从编程的角度来说，Ｃ中文本或二进制读写都是缓冲区与文件中二进制流的交互，只是文本读写时有回车换行的转换．所以当写缓冲区中无换行符''\n''(0AH)，文本写与二进制写的结果是一样的，同理，当文件中不存在''\r\n''(0DH0AH)时，文本读与二进制读的结果一样．

五、实例

Ｃ的文本读写和二进制读写应该说Ｃ的文本读写与二进制的读写是一个编程层次上的问题，与具体的操作系统有关，所以＂用文本方式读写的文件一定是文本文件，用二进制读写的文件一定是二进制文件"这类观点是错误的．下面的讲述非明确指出操作系统类型，都暗指windows．

Ｃ的文本方读写与二进制读写的差别仅仅体现在回车换行符的处理上．文本方式写时，每遇到一个''\n''(0AH换行符)，它将其换成''\r \n''(0D0AH，回车换行)，然后再写入文件；当文本读取时，它每遇到一个''\r\n''将其反变化为''\n''，然后送到读缓冲区．二进制读写时，其不存在任何转换，直接将写缓冲区中数据写入文件．对于内容为 “Ab123\r\n" (41 62 31 32 33 0D 0A)的文件,

pf1 = fopen("f:\\1.txt","r");// 或者pf1 = fopen("f:\\1.txt","rb"); for(int i=0;i =48 && double(tline(1))=48&&double(tline(i)) d:\list.txt

然后在 matlab 中使用：

filename = textread(sFileFullName,'%s');

把所有文件名读取到list细胞矩阵中，最后对filename{i}便可得到各文件名。

(2) 然后是读取文件名的数据并存储：假设每个文件对应的数据是m*n的，则：

CODE:k = length(filename);Data = zeros(m,n,k);for ii = 1:kData(:,:,ii) = yourreadstyle(filename{ii}); %yourreadstyle是对应的文件读取方式的函数end

2. 连续读取多个文件的数据，并存放在多个矩阵（以文件名命名）中：假设每个文件对应的数据是m*n的，则以上述第二种文件名读取方法为例：

CODE:k = length(filename);for ii = 1:kD = yourreadstyle(filename{ii});eval([‘Data_’, num2str(ii), ‘ = D;’]);end

3. 文件名命名问题：文件名为 abc00001,abc00002,... abc00009,abc00010,... abc00099,abc00100,...abc00879. 准备把这些文件名给放到一个数组里面去。

解答：

CODE:a=cell(879,1);for k=1:879a{k} = sprintf('%.5d',k);end

4. 上述各种文件格式、类型自动识别问题：可以利用正则表达式来处理，使之通用性较强。例如使用以下代码可以自动处理上面提到了例1到例5各种情形，不过由于存在自动判断，对某些例子（如例1）效率自然要低一点，而对于另外的例子（如例3、例5）效率估计要高一点（少用了一个循环）。

CODE:function [data]=distilldata_eight(infile)%功能说明：%将保存数据的原始文件中的数值数据读入到一个data变量中（自动判断数据行）%使用说明：% infile——原始数据文件名;% data=数据变量tmpfile='tmp2.mat';fidin=fopen(infile,'r'); % 打开原始数据文件（.list）fidtmp=fopen(tmpfile,'w'); % 创建保存数据文件（不含说明文字）while ~feof(fidin) % 判断是否为文件末尾tline=fgetl(fidin); % 从文件读入一行文本（不含回车键）if ~isempty(tline) % 判断是否空行str = '[^0-9 | \. | \- | \s | e | E]'; %正则表达式为：该行中是否包含除 - . E e 数字和空白字符外的其他字符start = regexp(tline,str, 'once');if isempty(start)fprintf(fidtmp,'%s\n',tline);endendendfclose(fidin);fclose(fidtmp);data=textread(tmpfile);delete(tmpfile)

5. 大量数据的读取问题：可以考虑使用循环分批读取（特别是在各数据是独立的时候），或者使用稀疏矩阵来实现（对此可以参阅本版精华贴： [原创]提高matlab运行速度和节省空间的一点心得（之三））。另外，也可参考《深入浅出MATLAB 7_X混合编程》一书第一章

6. 读取整个txt文件的内容（获得文件中的所有字符）：

CODE:

f = fopen('yourfilename.txt','rt'); % t 属性根据需要可省略x = fread(f,'*char');fclose(f);

7. 把维数不同的矩阵及其变量名保存到一个 txt 文件中，例如 a1 = 123; a2 = [1 2 3;4 5 6] ，希望得到的 txt 文件如下：

QUOTE:a1：123a2：1 2 34 5 6

如果写入的时候简单一点，则可以采用以下方式，不过读取的时候比较麻烦：

CODE:

a1=123;a2=[1 2 3;4 5 6];fid = fopen('myfile.txt', 'wt');for i=1:2fprintf(fid, '%s: \n %s\n', ['a',int2str(i)], mat2str(eval(['a',int2str(i)])));endfclose(fid);

相反，如果写入的时候复杂一点，则读取的时候会简单一点：

CODE:

a1=123;a2=[1 2 3;4 5 6];fid = fopen('myfile.txt', 'wt');for i=1:2fprintf(fid, '%s: \n', ['a',int2str(i)]); b = eval(['a',int2str(i)]);fprintf(fid, [repmat('%d ', 1, size(b,2)), '\n'], b');endfclose(fid);

【本文地址】

文本文件与二进制文件区别

文本文件与二进制文件区别

今日新闻

推荐新闻