数据分析（python）学习笔记01：Jupyter及使用python读取数据

您所在的位置：网站首页 › jupyterLab遍历文本里面的链接 › 数据分析（python）学习笔记01：Jupyter及使用python读取数据

数据分析（python）学习笔记01：Jupyter及使用python读取数据

2023-09-13 01:15| 来源: 网络整理| 查看: 265

关于Jupyter

常用快捷键：

读取数据：

常用读取数据代码：

关于Jupyter

File中包含创建以及重命名脚本文件等常用功能

Edit 主要是集中在对内容区中的cell的操作

view视图用于设置显示或者隐藏toolbar以及设置cell的一些相关的视图属性

insert纯粹对cell进行操作，上方或者下方插入cell单元

cell主要是运行cell的操作，比如运行所有的cell单元，运行某一个cell单元或者是清空cell单元的所有的内容

kernel 功能主要是重启核或者是切换核，jupyter notebooke不仅仅可用于python的展示，也可以切换为其他的语言核进行其他语言代码编辑与运行展示

help中即是包含了jupyter notebook 的所有操作的帮助提示

常用快捷键：

Enter : 转入编辑模式

Shift-Enter : 运行本单元，选中下个单元

Ctrl-Enter : 运行本单元

读取数据方法及常见错误解决

数据分析常用python包

numpy：科学计算工具包

pandas：数据分析工具包

malplotlib：图表绘制工具包

improt语句：加载工具包

导入数据包

import numpy as np import pandas as pd import matplotlib.pyplot as plt

用pandas包读取数据，使用print（data）验证读取结果

data=pd.read_csv('文件路径'，encoding='gbk'，engine = 'python') print(data)

读取数据虽然简单，但是极容易遇到问题，梳理了如下注意事项

注意事项： 1、注意使用英文引号

2、excel存为csv格式时，可以选择编码方式，即encoding中需填写内容

3、文件路径直接从windows复制下来会出错，

如：C:\Users\zoe\Desktop\文件.csv'，则会报错，改为 C:\\Users\\zoe\\Desktop\文件.csv'后成功通过

常见报错

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

原因

路径中的\在字符串中是被当作转义字符来使用，路径经过转译后则找不到该文件

解决办法：

① 使用/（反斜杠）

② 英文前使用\\

4、文件读取报错时，可以尝试

① excel转csv时，可设置编码为utf-8，并更改参数 → encoding = 'utf-8' ② mac导出csv时，可以更改参数 → encoding = "gb18030" ③ 可将文件名改为英文文件名，例如“data.csv”

常用读取数据代码：

1、查看前n个数据：

print(data.head(10)) # 查看前十个数据

2、查看某序号的数据

print(data[10:20]) # 查看数据序号10-20个数据（python的序号从0开始，所以前十个数据的序号为 0-9，这里也就是第11至第21个数据）

3、查看某字段所有数据

print(data['姓名']) # 查看“姓名”字段的所有数据

5、建立列表：

field = data.columns.tolist() print(type(field)) print(field) # 创造一个变量field，赋值为数据data的字段 # type()是输出数据类型，这里的类型为“列表list”，python核心数据类型之一

输出结果：

['姓名', '性别', '民族', '教育']

6、基本数据信息

print(data.describe(include=[np.number]))

.describe()返回基本数据信息 .describe(include=[np.number])只统计数值类型 ()中没有任何参数时，会默认只统计数值类型的字段内容，包括：计数，平均数，方差，最小值，最大值，四分位数，若其中有字符串数据会报错

输出结果

出生年份 count 2568.000000 mean 1973.129673 std 4.856564 min 1958.000000 25% NaN 50% NaN 75% NaN max 1990.000000 print(data.describe(include=[np.object]))

这里只统计字符串类型的字段内容：计数，唯一值数量，出现频率最高的内容，最高出现频率

输出内容：

姓名籍贯省份名称籍贯地市名称性别民族教育 count 3021 2624 2615 2708 2517 2550 unique 901 29 240 2 2 7 top 王里山东省威海市男汉族硕士 freq 11 313 58 2633 2351 1381

【本文地址】

数据分析（python）学习笔记01：Jupyter及使用python读取数据

数据分析（python）学习笔记01：Jupyter及使用python读取数据

今日新闻

推荐新闻