Python数据分析详解(适合新手的详细教程)

您所在的位置:网站首页 电网数据分析工作怎么样 Python数据分析详解(适合新手的详细教程)

Python数据分析详解(适合新手的详细教程)

2024-07-10 19:05| 来源: 网络整理| 查看: 265

前言

这篇文章主要介绍了Python中的数据分析详解,对数据进行分析。数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

目录

数据分析概述

python在数据分析方面有哪些优势

数据的导入和导出

导入数据导出数据

数据预处理

数据的选择和运算

数据分类汇总和统计

时间序列

数据可视化

数据分析概述 python在数据分析方面有哪些优势 Python不受数据规模的约束,能够处理大规模数据。Python的sklearn库提供了丰富的数据挖掘和人工智能方法,为使用者分析各种场景提供方法支持。Python的自动数据分析能够显著提升工作效率。Python能够绘制各种前沿的数据图表。Python在海量数据采集方面也有独特的优势。

数据分析的流程是什么?

数据采集数据整理和存储数据分析和可视化数据报表和总结 数据的导入和导出 导入数据

Excel格式

#excel有xls,xlsx两种格式,都可以使用read_excel #read_excel方法返回的结果是DataFrame,DataFrame的一列对应着Excel的一列。 import pandas as pd data = pd.read_excel(path) """ 参数含义: (1)sheet_name参数:该参数用于指定导入Excel文件中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet。 (2) index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引,从0开始计数。 (3)nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用。 (4)skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行。 (5)header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一段不是字段名,则需要使用该参数设置字段名。 (6)usecols参数:该参数可以控制导入Excel表格中的哪些列。 (7)names参数:该参数可以对导入数据的列名进行重命名。 """

csv格式

#CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。 import pandas as pd data = pd.read_csv(path,encoding="utf-8") #sep参数表示要导入的csv文件的分隔符,默认值是半角逗号 data = pd.read_csv(path,sep=',',encoding="utf-8")

json格式

#用Pandas模块的read_json方法导入JSON数据,其中的参数为JSON文件的路径。 import pandas as pd data = pd.read_json(path)

txt格式

#需要导入存在于txt文件中的数据时,可以使用pandas模块中的read_table方法。它的参数和用法与read_csv方法类似。 import pandas as pd data = pd.read_table(path) 导出数据

CSV格式数据输出

import pandas as pd data = pd.read_csv(path,sep=",",encoding="utf-8",nrows=10) data.to_csv("test.csv",nrows=10) """ 1、CSV格式数据输出 对于pandas库的to_csv方法,有下列参数说明: path_or_buf:要保存的路径及文件名。 sep:分割符,默认为“,”。 columns:指定要输出的列,用列名,列表表示,默认值为None。 header:是否输出列名,默认值为True。 index:是否输出索引,默认值为True。 encoding:编码方式,默认值为“utf-8”。 """

xlsx格式数据输出

import pandas as pd data = pd.read_excel(path) data.to_excel(path,encoding='gbk') """ sheet_name:字符串,默认值为“Sheet1”,指包含DataFrame数据的表的名称。 np_rep:字符串,默认值为 ‘ '。指缺失数据的表示方式 columes:序列,可选参数,要编辑的列 header:布尔型或字符串列表,默认值为True。如果给定字符串列表,则表示它是列名称的别名。 index:布尔型,默认值为True,行名(索引) index_label:字符串或序列,默认值为None。如果文件数据使用多索引,则需使用序列。 encoding:指定Excel文件的编码方式,默认值为None。 """ data2 = pd.read_excel(path) work = pd.ExcelWriter('path') data.to_excel(work,sheet_name='data') data2.to_excel(work,sheet_name="data2") 数据预处理

熟悉数据

import pandas as pd data = pd.read_csv(path) #使用info()方法查看数据基本类型 data.info() #查看数据表的大小 d = data.shape[0] w = data.shape[1] #数据格式的查看 type(data) #series的查看 data.dtype #dataframe的查看 data.dtypes #查看具体的数据分布在进行数据分析时,常常需要对对数据的分布进行初步分析,包括统计数据中各元素的个数,均值、方差、最小值、最大值和分位数 data.describe()

缺失值处理

import pandas as pd data = pd.read_csv(path) #缺失值检查 #isnull()方法。isnull()函数返回值为布尔值,如果数据存在缺失值,返回True;否则,返回False。 data.isnull() #缺失值删除 #dropna()方法用于删除含有缺失值的行。 data.dropna() #当某行或某列值都为NaN时,才删除整行或整列。这种情况该如何处理? data.dropna(how='all',axis=0)#当整行都是None时,删除整行 #当某行有一个数据为NaN时,就删除整行和当某列有一个数据为NaN时, data.dropna(how='any',axis=0) data.dropna(how='any',axis=1) #缺失值替换/填充 #在data数据中,利用各列值的均值填补缺失数据,该如何用Python实现? data.fillna(data.mean()) #使用近邻填补法,即利用缺失值最近邻居的值来填补数据,对df数据中的缺失值进行填补,这种情况该如何实现? data.fillna(method='bfill')#在本案例中,可以将fillna()方法的method参数设置为bfill,来使用缺失值后面的数据进行填充。 #若使用缺失值前面的值进行填充来填补数据,这种情况又该如何实现? data.fillna(method='ffill') #请利用二次多项式插值法对df数据中A列的缺失值进行填充。 data['A'].fillna(method='polynomial',order=2) #请使用Python完成对df数据中A列的三次样条插值填充。 data['A'].fillna(method='spline',order=3)

重复值处理

""" 利用duplicated()方法检测冗余的行或列,默认是判断全部列中的值是否全部重复,并返回布尔类型的结果。对于完全没有重复的行,返回值为False。对于有重复值的行,第一次出现重复的那一行返回False,其余的返回True。 """ import pandas as pd data = pd.read_csv(path) data.duplicated() #drop_duplicates()方法。,利用duplicates()方法去除冗余数据,即删除冗余的所有行,默认是判断全部列 data.drop_duplicates()

检测异常值

#query方法和boxplot方法。首先使用pandas库中的query方法查询数据中是否有异常值。然后通过boxplot方法检测异常值。 import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv(path) #假设B列大于1000 data.query('B


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3