数据分析:numpy和pandas基础操作详解 |
您所在的位置:网站首页 › Numpy实验的目的 › 数据分析:numpy和pandas基础操作详解 |
数据处理基础
numpy基础1.numpy创建数组及基础属性2.数组的特点3.创建常见数组4.数组数据类型5.生成随机数6.一维数组索引7.布尔索引8. 多维数组的索引9.实际问题10.数组的转置和换轴11.Numpy矩阵介绍12.通用函数介绍13数组广播机制14Numpy读写二进制文件15Numpy读写文本文件
pandas基础1Pandas简介2.pandas读取文本文件3存储数据框4.pandas读取excel文件5将数据框存储为excel文件6.构建数据框7.查看数据框的常用属性8. 按行列顺序访问数据框中的元素9.按行列名称访问数据框中的元素10.修改数据框中的元素11.删除数据框的元素12.描述分析数据框中的元素13.转换成时间类型数据14.时间类型数据的常用操作15.groupby分组操作16.agg操作17.透视表18.交叉表
numpy基础
1.numpy创建数组及基础属性
numpy是数据处理的基础,pandas也是基于numpy的,首先是numpy数组的创建。 一般我们默认导入了一下库 import numpy as np import pandas as pd1.numpy创建数组及基础属性 arr=np.array([[1,2,3],[4,5,6],[7,8,9]])本文使用的编译环境是jupyter notebook,python3.7。如果想要安装jupyter可以参考我的另一篇文章点击此处不过只要是python3的版本都可以运行,也可以选择自己喜欢的编译器,不影响程序运行 numpy的核心特征之一就是N-维数组对象----ndarray。一个ndarray的每个元素均为相同类型 numpy的基础属性:shape ,dtype ,ndim, size 每一个数组都有一个shape属性用来表征数组每一维度的数量;每个数组都有一个dtype属性用来描述数组的数据类型。ndim返回数组的维数。size返回数组元素个数。 数组可以进行矢量运算,比如如果想把list的每个元素平方,用list ** 2这样的运算会报错,而数组不会 除了np.array还有很多函数可以创建新数组,例如np.zeros可以一次行创建全0数组,ones可以一次性创建全1数组,empty则可以创建没有初始化的数组(np.empty有时会返回未初始化的垃圾值)。 np.diag() 创建对角数组 arange是Python内建函数range的数组版 数据类型,即dtype也称元数据,表示数据的数据 生成无约束条件的随机数
举个例子就非常容易明白了 ![]() ![]() ![]() ![]() 9.实际问题 求解距离距离矩阵 转置是一种特殊的数据重组形式,可以返回底层数据的视图而不需要复制任何内容。
首先是矩阵的生成 矩阵运算 矩阵的属性
二元通用函数 函数名描述multiply将数组的对应元素相乘add将数组的对应元素相加subtract在第二个数组中,将第一个数组中的包含的元素去除
广播描述了算法如何在不同形状的数组之间进行运算,它是一个强大的功能。 广播机制的原则是:如果对于每个结尾维度(及从尾部开始的),轴长度都匹配或者其中一个是1,两个数组就是可以兼容广播的。 下面举一个反例
实际情况中使用较少
pandas有两个常用的数据结构:Serise和DataFrame。 Serise是一种一维的有数据标签的数组型对象,DataFrame二维数据表,既有行索引也有列索引 pandas在数据分析处理中有非常重要的地位,具有一下特点: 1.文本文件读取
如果想保留原数据可以设参数index=None 1.excel文件读取
一维序列,类比列表,但是每个元素具有名称。如果从DataFrame中取出一列返回的数据结构就是Series。
还可以创建一些特殊的DataFrame,如果不传入data参数,就会创建缺失值型的数据框 查看DataFrame的常见属性
当数据框的数量较大的时候,按顺序访问较为麻烦,这时后可以采用按行列名称访问数据框中的元素。 先构建一个新的数据框
增加数据 删除某行或某列需要用到pandas提供的方法drop 数值型特征的描述性统计-----Numpy中的描述性统计函数。 pandas库基于Numpy,自然也可以用这些函数对数据框进行描述性统计。 pands时间相关的类 在多数情况下,对时间类型数据进行分析的前提就是将原本为字符串的时间转换为标准时间类型。pandas继承了NumPy库和datetime库的时间相关模块,提供了6种时间相关的类。 除了将数据字原始DataFrame中直接转换为Timestamp格式外,还可以将数据单独提取出来将其转换 为DatetimeIndex或者PeriodIndex。 转换为PeriodIndex的时候需要注意,需要通过freq参数指定时间间隔,常用的时间间隔有Y为年,M为月,D为日,H为小时,T为分钟,S为秒。两个函数可以用来转换数据还可以用来创建时间序列数据,其参数非常类似。 Timestamp类常用属性 在多数涉及时间相关的数据处理,统计分析的过程中,需要提取时间中的年份,月份等数据,使用对应的Timestamp类属性就能够实现这一目的。 首先读入我们的数据,数据在上面的网盘链接里 比如对数据进行求均值 透视表是数据分析中进行数据分类聚合的重要工具 index:行索引 aggfunc:聚合方法(np.sum等)默认是np.mean
透视表一般用于统计出现的次数 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |