机器学习

2024-07-08 07:34| 来源: 网络整理| 查看: 265

Python - 对数据集（.csv文件或.excel文件）的基本处理载入数据读取文件指定时间索引查看数据显示数据集查看列数据查看索引值操作修改特征编码数据统计检测重复删除重复行异常值处理缺失值处理合并数据帧

载入数据读取文件

通过pandas库载入读取csv或excel文件。

import pandas as pd data = pd.read_csv('数据集的文件路径或者URL'，header=None, sep=' ', names=[]) data = pd.read_excel('数据集的文件路径或者URL'，header=None, sep=' ', names=[]) ''' header为表头，默认为第0行，header = None 默认没有表头，会自动添加数字作为列数 sep = ' ' 表示数据之间使用空格作为分隔符 names可以作为重新定义列索引的列表，如names=['col1', 'col2'] ''' 指定时间索引

通常来说，有时候在创建DataFrame的时候会指定日期作为索引，为此pandas提供了data_range()函数。

data_index = pd.data_range(strat='01/01/2020', end='02/10/2020'. periods=100, freq=None) ''' param: start：string或datetime-like，默认值是None，表示日期的起点。 end：string或datetime-like，默认值是None，表示日期的终点。 periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。 freq：string或DateOffset，默认值是’D’，表示以自然日为单位，这个参数用来指定计时单位，比如’5H’表示每隔5个小时计算一次,'30S'则为30秒一个批次。如果设置了start和end，则只需要设置periods和frep中的一个就可以，一般只需要设置其中三个参数更多参数自行搜索 ''' 查看数据显示数据集 data # 显示数据集 data.sample(int n) # 随机显示 n 条数据，默认n = 1 data.head(int n) # 从头显示 n 条数据，默认n = 5 data.tail(int n) # 倒数显示 n 条数据，默认n = 5 查看列数据 col_1 = data["class"] # 获取一列数据 col_12 = data[["sepallength","class"]] # 获取两列及以上数据集，**需要使用二维数据** 查看索引值 data.index # 显示行索引 data.columns # 显示列索引操作修改特征编码

1. 标签映射

'''这里假设data['class']为鸢尾花的种类,即将Iris-setosa映射为0， Iris-virginica映射为1， Iris-versicolor映射为2，方便统计''' '''方法1''' data["class"] = data["class"].map({ "Iris-setosa" : 0,"Iris-virginica" : 1,"Iris-versicolor" : 2}) '''方法2''' scale_mapper = { "Iris-setosa" : 0

【本文地址】

机器学习

机器学习

今日新闻

推荐新闻