数据集sklearn

您所在的位置:网站首页 数据集iris 数据集sklearn

数据集sklearn

2023-06-01 17:08| 来源: 网络整理| 查看: 265

sklearn.datasets

加载获取流行数据集

dataset.lood_*()获取小规模数据集,数据包括在datasets里

dataset.fetch_*(data_home=None)获得大规模数据集,需要从网络上下载

数据集的划分

训练数据:用于训练,构建模型

测试数据:在模型检验时使用,用于评估模型是否有效测试集越为20%—30%

sklearn.model_selection.train_test_split(arrays,*options)

x数据集的特征值

y数据集的标签值

test_size测试集的大小,一般为float

random_state随机数种子,不同的种子会造成不同的随机采样结果。

相同的种子采样结果相同

return训练集特征值,测试集特征值,训练集目标值,测试集目标值(顺序一定不要出错)

x_train,x_test,y_train,y_test

!!!数据集的返回值都是Bunch(继承自字典类型)

代码如下

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split def datasets_demo(): """ sklearn数据集的使用 Scikit-learn :return: """ # 获取数据集 iris = load_iris() print("鸢尾花数据集:\n", iris) print("鸢尾花数据集的特征名字为:\n", iris["feature_names"]) print("鸢尾花数据集的特征集为:\n", iris.data, iris.data.shape) # 查看特征集的种类和数量 # 数据集的划分 x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22) # 测试集划分大小为20%,随机数种子为22 print("特征值的训练集为:\n", x_train, x_train.shape) return None if __name__ == "__main__": # 代码1,sklearn,调用函数,鸢尾花的数据集 datasets_demo()


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3