数据集sklearn

您所在的位置：网站首页 › 数据集iris › 数据集sklearn

数据集sklearn

2023-06-01 17:08| 来源: 网络整理| 查看: 265

sklearn.datasets

加载获取流行数据集

dataset.lood_*()获取小规模数据集，数据包括在datasets里

dataset.fetch_*(data_home=None)获得大规模数据集，需要从网络上下载

数据集的划分

训练数据：用于训练，构建模型

测试数据：在模型检验时使用，用于评估模型是否有效测试集越为20%—30%

sklearn.model_selection.train_test_split(arrays,*options)

x数据集的特征值

y数据集的标签值

test_size测试集的大小，一般为float

random_state随机数种子，不同的种子会造成不同的随机采样结果。

相同的种子采样结果相同

return训练集特征值，测试集特征值，训练集目标值，测试集目标值（顺序一定不要出错）

x_train,x_test,y_train,y_test

！！！数据集的返回值都是Bunch（继承自字典类型）

代码如下

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split def datasets_demo(): """ sklearn数据集的使用 Scikit-learn :return: """ # 获取数据集 iris = load_iris() print("鸢尾花数据集:\n", iris) print("鸢尾花数据集的特征名字为：\n", iris["feature_names"]) print("鸢尾花数据集的特征集为：\n", iris.data, iris.data.shape) # 查看特征集的种类和数量 # 数据集的划分 x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22) # 测试集划分大小为20%，随机数种子为22 print("特征值的训练集为：\n", x_train, x_train.shape) return None if __name__ == "__main__": # 代码1，sklearn，调用函数，鸢尾花的数据集 datasets_demo()

【本文地址】

数据集sklearn

数据集sklearn

今日新闻

推荐新闻