数据集sklearn |
您所在的位置:网站首页 › 数据集iris › 数据集sklearn |
sklearn.datasets 加载获取流行数据集 dataset.lood_*()获取小规模数据集,数据包括在datasets里 dataset.fetch_*(data_home=None)获得大规模数据集,需要从网络上下载 数据集的划分 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效测试集越为20%—30% sklearn.model_selection.train_test_split(arrays,*options) x数据集的特征值 y数据集的标签值 test_size测试集的大小,一般为float random_state随机数种子,不同的种子会造成不同的随机采样结果。 相同的种子采样结果相同 return训练集特征值,测试集特征值,训练集目标值,测试集目标值(顺序一定不要出错) x_train,x_test,y_train,y_test !!!数据集的返回值都是Bunch(继承自字典类型) 代码如下 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split def datasets_demo(): """ sklearn数据集的使用 Scikit-learn :return: """ # 获取数据集 iris = load_iris() print("鸢尾花数据集:\n", iris) print("鸢尾花数据集的特征名字为:\n", iris["feature_names"]) print("鸢尾花数据集的特征集为:\n", iris.data, iris.data.shape) # 查看特征集的种类和数量 # 数据集的划分 x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22) # 测试集划分大小为20%,随机数种子为22 print("特征值的训练集为:\n", x_train, x_train.shape) return None if __name__ == "__main__": # 代码1,sklearn,调用函数,鸢尾花的数据集 datasets_demo() |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |