路透社数据集

您所在的位置:网站首页 英语新闻种类 路透社数据集

路透社数据集

2024-07-16 05:55| 来源: 网络整理| 查看: 265

文章目录 1.数据集及问题简介 2.加载数据集并探索数据 3.准备输入的数据 4.构建网络 5.编译网络 6.从训练集中留出验证集 7.训练模型 8.画出训练数据 9.根据训练数据,重新训练模型并测试 10.使用训练好的网络在新数据上生成预测结果 总结

1.数据集及问题简介

路透社数据集(Reuter),它包含许多短新闻及其对应的主题,由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题:某些主题的样本更多,但训练集中每个主题都有至少10 个样本。与IMDB 和MNIST 类似,路透社数据集也内置为Keras 的一部分。

我们需要将路透社新闻划分为46 个互斥的主题。因为有多个类别,所以这是多分类(multiclass classification)问题的一个例子。因为每个数据点只能划分到一个类别,所以更具体地说,这是单标签、多分类(single-label, multiclass classification)问题的一个例子。如果每个数据点可以划分到多个类别(主题),那它就是一个多标签、多分类(multilabel,multiclass classification)问题。

2.加载数据集并探索数据 from keras.datasets import reuters (train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000) print(len(train_data)) #8982 print(len(test_data)) #2246 print(train_data[10]) print(train_labels[10]) # 3

与IMDB 数据集一样,参数num_words=10000 将数据限定为前10 000 个最常出现的单词。我们有8982 个训练样本和2246 个测试样本。与IMDB 评论一样,每个样本都是一个整数列表(表示单词索引)。样本对应的标签是一个0~45 范围内的整数,即话题索引编号。

我们可以用下列代码将索引解码为单词。

word_index = reuters.get_word_index() reverse_word_index = dict([(value, key) for (key, value) in word_index.items()]) # Note that our indices were offset by 3 # because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown". decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]]) 3.准备输入的数据 import numpy as np def to_one_hot(labels, dimension=46): results


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3