路透社数据集

2024-07-16 05:55| 来源: 网络整理| 查看: 265

文章目录 1.数据集及问题简介 2.加载数据集并探索数据 3.准备输入的数据 4.构建网络 5.编译网络 6.从训练集中留出验证集 7.训练模型 8.画出训练数据 9.根据训练数据，重新训练模型并测试 10.使用训练好的网络在新数据上生成预测结果总结

1.数据集及问题简介

路透社数据集(Reuter)，它包含许多短新闻及其对应的主题，由路透社在1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括46 个不同的主题：某些主题的样本更多，但训练集中每个主题都有至少10 个样本。与IMDB 和MNIST 类似，路透社数据集也内置为Keras 的一部分。

我们需要将路透社新闻划分为46 个互斥的主题。因为有多个类别，所以这是多分类（multiclass classification）问题的一个例子。因为每个数据点只能划分到一个类别，所以更具体地说，这是单标签、多分类（single-label, multiclass classification）问题的一个例子。如果每个数据点可以划分到多个类别（主题），那它就是一个多标签、多分类（multilabel,multiclass classification）问题。

2.加载数据集并探索数据 from keras.datasets import reuters (train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000) print(len(train_data)) #8982 print(len(test_data)) #2246 print(train_data[10]) print(train_labels[10]) # 3

与IMDB 数据集一样，参数num_words=10000 将数据限定为前10 000 个最常出现的单词。我们有8982 个训练样本和2246 个测试样本。与IMDB 评论一样，每个样本都是一个整数列表（表示单词索引）。样本对应的标签是一个0~45 范围内的整数，即话题索引编号。

我们可以用下列代码将索引解码为单词。

word_index = reuters.get_word_index() reverse_word_index = dict([(value, key) for (key, value) in word_index.items()]) # Note that our indices were offset by 3 # because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown". decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]]) 3.准备输入的数据 import numpy as np def to_one_hot(labels, dimension=46): results

【本文地址】

路透社数据集

路透社数据集

今日新闻

推荐新闻