1. 相关内容介绍 1.1 PaddleNLP










1.2 BERT

BERT的全称为Bidirectional Encoder Representations from Transformers,即基于Transformers的双向编码表示模型。BERT是Transformers应用的一次巨大的成功。在该模型提出时,其在NLP领域的11个方向上都大幅刷新了SOTA。其模型的主要特点可以归纳如下:



使用MLM(Mask Language Model)和NSP(Next Sentence Prediction)实现多任务训练的目标。


2. 数据设置


2.1 数据准备


该数据集包含了唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。其中,唐宋诗歌内容在json文件夹下,这里只使用json文件夹下的数据即可。以下式单个数据的示例:

{ "author":string"胡宿" "paragraphs":[ "五粒青松護翠苔,石門岑寂斷纖埃。" "水浮花片知仙路,風遞鸞聲認嘯臺。" "桐井曉寒千乳斂,茗園春嫩一旗開。" "馳煙未勒山亭字,可是英靈許再來。" ] "title":string"沖虛觀" "id":string"dad91d22-4b8a-4c04-a0d5-8f7ca8aff4de" } ,…]


# 更新paddlenlp版本 !pip install --upgrade paddlenlp import paddlenlp test_dataset, dev_dataset, train_dataset = paddlenlp.datasets.load_dataset('poetry', splits=('test','dev','train'), lazy=False) print('test_dataset 的样本数量:%d'%len(test_dataset)) print('dev_dataset 的样本数量:%d'%len(dev_dataset)) print('train_dataset 的样本数量:%d'%len(train_dataset)) test_dataset 的样本数量:364 dev_dataset 的样本数量:995 train_dataset 的样本数量:294598


2.2 数据处理


print('单样本示例:%s'%test_dataset[0]) 单样本示例:{'tokens': '西\x02风\x02簇\x02浪\x02花\x02,\x02太\x02湖\x02连\x02底\x02冻\x02。', 'labels': '冷\x02照\x02玉\x02奁\x02清\x02,\x02一\x02片\x02无\x02瑕\x02缝\x02。\x02面\x02目\x02分\x02明\x02,\x02眼\x02睛\x02定\x02动\x02。\x02不\x02墯\x02虚\x02凝\x02裂\x02万\x02差\x02,\x02漆\x02桶\x02漆\x02桶\x02。'}

从单个样本的实例中可以看到,每个样本都有两句。为了方便处理,这里我们直接将两句合成一句进行训练。训练中我们将用每个诗句当前的字去预测下一个字,假设我们有样本sample, 那么我们的输入为sample[:-1],要预测的目标为sample[1:]。诗句中每个字后边都有符号’\x02’,由于对当前的训练并没有帮助,所以我们将其替换掉。

import re def data_preprocess(dataset): for i, data in enumerate(dataset): dataset.data[i] = ''.join(list(dataset[i].values())) dataset.data[i] = re.sub('\x02', '', dataset[i]) return dataset # 开始处理 test_dataset = data_preprocess(test_dataset) dev_dataset = data_preprocess(dev_dataset) train_dataset = data_preprocess(train_dataset) print('处理后的单样本示例:%s'%test_dataset[0]) 处理后的单样本示例:西风簇浪花,太湖连底冻。冷照玉奁清,一片无瑕缝。面目分明,眼睛定动。不墯虚凝裂万差,漆桶漆桶。


from paddlenlp.transformers import BertTokenizer bert_tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') [2021-06-09 15:35:07,276] [ INFO] - Downloading bert-base-chinese-vocab.txt from https://paddle-hapi.bj.bcebos.com/models/bert/bert-base-chinese-vocab.txt 100%|██████████| 107/107 [00:00 self.max_len + 1: token = token[:self.max_len] + token[-1:] token_type = token_type[:self.max_len] + token_type[-1:] input_token, input_token_type = token[:-1], token_type[:-1] label_token = np.array((token[1:] + [0] * self.max_len)[:self.max_len], dtype='int64') # 输入填充 input_token = np.array((input_token + [0] * self.max_len)[:self.max_len], dtype='int64') input_token_type = np.array((input_token_type + [0] * self.max_len)[:self.max_len], dtype='int64') input_pad_mask = (input_token != 0).astype('float32') return input_token, input_token_type, input_pad_mask, label_token, input_pad_mask def __len__(self): return len(self.poems) 3. 模型设置与训练


3.1 预训练BERT模型

古诗生成是一个文本生成的过程,在实际中模型无法获知还未生成的内容,也即BERT中的双向关系中只能捕捉到前向关系而不能捕捉到后向关系。这个限制我们可以通过添加注意力掩码(attention mask)来屏蔽掉后向的关系,使模型无法注意到还未生成的内容,从而使BERT仍能完成文本生成任务。


句子床前明月光,疑是地上霜。输入床前明月光,疑是地上霜预测前明月光,疑是地上霜。流程如下根据内容:床预测内容:前根据内容:床前预测内容:明根据内容:床前明预测内容:月……根据内容:床前明月光,疑是地上霜预测内容:。 from paddlenlp.transformers import BertModel, BertForTokenClassification from paddle.nn import Layer, Linear, Softmax class PoetryBertModel(Layer): """ 基于BERT预训练模型的诗歌生成模型 """ def __init__(self, pretrained_bert_model: str, input_length: int): super(PoetryBertModel, self).__init__() bert_model = BertModel.from_pretrained(pretrained_bert_model) self.vocab_size, self.hidden_size = bert_model.embeddings.word_embeddings.parameters()[0].shape self.bert_for_class = BertForTokenClassification(bert_model, self.vocab_size) # 生成下三角矩阵,用来mask句子后边的信息 self.sequence_length = input_length # lower_triangle_mask为input_length * input_length的下三角矩阵(包含主对角线),该掩码作为注意力掩码的一部分(在forward的 # 处理中为0的部分会被处理成无穷小量,以方便在计算注意力权重的时候保证被掩盖的部分权重约等于0)。而之所以写为下三角矩阵的形式,与 # transformer的多头注意力计算的机制有关,细节可以了解相关论文获悉。 self.lower_triangle_mask = paddle.tril(paddle.tensor.full((input_length, input_length), 1, 'float32')) def forward(self, token, token_type, input_mask, input_length=None): # 计算attention mask mask_left = paddle.reshape(input_mask, input_mask.shape + [1]) mask_right = paddle.reshape(input_mask, [input_mask.shape[0], 1, input_mask.shape[1]]) # 输入句子中有效的位置 mask_left = paddle.cast(mask_left, 'float32') mask_right = paddle.cast(mask_right, 'float32') attention_mask = paddle.matmul(mask_left, mask_right) # 注意力机制计算中有效的位置 if input_length is not None: # 之所以要再计算一次,是因为用于推理预测时,可能输入的长度不为实例化时设置的长度。这里的模型在训练时假设输入的 # 长度是被填充成一致的——这一步不是必须的,但是处理成一致长度比较方便处理(对应地,增加了显存的用度)。 lower_triangle_mask = paddle.tril(paddle.tensor.full((input_length, input_length), 1, 'float32')) else: lower_triangle_mask = self.lower_triangle_mask attention_mask = attention_mask * lower_triangle_mask # 无效的位置设为极小值 attention_mask = (1 - paddle.unsqueeze(attention_mask, axis=[1])) * -1e10 attention_mask = paddle.cast(attention_mask, self.bert_for_class.parameters()[0].dtype) output_logits = self.bert_for_class(token, token_type_ids=token_type, attention_mask=attention_mask) return output_logits 3.2 定义模型损失


class PoetryBertModelLossCriterion(Layer): def forward(self, pred_logits, label, input_mask): loss = paddle.nn.functional.cross_entropy(pred_logits, label, ignore_index=0, reduction='none') masked_loss = paddle.mean(loss * input_mask, axis=0) return paddle.sum(masked_loss) 3.3 模型准备


from paddle.io import DataLoader train_loader = DataLoader(PoemData(train_dataset, bert_tokenizer, 128), batch_size=128, shuffle=True) dev_loader = DataLoader(PoemData(dev_dataset, bert_tokenizer, 128), batch_size=32, shuffle=True) model.fit(train_data=train_loader, epochs=10, save_dir='./checkpoint', save_freq=1, verbose=1, eval_data=dev_loader, eval_freq=1) 4. 古诗生成



import numpy as np class PoetryGen(object): """ 定义一个自动生成诗句的类,按照要求生成诗句 model: 训练得到的预测模型 tokenizer: 分词编码工具 max_length: 生成诗句的最大长度,需小于等于model所允许的最大长度 """ def __init__(self, model, tokenizer, max_length=512): self.model = model self.tokenizer = tokenizer self.puncs = [',', '。', '?', ';'] self.max_length = max_length def generate(self, style='', head='', topk=2): """ 根据要求生成诗句 style (str): 生成诗句的风格,写成诗句的形式,如“大漠孤烟直,长河落日圆。” head (str, list): 生成诗句的开头内容。若head为str格式,则head为诗句开始内容; 若head为list格式,则head中每个元素为对应位置上诗句的开始内容(即藏头诗中的头)。 topk (int): 从预测的topk中选取结果 """ head_index = 0 style_ids = self.tokenizer.encode(style)['input_ids'] # 去掉结束标记 style_ids = style_ids[:-1] head_is_list = True if isinstance(head, list) else False if head_is_list: poetry_ids = self.tokenizer.encode(head[head_index])['input_ids'] else: poetry_ids = self.tokenizer.encode(head)['input_ids'] # 去掉开始和结束标记 poetry_ids = poetry_ids[1:-1] break_flag = False while len(style_ids) + len(poetry_ids)




