文本生成：RNN与Transformer，谁能妙笔生花？（附代码示例）

2025/5/10 02:33:41 164 0 0 0

文本生成：RNN与Transformer，谁能妙笔生花？（附代码示例）

大家好，我是老码，今天咱们来聊聊文本生成这个话题。话说，AI写诗、AI写新闻，这些听起来是不是挺玄乎？其实，背后离不开循环神经网络（RNN）和Transformer模型这两大功臣。

想象一下，你给AI输入一句话：“春风拂柳”，它就能自动接下去：“绿意满园”。这可不是简单的随机组合，而是AI理解了语言的内在逻辑和规律。那么，RNN和Transformer究竟是如何做到这一点的？它们又有什么区别和优劣呢？咱们一步步来揭秘。

一、文本生成：从“牙牙学语”到“出口成章”

文本生成，顾名思义，就是让机器自动生成文本。这个领域应用广泛，包括：

机器翻译：将一种语言自动翻译成另一种语言。
文本摘要：从长篇文章中提取关键信息，生成简洁的摘要。
对话系统：构建能够与人进行自然对话的聊天机器人。
创意写作：生成诗歌、小说、剧本等创意文本。
代码生成：根据自然语言描述自动生成代码。

文本生成的关键在于让机器学会理解和模仿人类的语言模式。这就像教小孩说话，先教他们单个词语，再教他们组合成句子，最后让他们自由表达。机器也是一样，需要大量的数据进行训练，才能逐渐掌握语言的奥秘。

二、RNN：擅长“按部就班”的语言大师

RNN，循环神经网络，是一种擅长处理序列数据的神经网络。文本就是一个典型的序列数据，每个字或词都按照一定的顺序排列。

1. RNN的核心思想：循环记忆

RNN的核心在于“循环”二字。它会将前一个时刻的输出作为当前时刻的输入，从而实现对序列信息的记忆。你可以把RNN想象成一个有记忆的人，它在阅读一篇文章时，会记住之前读过的内容，并根据这些内容来理解当前句子的含义。

2. RNN的结构：环环相扣

一个简单的RNN结构如下图所示：

[图片：简单的RNN结构图，包括输入层、隐藏层、输出层，以及循环连接]

输入层（Input Layer）：接收序列的当前输入，比如一个词或一个字。
隐藏层（Hidden Layer）：存储和更新序列的历史信息，也就是“记忆”。
输出层（Output Layer）：根据隐藏层的状态生成当前时刻的输出，比如预测下一个词。
循环连接（Recurrent Connection）：将隐藏层的输出传递到下一个时刻的隐藏层，实现信息的循环利用。

3. RNN的工作原理：步步为营

RNN在处理文本序列时，会按照顺序逐个处理每个词或字。每处理一个输入，隐藏层的状态就会更新一次，从而记住之前的信息。最终，输出层会根据隐藏层的状态生成相应的输出。

举个例子，假设我们要让RNN生成一句话：“我喜欢编程”。

输入“我”：RNN接收到第一个词“我”，隐藏层的状态根据“我”的信息进行更新。
输入“喜欢”：RNN接收到第二个词“喜欢”，同时接收到上一个时刻隐藏层的状态（包含了“我”的信息）。隐藏层将“喜欢”和“我”的信息结合起来，更新状态。
输入“编程”：RNN接收到第三个词“编程”，同时接收到上一个时刻隐藏层的状态（包含了“我”和“喜欢”的信息）。隐藏层将“编程”、“我”和“喜欢”的信息结合起来，更新状态。
输出句号“。”：RNN根据当前的隐藏层状态，预测下一个词为句号“。”，表示句子结束。

4. RNN的变体：LSTM和GRU

虽然RNN在理论上可以处理任意长度的序列，但实际上，它在处理长序列时会遇到“梯度消失”或“梯度爆炸”的问题。这会导致RNN难以学习到长距离的依赖关系，影响生成文本的质量。

为了解决这个问题，研究者们提出了LSTM（Long Short-Term Memory）和GRU（Gated Recurrent Unit）等RNN的变体。它们通过引入门控机制，更好地控制信息的流动和记忆，从而有效地缓解梯度问题，提高长序列的处理能力。

LSTM：在RNN的基础上增加了细胞状态（Cell State）和三个门（输入门、遗忘门、输出门），用于控制信息的存储、更新和输出。
GRU：是LSTM的简化版本，将细胞状态和隐藏层状态合并，并减少了门控数量，从而降低了计算复杂度。

5. RNN的优势与不足

优势：

擅长处理序列数据：RNN天生适合处理文本、语音等序列数据。
能够捕捉时间依赖关系：RNN可以记住序列的历史信息，从而捕捉到长距离的依赖关系。

不足：

梯度问题：RNN在处理长序列时容易遇到梯度消失或梯度爆炸的问题。
难以并行化：RNN需要按顺序逐个处理序列中的元素，难以进行并行计算，效率较低。

三、Transformer：横空出世的“注意力”大师

Transformer模型是近年来在自然语言处理领域取得重大突破的模型。它摒弃了RNN的循环结构，完全基于注意力机制来实现文本生成。

1. Transformer的核心思想：注意力机制

注意力机制（Attention Mechanism）是Transformer的核心。它可以让模型在生成每个词时，都关注到输入序列中与该词相关的部分。你可以把注意力机制想象成一个聚光灯，它会照亮输入序列中最重要的部分，帮助模型更好地理解上下文。

2. Transformer的结构：编码器-解码器

Transformer的结构主要由编码器（Encoder）和解码器（Decoder）两部分组成。

[图片：Transformer的结构图，包括编码器、解码器、注意力机制]

编码器（Encoder）：将输入序列编码成一个固定长度的向量表示，捕捉输入序列的语义信息。
解码器（Decoder）：根据编码器的输出和已生成的序列，逐个生成目标序列中的词。
注意力机制（Attention Mechanism）：连接编码器和解码器，让解码器在生成每个词时，都关注到编码器输出中与该词相关的部分。

3. Transformer的工作原理：全局关注

Transformer在处理文本序列时，会同时处理整个序列，而不是像RNN那样逐个处理。通过注意力机制，Transformer可以快速地捕捉到序列中任意两个词之间的依赖关系，从而更好地理解上下文。

举个例子，假设我们要用Transformer生成一句话：“猫坐在垫子上”。

编码器编码：编码器接收到输入序列“猫坐在垫子上”，将其编码成一个向量表示。
解码器解码：解码器根据编码器的输出和已生成的序列（初始为空），开始逐个生成目标序列中的词。
注意力机制：在生成每个词时，注意力机制会计算输入序列中每个词与当前词之间的相关性。比如，在生成“坐在”这个词时，注意力机制会发现“猫”和“垫子上”与“坐在”最相关，从而将更多的注意力放在这两个词上。
生成目标序列：解码器根据注意力机制的输出和已生成的序列，生成下一个词。重复这个过程，直到生成完整的句子“猫坐在垫子上”。

4. Transformer的优势与不足

优势：

能够捕捉长距离依赖关系：注意力机制可以快速地捕捉到序列中任意两个词之间的依赖关系。
可以并行化：Transformer可以同时处理整个序列，可以进行并行计算，效率较高。
效果更好：在许多自然语言处理任务中，Transformer都取得了比RNN更好的效果。

不足：

计算复杂度高：注意力机制的计算复杂度较高，需要消耗大量的计算资源。
不擅长处理超长序列：由于计算复杂度的限制，Transformer不擅长处理超长序列。

四、RNN vs Transformer：一场精彩的对决

特性	RNN	Transformer
结构	循环神经网络	编码器-解码器结构
核心机制	循环记忆	注意力机制
序列处理方式	逐个处理	同时处理
依赖关系	擅长捕捉局部依赖关系	擅长捕捉长距离依赖关系
并行化	难以并行化	可以并行化
梯度问题	容易出现梯度消失或梯度爆炸的问题	相对较好地解决了梯度问题
计算复杂度	较低	较高
适用场景	序列长度较短，对实时性要求较高的场景	序列长度较长，对效果要求较高的场景

总的来说，RNN和Transformer各有千秋。RNN擅长处理序列数据，能够捕捉局部依赖关系，但容易出现梯度问题，难以并行化。Transformer则能够捕捉长距离依赖关系，可以并行化，效果更好，但计算复杂度较高。

五、代码示例：用RNN生成古诗

接下来，咱们用Python和TensorFlow来实现一个简单的RNN模型，用于生成古诗。

1. 数据准备

首先，我们需要准备古诗数据集。可以从网上下载，或者自己整理。数据集的格式可以是一个文本文件，每行一首诗。

2. 数据预处理

接下来，我们需要对数据进行预处理，包括：

构建词汇表：将所有诗句中出现的字提取出来，构建一个词汇表。
建立字和索引的映射：为每个字分配一个唯一的索引，方便模型进行处理。
将诗句转换成索引序列：将每首诗句中的字转换成对应的索引序列。

3. 构建RNN模型

import tensorflow as tf

class PoetryModel(tf.keras.Model):
    def __init__(self, vocab_size, embedding_dim, rnn_units):
        super().__init__()
        self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
        self.gru = tf.keras.layers.GRU(rnn_units, return_sequences=True, return_state=True)
        self.dense = tf.keras.layers.Dense(vocab_size)

    def call(self, inputs, states=None, return_state=False):
        x = self.embedding(inputs)
        x, states = self.gru(x, initial_state=states)
        x = self.dense(x)

        if return_state:
            return x, states
        else:
            return x

4. 训练模型

# 定义损失函数和优化器
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
optimizer = tf.keras.optimizers.Adam()

# 定义训练步骤
@tf.function
def train_step(inputs, targets, states):
    with tf.GradientTape() as tape:
        predictions = model(inputs, states=states)
        loss = loss_fn(targets, predictions)
    gradients = tape.gradient(loss, model.trainable_variables)
    optimizer.apply_gradients(zip(gradients, model.trainable_variables))
    return loss, states

# 开始训练
epochs = 10
for epoch in range(epochs):
    states = None
    for batch, (inputs, targets) in enumerate(dataset):
        loss, states = train_step(inputs, targets, states)
        print('Epoch: {}, Batch: {}, Loss: {}'.format(epoch + 1, batch + 1, loss.numpy()))

5. 生成古诗

# 定义生成函数
def generate_poetry(model, start_string, num_to_generate):
    # 将起始字符串转换成索引序列
    input_eval = [char2idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

    # 初始化隐藏状态
    states = None

    # 存储生成结果
    poetry = []

    # 开始生成
    for i in range(num_to_generate):
        predictions, states = model(input_eval, states=states, return_state=True)
        predictions = tf.squeeze(predictions, 0)

        # 使用随机抽样的方式选择下一个字
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()

        # 将预测的字转换成字符
        predicted_char = idx2char[predicted_id]

        # 将预测的字添加到结果中
        poetry.append(predicted_char)

        # 将预测的字作为下一个输入
        input_eval = tf.expand_dims([predicted_id], 0)

    return start_string + ''.join(poetry)

# 生成古诗
start_string = '春风'
num_to_generate = 20
poetry = generate_poetry(model, start_string, num_to_generate)
print(poetry)

6. 运行结果

运行上述代码，就可以生成一些简单的古诗了。当然，由于模型比较简单，训练数据也比较少，所以生成的诗句可能不够优美，但至少可以感受到AI创作的乐趣。

六、总结与展望

RNN和Transformer都是强大的文本生成模型，它们在不同的场景下都有着各自的优势。RNN擅长处理序列数据，能够捕捉局部依赖关系，但容易出现梯度问题。Transformer则能够捕捉长距离依赖关系，可以并行化，效果更好，但计算复杂度较高。

未来，随着深度学习技术的不断发展，文本生成模型将会越来越强大，能够生成更加逼真、自然的文本。我们可以期待AI在文学创作、新闻报道、机器翻译等领域发挥更大的作用。

好了，今天的分享就到这里。希望这篇文章能够帮助你更好地理解RNN和Transformer，以及文本生成的基本原理。如果你对这个领域感兴趣，不妨自己动手尝试一下，相信你会发现更多有趣的知识。

补充说明：

以上代码只是一个简单的示例，实际应用中需要进行更多的优化和调整。
可以尝试使用更大的数据集和更复杂的模型，以提高生成文本的质量。
可以尝试使用不同的采样方法，例如Beam Search，以生成更多样化的文本。
可以尝试将RNN和Transformer结合起来，例如使用Transformer来提取文本特征，然后使用RNN来生成文本。

老码识途 RNN Transformer 文本生成

文本生成：RNN与Transformer，谁能妙笔生花？（附代码示例）