Machine Translation Large Language Models Llama Hallucination Fine-tuning LoRA

大语言模型机器翻译与幻觉问题的缓解

Shuang LIANG - The University of Tokyo 2 分钟阅读
大语言模型机器翻译与幻觉问题的缓解

基于 Llama 3.1 的中英翻译微调及幻觉缓解策略研究

摘要

大语言模型(LLM)在自然语言处理任务中展现出卓越的性能。本研究探索了对 Llama 3.1 进行中译英机器翻译的微调,并通过训练和解码策略来应对幻觉问题。

主要成果:

  • 微调模型在文档级数据上达到 BLEU 40.8(基线 19.6
  • COMET 0.891(基线 0.820
  • 成功缓解长上下文翻译中的幻觉现象
  • 在提升文档级性能的同时保持了句子级质量

1. 背景

大语言模型

以 Llama 为代表的 LLM 正在革新自然语言处理领域,在理解和生成类人文本方面展现出非凡的能力。由于能够针对特定任务进行微调,LLM 非常适合用于提升机器翻译水平。

参数高效微调(LoRA)

LoRA(Low-Rank Adaptation)能够在不更新全部模型参数的情况下实现微调:

  • 冻结预训练模型参数
  • 插入可训练的低秩矩阵
  • 大幅降低训练成本和时间

神经机器翻译与幻觉

NMT 中的幻觉是指不忠实、虚构或无意义的输出内容:

类型说明
内在幻觉输出包含与原文不符的错误信息
外在幻觉模型生成与原文无关的额外内容
扰动幻觉输入轻微变化导致输出截然不同
自然幻觉源于训练数据集中的噪声

解码策略

方法说明
贪心搜索每步选择概率最高的 token
束搜索同时考虑概率最高的 N 个序列
温度采样调整概率分布的锐度
Top-p 采样从累积概率超过阈值的 token 中采样
Top-k 采样从概率最高的 k 个 token 中采样

2. 实验

数据集

数据集文档数句子数词数(源/目标)
NewsCommentary-v18.111,147443,6771,640万/970万
Ted Talks221,9495.1万/3.2万

评估指标

  • BLEU:Bilingual Evaluation Understudy — 将译文 n-gram 与参考译文进行比较
  • COMET:与人工评判相关性最高的神经网络评估框架

实验环境

  • 模型:Llama 3.1 8B Instruct
  • GPU:NVIDIA A100(80GB)
  • 框架:Unsloth 加速训练

微调配置

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
model = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-Instruct",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # LoRA rank
    target_modules=["q_proj", "k_proj", "v_proj",
                    "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    use_gradient_checkpointing="unsloth"
)

3. 结果

分布内性能(文档级)

训练样本数BLEUCOMET
1035.80.885
10036.90.889
1,00039.70.890
10,00040.80.891
基线19.60.820

要点: 微调使文档级翻译的 BLEU 相比基线提升了 100% 以上。

训练性能:BLEU 和 COMET 分数与训练样本数的关系

混合训练最终结果

使用句子与文档 30:1 的比例:

评估级别微调 BLEU微调 COMET基线 BLEU基线 COMET
文档级37.70.89019.60.820
句子级30.70.86230.90.864

幻觉分析

观察到的类型:

  1. 过早停止:模型在翻译完成前生成 EOS token
  2. 冗余内容:文档级模型生成翻译之外的冗长解释

缓解策略:

  • EOS token 概率阈值设定
  • 文档级与句子级混合训练
  • 精心准备数据集

注意: 经文档级微调的模型倾向于生成包含隐式先验知识的冗长输出,有时会产生事实正确但偏离主题的内容。

4. 结论

通过合理的数据集准备和微调技术,能够实现:

  1. 翻译质量的显著提升(BLEU 提高2倍)
  2. 幻觉问题的有效缓解
  3. 在提升文档级性能的同时保持句子级质量
  4. 生成更可靠、更连贯的翻译

5. 未来工作

  1. 准备涵盖多种输入场景的数据集(语言风格、文化背景、对话主题)
  2. 平衡训练数据中的内容类型以避免偏差
  3. 通过后处理方法解决命名实体错误
  4. 探索更多幻觉缓解技术

参考文献

  1. Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
  2. Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
  3. Meta AI. (2024). “Llama 3.1 Model Documentation.”
  4. Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”
分享这篇文章

免费试用 VoicePing

借助 AI 翻译跨越语言障碍。立即开始使用免费计划。

免费开始