Machine Translation Large Language Models Llama Hallucination Fine-tuning LoRA

대규모 언어 모델을 활용한 기계번역과 환각 저감

Shuang LIANG - The University of Tokyo 3 분 읽기
대규모 언어 모델을 활용한 기계번역과 환각 저감

Llama 3.1의 중영 번역 파인튜닝과 환각 완화 전략에 관한 연구

개요

대규모 언어 모델(LLM)은 자연어 처리 과제에서 뛰어난 성능을 보이고 있습니다. 본 연구에서는 Llama 3.1을 중국어-영어 기계번역용으로 파인튜닝하고, 학습 및 디코딩 전략을 통해 환각(hallucination) 문제를 해결합니다.

주요 결과:

  • 파인튜닝 모델이 문서 수준 데이터에서 BLEU 40.8 달성 (베이스라인 19.6)
  • COMET 0.891 (베이스라인 0.820)
  • 긴 문맥의 번역에서 환각 현상 완화에 성공
  • 문서 수준 성능을 향상시키면서 문장 수준 품질 유지

1. 배경

대규모 언어 모델

Llama와 같은 LLM은 자연어 처리를 혁신하며, 인간과 유사한 텍스트 이해 및 생성에서 놀라운 능력을 보여주고 있습니다. 특정 과제에 맞게 파인튜닝할 수 있어 기계번역 고도화에 적합합니다.

파라미터 효율적 파인튜닝 (LoRA)

LoRA(Low-Rank Adaptation)는 전체 모델 파라미터를 업데이트하지 않고도 파인튜닝을 가능하게 합니다.

  • 사전 학습된 모델 파라미터를 고정
  • 학습 가능한 저랭크 행렬을 삽입
  • 학습 비용과 시간을 크게 절감

신경 기계번역과 환각

NMT에서의 환각이란 원문에 충실하지 않거나 조작된, 또는 의미 없는 콘텐츠를 말합니다.

유형설명
내재적 환각원문 대비 잘못된 정보를 포함하는 출력
외재적 환각모델이 관련 없는 추가 콘텐츠를 생성
섭동 환각입력의 미세한 변화에 대해 크게 다른 출력을 생성
자연 환각학습 데이터의 노이즈에 기인

디코딩 전략

방법설명
그리디 탐색각 단계에서 확률이 가장 높은 토큰을 선택
빔 서치확률이 높은 N개의 시퀀스를 고려
온도 샘플링확률 분포의 날카로움을 조절
Top-p 샘플링누적 확률 임계값을 초과하는 토큰에서 선택
Top-k 샘플링확률이 높은 k개의 토큰에서 선택

2. 실험

데이터셋

데이터셋문서 수문장 수단어 수 (원문/번역문)
NewsCommentary-v18.111,147443,6771,640만/970만
Ted Talks221,9495.1만/3.2만

평가 지표

  • BLEU: Bilingual Evaluation Understudy - 참조 번역과 n-gram을 비교
  • COMET: 인간 판단과 최고 수준의 상관관계를 가진 뉴럴 프레임워크

실험 환경

  • 모델: Llama 3.1 8B Instruct
  • GPU: NVIDIA A100 (80GB)
  • 프레임워크: Unsloth (가속 학습)

파인튜닝 설정

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
model = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-Instruct",
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # LoRA rank
    target_modules=["q_proj", "k_proj", "v_proj",
                    "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha=16,
    use_gradient_checkpointing="unsloth"
)

3. 결과

분포 내 성능 (문서 수준)

학습 샘플 수BLEUCOMET
1035.80.885
10036.90.889
1,00039.70.890
10,00040.80.891
베이스라인19.60.820

핵심: 파인튜닝을 통해 문서 수준 번역에서 베이스라인 대비 BLEU가 100% 이상 향상되었습니다.

학습 성능: BLEU 및 COMET 점수 vs 학습 샘플 수

혼합 학습 최종 결과

문장 대 문서 비율 30:1 적용:

평가 수준파인튜닝 BLEU파인튜닝 COMET베이스라인 BLEU베이스라인 COMET
문서 수준37.70.89019.60.820
문장 수준30.70.86230.90.864

환각 분석

확인된 유형:

  1. 조기 중단: 번역 완료 전에 모델이 EOS 토큰을 생성
  2. 중복 콘텐츠: 문서 수준 모델이 번역 이외의 장황한 설명을 생성

완화 전략:

  • EOS 토큰 확률 임계값 설정
  • 문서/문장 수준 혼합 학습
  • 데이터셋의 신중한 준비

주의: 문서 수준으로 파인튜닝된 모델은 암묵적 사전 지식을 포함한 장황한 출력을 생성하는 경향이 있으며, 사실에 기반하지만 주제에서 벗어난 콘텐츠를 생성하는 경우가 있습니다.

4. 결론

적절한 데이터셋 준비와 파인튜닝 기법을 통해 다음이 가능합니다.

  1. 번역 품질의 대폭 향상 (BLEU 2배 개선)
  2. 환각 문제 완화
  3. 문서 수준 성능 향상과 문장 수준 품질 유지의 양립
  4. 보다 신뢰성 있고 일관된 번역 생성

5. 향후 과제

  1. 다양한 입력 시나리오(문체, 문화적 배경, 대화 주제)를 다루는 데이터셋 준비
  2. 편향을 방지하기 위한 학습 데이터 콘텐츠 유형의 균형 조정
  3. 후처리 방법을 통한 고유명사 오류 해결
  4. 추가적인 환각 완화 기법 탐구

참고문헌

  1. Kocmi, T., et al. (2022). “Findings of the 2022 conference on machine translation (WMT22).”
  2. Hu, E., et al. (2021). “LoRA: Low-Rank Adaptation of Large Language Models.”
  3. Meta AI. (2024). “Llama 3.1 Model Documentation.”
  4. Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.”
이 기사 공유

VoicePing 무료로 시작하기

AI 번역으로 언어 장벽을 넘어보세요. 지금 무료로 시작하세요.

무료로 시작