機械翻訳におけるIn-Context Learning性能の向上

1. はじめに

大規模言語モデル（LLM）は、入力とラベルのペアを条件として与えることで、下流タスクにおいて優れた能力を発揮しています。この推論モードはIn-Context Learningと呼ばれています（Brown et al. 2020）。GPT-4はファインチューニングなしで、特定のタスク例を提示するだけで翻訳能力を向上させることができます。

図1: Few-shot例を使用した中国語から英語へのIn-Context Learning翻訳

In-Context Learningの有効性は、暗黙的ベイズ推論に起因します（Xie et al. 2022）。例をランダムに選択するだけでは、GPT-4がプロンプトの概念を効果的に理解することはできません。本研究の主な目的は、ユーザー入力に基づいて適切な例を戦略的に選択することです。

2. 提案手法

本手法は、翻訳ペアを含むデータセットDsへのアクセスを前提としています。テキストリトリーバー（Gao 2023）を使用して、ユーザーのプロンプトと意味的に類似する上位K文を検索・選択します。

リトリーバーは2つのコンポーネントで構成されています。

TF-IDF行列 - 単語頻度と逆文書頻度を測定
コサイン類似度 - TF-IDFベクトル間の類似度を計算

TF-IDFスコア

TF-IDFスコアは、文書内の単語の重要度を測定します。

TF（単語頻度）: 文書内での単語の出現頻度
IDF（逆文書頻度）: コーパス全体における単語の重要性

コサイン類似度

コサイン類似度は、2つのベクトルの表現間の角度を考慮して類似性を評価します。スコアが高いほど、ユーザーのプロンプトとデータセット内の文書の類似度が高いことを示します。

図2: TF-IDF行列とコサイン類似度を使用してデータセットから上位K個の例を選択

3. 実験設定

3.1 実験手順

実験は3つのシナリオを対象としています。

ICLなし: In-Context Learning例なしのGPT-4翻訳
ランダムICL: 翻訳例をランダムに選択
提案手法: TF-IDFリトリーバーが類似度スコアに基づいて上位4つの例を選択

評価指標

BLEUスコア: 翻訳セグメントを参照翻訳と比較（Papineni et al. 2002）
COMETスコア: 人間の判断との最先端の相関を達成する多言語機械翻訳評価のためのニューラルフレームワーク（Rei et al. 2020）

3.2 データセット

OPUS-100（Zhang et al. 2020）を選択した理由:

多様な翻訳言語ペアを含む（ZH-EN、JA-EN、VI-EN）
効果的な例選択のための多様なドメインをカバー

設定:

Ds用に言語ペアごとに10,000のトレーニングインスタンス
評価用にテストセットの最初の100文

3.3 実装

scikit-learnのTfidfVectorizerとcosine_similarity関数を使用:

ユーザーのプロンプトとDsを結合
プロンプトと全文間のコサイン類似度スコアを算出
類似度に基づいて上位4つの例を選択
例をGPT-4のプロンプトに埋め込み

図3: リトリーバーが特定した4つの例を含む最終プロンプト

4. 結果と考察

表1: 全言語ペアにおける3つのシナリオの翻訳精度

主な発見:

提案手法は全言語ペアで優れた翻訳精度を達成
BLEUスコアの1%の改善は機械翻訳において有意義な向上
ランダムICLはICLなしよりも悪い結果を出す場合がある
これは適切な例選択の重要性を裏付けている

データセットサイズの影響

表2: 異なるデータセットサイズでの翻訳精度

100万文でのテストにより、より大きなDsデータセットがGPT-4のタスク学習効果を向上させることが確認されました。

5. 結論と今後の課題

本論文では、TF-IDFによる検索を活用したIn-Context Learningを通じてGPT-4の翻訳性能を向上させる手法を提案しました。本手法は以下を実現しています。

TF-IDF行列とコサイン類似度を用いたリトリーバーの構築
ユーザーのプロンプトと密接に一致する文の選択
BLEUスコアとCOMETスコアの両方での改善

今後の研究方向:

データセット構築: 多様なドメインにわたる包括的で高品質な翻訳データセットの作成
例の数: 4つの代わりに5つまたは10個の例を使用した場合の影響の調査

6. 参考文献

Brown, T., et al. (2020). “Language models are few-shot learners.”
Xie, S. M., et al. (2022). “An Explanation of In-context Learning as Implicit Bayesian Inference.”
Bashir, D. (2023). “In-Context Learning, in Context.” The Gradient.
Das, R., et al. (2021). “Case-based reasoning for natural language queries over knowledge bases.”
Liu, J., et al. (2022). “What makes good in-context examples for GPT-3?”
Margatina, K., et al. (2023). “Active learning principles for in-context learning with large language models.”
Gao, L., et al. (2023). “Ambiguity-Aware In-Context Learning with Large Language Models.”
Papineni, K., et al. (2002). “BLEU: A method for automatic evaluation of machine translation.”
Rei, R., et al. (2020). “COMET: A Neural Framework for MT Evaluation.”
Zhang, B., et al. (2020). “Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation.”