- スペイン・バスク大学と英カーディフ大学の研究チームが24言語・3万2000問の独自データセットで8つのLLMを評価し、6モデルで日本が最頻参照国と判明した
- ファインチューニング後のモデルでは文化的多様性が著しく低下し日本と米国への偏重が生じる一方、事前学習済みのベースモデルは比較的バランスが良い
- マイナー言語ほど自国文化への固執が強まる傾向があり、グローバル展開するAIサービスの品質格差につながるリスクが浮き彫りになった
欧州チームが問うAIの文化的公平性
スペインのバスク大学(Universidad del País Vasco)や英カーディフ大学に所属する研究者らが2026年4月にarXivで公開した論文「Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs」は、複数の大規模言語モデル(Large Language Model、LLM)が文化的な話題において特定の国を著しく偏って参照することを定量的に示した研究報告だ。
多言語対応が当然視されつつある現在のAIモデルは、世界中のユーザーに等しく価値ある情報を届けることが期待される。しかし、学習データの偏りや事後学習プロセスの影響により、特定の文化や地域が過度に参照される現象が生じうる。研究チームはこの実態を可視化することを目的として、独自の評価基盤を構築した。
24言語・3万2000問で偏りを測る
研究チームが構築した「CROQ(Culture-Related Open Questions)」は、「どのような伝統舞踊が存在するか?」「日常の食事として何が食べられているか?」といった、具体的な国を指定しない質問を24言語でまとめた独自データセットだ。1320問 × 24言語で計3万1680問が収録されており、食事・伝統芸術・文化行事など11のトピック領域をカバーしている。
国名を意図的に伏せた質問を用いることで、モデルが自ら参照する国や文化を選ぶ設計にした点が本研究の要点だ。これにより、外部から誘導せずにAI内部に潜む文化的嗜好を浮き彫りにすることを狙っている。実験にはGPT-4o-mini、Gemini 2.5 Flash、Claude 3.5 Haiku、Llama-4 Maverick、Command-R 08-2024、Magistral-small-2506、DeepSeek-v3.2-exp、Qwen3-next-80b-a3b-instructの8モデルが使用された。

8モデル中6モデルで日本が1位
分析の結果、まず確認されたのは「質問言語と自国文化の連動」だ。日本語の質問であれば日本について、中国語であれば中国について答える傾向が各モデルに共通して観察された。インターネット上の学習データが少ないマイナー言語ほど、その言語圏の国への固執が強まり、回答の多様性が著しく低下することも明らかになっている。
より注目すべきは、入力言語に直接紐づく国を分析対象から除外した場合の結果だ。この条件下では、言語の種類やモデルの違いを超えて、日本と米国が一貫して圧倒的な頻度で参照された。日本への偏りは際立っており、評価された8モデルのうち6モデルで最も参照される国となった。食事・伝統芸術・文化行事といった複数のトピックでも同様の傾向が確認されている。
なぜ英語圏でない日本がここまで参照されるのかについて、研究チームは明確な単一原因を示していない。ただし、インターネット上での日本文化コンテンツの豊富さや、アニメ・ゲームを通じた世界的なプレゼンスが間接的に影響している可能性を示唆している。
原因はファインチューニングにあり
研究チームはバイアスの発生源を特定するため、オープンモデルを用いた追加実験を行った。Llama-3.1 8B、Gemma2 9B、Qwen2.5-7Bおよびそれらの派生モデルを対象に、事前学習済みのベースモデルと、教師ありファインチューニング(Supervised Fine-Tuning、SFT)後のモデルの回答分布を比較している。
ベースモデルの段階では世界各国を比較的バランスよく参照し、多様な文化を提示していた。ところが、有用性や安全性を高めるSFTを経た後、回答の分布が日本と米国に強く収束する変化が確認された。モデルの有用性を高めるはずの事後学習が、文化的多様性の観点からは逆の効果をもたらしているといえる。
研究チームはこの現象を「文化的均質化」と捉え、SFTに使用されるデータセット自体が偏っている可能性を指摘している。なお、追加実験で使用したモデルは最初の実験とは異なるため、あくまで傾向としての解釈にとどまる点には留意が必要だ。
グローバル展開への実践的な示唆
この研究が示す問題は、技術的な興味にとどまらない。多言語・多文化対応を前提としたグローバルサービスにLLMを組み込む際、モデルの文化的偏りが出力品質の地域間格差に直結するためだ。日本のユーザーにとっては自国文化が過剰に参照される状況が一見問題なく見えるかもしれないが、欧州やアフリカ、ラテンアメリカのユーザーは自文化が著しく過小評価された回答を受け取ることになる。
こうした文化的偏りへの対抗策として、地域に根ざした独自モデルの開発を加速する動きもある。CohereとAleph Alphaの統合に代表されるソブリンAI(主権的AI)の潮流は、文化的均質化への実践的な解決策の一つとして位置づけられる。研究チームはCROQデータセットを公開しており、AI開発者が自社モデルの文化的偏りを定量評価するための基盤として活用できる。
