LLMの「グループシンク」問題 — なぜAIはいつも「7」を返すのか

「1〜10の乱数を1つ選んで」と頼むと、主要なLLMはほぼ必ず「7」を返す現象に代表される出力収束の問題
NeurIPS 2024で発表された「Artificial Hivemind」論文が、25種のLLMが同じ時間のメタファーを生成することを1,250の回答から実証
温度パラメータでは解決できない理由と、Springboardsが開発した「多様性を挿入する箇所を選ぶ」アプローチを解説

AIはなぜいつも「7」を返すのか

「1から10の間で数字をひとつ選んでください」と主要なAIに頼んでみると、ほぼ必ず「7」という答えが返ってきます。これは単なる偶然ではありません。同じ傾向は創作的な課題でも繰り返されます。ChatGPTとClaudeに「バンド名を考えて」と頼むと、「glass」「neon」「velvet」「static」といった単語を含む名前が並びます。新商品のキャッチコピーを依頼すれば、両者ともに「Run your way」という同じ一文を提案してきます。

こうした現象は、Large Language Model（大規模言語モデル、LLM）が抱える根本的な傾向を映しています。膨大なテキストデータから「最も起こりやすい次の単語」を予測するよう学習されたLLMは、必然的に「人間が平均的に書くような」表現へと収束します。MIT Technology Reviewはこの現象を「グループシンク（集団思考）」と表現し、AIの創造性における構造的な課題として報じています。

25モデルが同じ詩を書く

この問題の深刻さを示した研究が、2024年12月に開催されたNeurIPS 2024で発表されました。「Artificial Hivemind（人工集合精神）」と題されたこの論文では、25種類のLLMに「時間についてのメタファーを書いてください」という指示を50回ずつ与え、合計1,250件の回答を分析しました。

結果は明確でした。大多数の回答が「時間は川のようなもの」または「時間は織工のようなもの」というバリエーションに集約されたのです。比較として、同じ課題を人間6名に与えると、6つすべて異なる回答が得られました。この研究は、グループシンクが個々のモデル内部だけの問題ではなく、LLMというカテゴリ全体にわたる傾向であることを示しています。

温度パラメータでは解決できない

LLMの出力に幅を持たせる最も単純な手段は、「温度（temperature）」パラメータを上げることです。温度を高くするほど、モデルはより低確率な単語を選びやすくなり、出力が多様になります。しかし、この方法には明確な限界があります。

温度を十分に上げると、モデルは途中で英語からコードへ切り替えたり、無関係な話題に迷い込んだりと、一貫性のない出力を生成し始めます。多様性と整合性はトレードオフの関係にあり、温度という単一のパラメータだけで両立を図るのは構造的に難しいのです。オーストラリアのスタートアップSpringboardsが注目したのは、まさにこの点でした。

Flintの出力多様化アプローチ

SpringboardsはCEO兼共同創設者Pip Bingemann氏の指揮のもと、「Flint」と名付けたLLMを開発しました。Flintはアリババが公開したオープンソースモデルQwen 3を基盤としており、共同創設者Kieran Browne氏は「基盤モデルをゼロから訓練するコストは小規模チームには高すぎる」とその選択の背景を説明しています。

Flintの核心にあるのは、出力全体にランダム性を加えるのではなく、「多様性を高めても整合性を損なわない箇所」を特定するという発想です。例えば「ヨーロッパのどこに旅行すべきか？」という質問に答えるとき、目的地を決定する直前の一点だけにランダムな要素を注入します。こうすることで、文章の論理や流れを保ちながら、従来モデルとは異なる提案を生み出せます。Bingemann氏は「ほとんどのモデルは幻覚（hallucination）と戦っている。私たちはそれを歓迎する」と語っています。

この技術はLLMの内部構造への理解を活かしたアプローチです。推論プロセスの内部最適化でLLMの速度を高める研究が進む一方で、Springboardsはあえて「予測しにくい」経路を選ぶよう誘導することで、出力の多様性そのものを変えようとしています。

「平均」で十分な場面とそうでない場面

FlintはすでにマーケティングやブランディングUの実務者の間で使われ始めています。マーケティング企業Uncommonの戦略責任者Maximilian Weigl氏は「平均に引き戻すツールでは革新的なものは作れない」と問題の本質を指摘します。一方で「9割のケースでは平均的な回答で十分。ほとんどの人は十分に良いもので満足している」とも述べており、多様性がすべての用途で必要なわけではないことも認めています。

ブランドコンサルタントのZoe Scaman氏はFlintを「まったく予想外の方向に投げ出してくれる」と評し、アイデア発想の場面での有効性を認めています。ただし「プロトタイプ段階のため、限界を超えると機能しなくなることもある」と指摘しており、実用化に向けた課題も残っています。

LLMがどれほど大規模になっても、学習データに依存する以上、出力の収束という傾向は完全には消えません。Springboardsの取り組みは、AIの「創造性」がモデルの規模拡大だけでは解決できない問題であることをあらためて示しています。MIT Technology Reviewの報道URL（原文）も参照してください。