【MobileLLM】スマホ上でも高性能に動作する小型の言語モデル！

この論文では、モバイルデバイス向けに最適化された小型の大規模言語モデル「MobileLLM」を提案しています。従来の大規模モデルの高コストと遅延を克服し、低リソース環境でも高い精度を維持できる設計が可能となりました。

論文：MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases
GitHub：https://github.com/facebookresearch/mobilellm

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

この研究のポイントは？
背景
提案手法
実験
結論

この研究のポイントは？

本論文は、モバイルデバイス上で効率的に動作する小規模の言語モデル「MobileLLM」を提案しています。

本研究のポイントは、以下の通りです。

課題：従来の大規模モデルはモバイルデバイスでの運用が難しく、コストや遅延が大きい
解決手法：深くて薄いアーキテクチャ、重み共有、グループ化クエリアテンションなどを組み合わせたMobileLLMを設計
ポイント①：小型モデルで高い性能と効率的なメモリ使用を実現
ポイント②：モバイルデバイス上でも高精度なタスク処理が可能になった

つまりMobileLLMは、スマホなどのモバイル環境でのAI活用を現実的にした研究です。

背景

従来のLLMは、多くのパラメータを持ち、クラウド上で動作することが一般的でした。しかし、クラウドベースの運用には、データ処理の遅延やコストの増加といった問題があります。また、日常的に使用するには、エネルギー消費や環境への負担も無視できません。このような課題がある中、モバイルデバイス上で直接実行できる、小型かつ効率的なLLMのニーズが高まっています。

特に、現在のスマートフォンやタブレットのようなモバイルデバイスは、メモリ容量や計算能力に制約があり、大規模なモデルをそのまま実装することは困難です。例えば、最新のスマートフォンでは6GBから12GBのDRAMが一般的であり、このメモリをモデルが占有しすぎると、他のアプリケーションとの競合が発生します。また、電力消費も問題であり、通常の大規模モデルではバッテリーを短時間で消耗してしまいます。

この背景から、パラメータ数が1億から3億5千万程度の「サブビリオン」モデルに注目が集まっています。これらのモデルは、モバイルデバイス上で効率的に動作し、ユーザーの指示にリアルタイムで応答できる性能を持ちながら、消費エネルギーを抑えることができます。

MobileLLMは、こうした小型モデルの設計を最適化するために、特に深さと薄さを重視したアーキテクチャを採用し、重み共有やグループ化アテンションの技術を組み込んでいます。

提案手法

MobileLLMの設計では、主に「深くて薄いアーキテクチャ」と「重み共有」を活用しています。具体的には、モデルの深さ（レイヤーの数）を増やし、幅（各レイヤーのパラメータ数）を減らすことで、計算効率を高めています。このアプローチにより、モデルは限られたパラメータ内でより抽象的な特徴を捉えやすくなり、小型モデルでも高い精度を実現しています。

さらに、MobileLLMは「重み共有」と呼ばれる技術を導入することで、隣接するレイヤー間で重みを共有し、メモリの使用量を増やさずにレイヤー数を増やすことに成功。その結果、計算効率が向上し、実行時のレイテンシーも低減します。特に、MobileLLM-LSと呼ばれるバリエーションでは、重みを即時に再利用するブロック単位の共有手法を採用し、さらなる性能向上を図っています。

これらの設計により、MobileLLMは既存のサブビリオンモデルと比較して、ゼロショットタスクやAPI呼び出しなどの応用においても優れたパフォーマンスを発揮します。また、エンベディングの共有やグループ化クエリアテンションといった他の最適化技術も組み合わせて、モデルの重量を増やさずに精度を高めることに成功しています。