言語・LLM 本当に重要な情報に注意を向けてパラメータ数を35%削減した「Differential Transformer」
この論文では、従来のTransformerが不要な文脈に過剰に注意を向けてしまう問題を解決する「Differential Transformer」を提案しています。2つの異なる注意マップの差分を取ることでノイズを相殺し、重要な情報により注意...
言語・LLM
オープンソース
言語・LLM
論文解説
画像