言語・LLM 本当に重要な情報に注意を向けてパラメータ数を35%削減した「Differential Transformer」 この論文では、従来のTransformerが不要な文脈に過剰に注意を向けてしまう問題を解決する「Differential Transformer」を提案しています。2つの異なる注意マップの差分を取ることでノイズを相殺し、重要な情報により注意... 2024.11.04 言語・LLM論文解説