ノイズキャンセリング

本当に重要な情報に注意を向けてパラメータ数を35%削減した「Differential Transformer」

この論文では、従来のTransformerが不要な文脈に過剰に注意を向けてしまう問題を解決する「Differential Transformer」を提案しています。2つの異なる注意マップの差分を取ることでノイズを相殺し、重要な情報により注意...

言語・LLM論文解説