論文解説

マルチモーダル

【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ...
言語・LLM

LLMは痛みや快楽の強度に応じて行動を変える?Googleの研究より

この論文では、LLMが快感と苦痛の状態を理解し、それらを基に意思決定できるかを検証しています。実験では、ポイント獲得と苦痛・快感のトレードオフを評価し、一部のLLMが人間のような合理的な判断を示すことが分かりました。
動画

【AdaCache】動画の内容に応じて必要な計算量を自動調整する生成モデル

動画生成AIの処理速度を向上させる新手法「AdaCache」を提案。動画の内容に応じて必要な計算量を動的に調整し、キャッシュを活用することで、画質を維持したまま最大4.7倍の高速化を実現しました。
マルチモーダル

【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現

画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。
動画

【Movie Gen】30Bパラメータと時空間圧縮を組み合わせた1080pHD動画生成モデル

MetaのMovie Genは、テキストから高品質な1080p HDビデオを生成できる画期的なAIモデルです。30Bパラメータの大規模モデルを採用し、最長16秒のビデオ生成が可能です。特筆すべきは、映像生成だけでなく、音声生成や動画編集、人...
ニュース

Anthropic社、文脈検索で失敗率67%削減!RAGシステムの精度向上へ

文脈検索技術で検索失敗率67%削減、RAGシステムの精度を大幅向上。Claudeとの組み合わせで実装コスト90%削減、処理速度2倍に。開発者向けCookBook公開、様々な分野での活用が可能に
言語・LLM

本当に重要な情報に注意を向けてパラメータ数を35%削減した「Differential Transformer」

この論文では、従来のTransformerが不要な文脈に過剰に注意を向けてしまう問題を解決する「Differential Transformer」を提案しています。2つの異なる注意マップの差分を取ることでノイズを相殺し、重要な情報により注意...
オープンソース

【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク

この論文では、多数の会話を含む新しいベンチマーク「CORAL」を提案し、RAGシステムの性能を評価しています。Wikipediaの階層構造を活用して自動的に会話データを生成し、複数ターンの対話における検索・生成・引用の精度を測定できるようになりました。
言語・LLM

【WACK】LLMのハルシネーションを2種類に区別する手法!幻覚の種類に応じた対処が可能に

LLMのハルシネーションを「知識不足による誤り」と「知識があるのに誤る場合」の2つに分類し区別して検出する手法WACKを提案。モデルの内部状態を分析することで2種類のハルシネーションが異なる形で表現されていることを実証し、モデル固有のデータセットを使用することでハルシネーション検出の精度が向上。
言語・LLM

自己蒸留を用いたLLM高速化手法「SDTT」により32トークン同時生成!

この論文では、自己蒸留を用いた新しい言語モデルの高速化手法「Self-Distillation Through Time (SDTT)」を提案しています。従来の自己回帰型モデルと異なり、32トークンを同時に生成できるため、KVキャッシュを使用する従来手法と比べて最大8倍の高速化を実現。さらに、テキスト品質も向上し、自然言語理解のベンチマークでも優れた性能を示しました。