画像 画像生成で個性を出せる新技術「Nested Attention」 画像生成モデルの新手法「Nested Attention」を紹介。特定部分を強調しつつ全体の一貫性も維持し、アテンションマップを改良。実験で高精度と一貫性を示し、従来の手法より好ましい結果を確認。 2025.01.28 画像論文解説
画像 VF LossでLightDiffusionDTの速度2.5倍向上 LightDiffusionDTモデルを用いた新しいVF Lossを提案し、生成性能と計算コストのトレードオフを解消。トレーニング収束速度を約2.5倍向上させ、再構成と生成のバランスを効果的に改善した手法を実現。 2025.01.14 画像論文解説
画像 複雑な幾何学図形を認識する「Slow Perception」の提案 複雑な幾何学的図形を認識できる「Slow Perception」を提案。図形を線と点で段階的に予測し、復元精度を向上させる。人間の視覚認識に近い逐次的認識プロセスを用いて、精度と理解性を向上させるモデルを構築。 2025.01.07 画像論文解説
画像 【Edicho】画像編集で特定要素を編集しても一貫性を保つ 画像編集で一貫性を保つ新手法Edichoの提案対応づけと生成ステップによる自然な編集結果の実現デザインやエンタメ業界での応用可能性と実務的価値論文:Edicho: Consistent Image Editing in the Wild本記... 2025.01.06 画像論文解説
マルチモーダル 【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究 この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ... 2024.11.13 マルチモーダル画像論文解説
マルチモーダル 【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現 画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。 2024.11.07 マルチモーダル画像論文解説
ニュース Anthropic社、文脈検索で失敗率67%削減!RAGシステムの精度向上へ 文脈検索技術で検索失敗率67%削減、RAGシステムの精度を大幅向上。Claudeとの組み合わせで実装コスト90%削減、処理速度2倍に。開発者向けCookBook公開、様々な分野での活用が可能に 2024.11.04 ニュース技術画像
画像 【BEINGS】ロボットが入力画像から目標地点まで移動するナビゲーション方法 この論文では、ロボットが目標の画像が撮影された場所へ自律的に到達するための新しい手法「BEINGS」を提案しています。BEINGSは3Dガウススプラッティングを用いて未来の視点を予測し、ベイズ更新を組み合わせることで、データに依存せず複雑な環境でも効率的なナビゲーションを可能にしました。 2024.09.21 画像論文解説
画像 【OmniGen】画像生成や編集などの多様なタスクを1つのモデルで処理! この論文では、OmniGenという新しい画像生成モデルを提案しています。OmniGenは、従来のモデルが個別に対応していたテキスト生成や画像編集などの多様なタスクを、一つのフレームワークで統一的に処理することを可能にし、追加のモジュールを必要とせず、多様な条件下で効率的かつ柔軟な画像生成が実現。 2024.09.21 画像論文解説
画像 【InstantDrag】ドラック指示するだけで画像を微修正できる編集AI 画像編集の新しい手法である「InstantDrag」を提案しています。この手法は、ユーザーが指定したドラッグ操作に基づいて、画像をインタラクティブかつ高速に編集できる技術です。特に動画データセットを用いた訓練によって、現実世界の動的な画像編集に対応しています。 2024.09.18 画像論文解説