画像 拡散モデル効率化のアルゴリズムと評価手法 新しい検索アルゴリズムと評価フレームワークを提案し、拡散モデルの推論時間を効率化。Verifierモデルと3つの検索アルゴリズムを比較し、複数のベンチマークタスクで高品質な生成と計算時間の削減を確認。 2025.03.07 画像論文解説
画像 Diffusionモデルを用いた「塗り絵」・線画色付け手法の提案 この論文では、ユーザーの指示に忠実な高度な線画色付け手法を提案。Diffusionモデルを活用し、多様なスタイルに対応する柔軟性を実現しつつ、新モジュールで特定箇所への精密な色付けも可能に。 2025.03.07 画像論文解説
画像 画像生成で個性を出せる新技術「Nested Attention」 画像生成モデルの新手法「Nested Attention」を紹介。特定部分を強調しつつ全体の一貫性も維持し、アテンションマップを改良。実験で高精度と一貫性を示し、従来の手法より好ましい結果を確認。 2025.01.28 画像論文解説
画像 VF LossでLightDiffusionDTの速度2.5倍向上 LightDiffusionDTモデルを用いた新しいVF Lossを提案し、生成性能と計算コストのトレードオフを解消。トレーニング収束速度を約2.5倍向上させ、再構成と生成のバランスを効果的に改善した手法を実現。 2025.01.14 画像論文解説
画像 複雑な幾何学図形を認識する「Slow Perception」の提案 複雑な幾何学的図形を認識できる「Slow Perception」を提案。図形を線と点で段階的に予測し、復元精度を向上させる。人間の視覚認識に近い逐次的認識プロセスを用いて、精度と理解性を向上させるモデルを構築。 2025.01.07 画像論文解説
画像 【Edicho】画像編集で特定要素を編集しても一貫性を保つ 画像編集で一貫性を保つ新手法Edichoの提案対応づけと生成ステップによる自然な編集結果の実現デザインやエンタメ業界での応用可能性と実務的価値論文:Edicho: Consistent Image Editing in the Wild本記... 2025.01.06 画像論文解説
マルチモーダル 【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究 この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ... 2024.11.13 マルチモーダル画像論文解説
マルチモーダル 【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現 画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。 2024.11.07 マルチモーダル画像論文解説
ニュース Anthropic社、文脈検索で失敗率67%削減!RAGシステムの精度向上へ 文脈検索技術で検索失敗率67%削減、RAGシステムの精度を大幅向上。Claudeとの組み合わせで実装コスト90%削減、処理速度2倍に。開発者向けCookBook公開、様々な分野での活用が可能に 2024.11.04 ニュース技術画像
画像 【BEINGS】ロボットが入力画像から目標地点まで移動するナビゲーション方法 この論文では、ロボットが目標の画像が撮影された場所へ自律的に到達するための新しい手法「BEINGS」を提案しています。BEINGSは3Dガウススプラッティングを用いて未来の視点を予測し、ベイズ更新を組み合わせることで、データに依存せず複雑な環境でも効率的なナビゲーションを可能にしました。 2024.09.21 画像論文解説