Transformer

言語・LLM

メモリ効率を向上するアテンション機構「TPA」でTransformer軽量化

テンソル積を用いた効率的な注意メカニズムTPAを提案。従来のTransformerとの統合が簡単で、メモリ効率や計算負荷を改善し、資源節約に貢献。計算資源が限られる環境での利点を強調。
データセット

【METAGENE-1】ウイルス検出や感染症の監視を強化するTransformer

新しいTransformerモデル「METAGENE-1」を提案し、ウイルス検出や感染症監視を強化。独自のトークン化と7億パラメータで効率的な遺伝子データ分析を実現、他モデルを上回る精度で未知の病原体も検出可能。
言語・LLM

【SWE-Gym】ソフトウェア開発のシミュレーション学習環境!

ソフトウェアエンジニアリングタスクをシミュレーションする学習環境「SWE-Gym」を提案。Transformerを使用し高精度のコード修正を実現。オープンソースで公開され、研究者や開発者が利用可能に!
マルチモーダル

医療画像解析マルチモーダルLLMとデータセットMed-MAT

医療画像解析に役立つマルチモーダルLLMの活用が進展中。大規模ラベル付きデータセット「Med-MAT」を構築し、プロンプトエンジニアリングとTransformerモデルで精度向上を実現。医療現場でのAI活用がさらに広がる可能性。
マルチモーダル

【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像(自然画像、Webページ...
言語・LLM

LLMは痛みや快楽の強度に応じて行動を変える?Googleの研究より

この論文では、LLMが快感と苦痛の状態を理解し、それらを基に意思決定できるかを検証しています。実験では、ポイント獲得と苦痛・快感のトレードオフを評価し、一部のLLMが人間のような合理的な判断を示すことが分かりました。
動画

【AdaCache】動画の内容に応じて必要な計算量を自動調整する生成モデル

動画生成AIの処理速度を向上させる新手法「AdaCache」を提案。動画の内容に応じて必要な計算量を動的に調整し、キャッシュを活用することで、画質を維持したまま最大4.7倍の高速化を実現しました。
マルチモーダル

【SuperClass】CLIPを改良しテキストを直接ラベル化!16000バッチサイズを実現

画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。
動画

【Movie Gen】30Bパラメータと時空間圧縮を組み合わせた1080pHD動画生成モデル

MetaのMovie Genは、テキストから高品質な1080p HDビデオを生成できる画期的なAIモデルです。30Bパラメータの大規模モデルを採用し、最長16秒のビデオ生成が可能です。特筆すべきは、映像生成だけでなく、音声生成や動画編集、人...
ニュース

OpenAI、LLMアプリ応答時間を最大50%短縮する7つの原則を公開!

OpenAIがLLMアプリの応答速度改善に向けた7つの最適化原則を公開。トークン数50%削減で応答時間半減の可能性を実証。ストリーミング出力や進捗可視化によるUX改善手法を提案