動画 【Movie Gen】30Bパラメータと時空間圧縮を組み合わせた1080pHD動画生成モデル MetaのMovie Genは、テキストから高品質な1080p HDビデオを生成できる画期的なAIモデルです。30Bパラメータの大規模モデルを採用し、最長16秒のビデオ生成が可能です。特筆すべきは、映像生成だけでなく、音声生成や動画編集、人... 2024.11.06 動画論文解説
ニュース OpenAI、LLMアプリ応答時間を最大50%短縮する7つの原則を公開! OpenAIがLLMアプリの応答速度改善に向けた7つの最適化原則を公開。トークン数50%削減で応答時間半減の可能性を実証。ストリーミング出力や進捗可視化によるUX改善手法を提案 2024.11.05 ニュース技術
ニュース Claude 3.5 HaikuのAPI公開!低コスト&Opusを完全に上回る性能 Claude 3.5 HaikuのAPI公開!Claude 3 Opus超えの性能を維持しつつ、低コストで高速な処理を実現。主要クラウドプラットフォームで利用可能、最大90%のコスト削減も。コード開発やカスタマーサービスなど、幅広い業務での活用に対応。 2024.11.05 ニュース技術
ニュース Meta、人間の触覚を再現したロボットハンド技術をオープンソースで公開 人間レベルの触覚機能を持つ「Meta Digit 360」を開発、800万個以上のセンサーで微細な力を検知ロボットハンド向け標準化プラットフォーム「Meta Digit Plexus」と協調作業評価用「PARTNR」を公開全技術をオープンソ... 2024.11.04 ニュース技術
ニュース Anthropic社、文脈検索で失敗率67%削減!RAGシステムの精度向上へ 文脈検索技術で検索失敗率67%削減、RAGシステムの精度を大幅向上。Claudeとの組み合わせで実装コスト90%削減、処理速度2倍に。開発者向けCookBook公開、様々な分野での活用が可能に 2024.11.04 ニュース技術画像
言語・LLM 本当に重要な情報に注意を向けてパラメータ数を35%削減した「Differential Transformer」 この論文では、従来のTransformerが不要な文脈に過剰に注意を向けてしまう問題を解決する「Differential Transformer」を提案しています。2つの異なる注意マップの差分を取ることでノイズを相殺し、重要な情報により注意... 2024.11.04 言語・LLM論文解説
オープンソース 【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク この論文では、多数の会話を含む新しいベンチマーク「CORAL」を提案し、RAGシステムの性能を評価しています。Wikipediaの階層構造を活用して自動的に会話データを生成し、複数ターンの対話における検索・生成・引用の精度を測定できるようになりました。 2024.11.04 オープンソースデータセット言語・LLM論文解説
言語・LLM 【WACK】LLMのハルシネーションを2種類に区別する手法!幻覚の種類に応じた対処が可能に LLMのハルシネーションを「知識不足による誤り」と「知識があるのに誤る場合」の2つに分類し区別して検出する手法WACKを提案。モデルの内部状態を分析することで2種類のハルシネーションが異なる形で表現されていることを実証し、モデル固有のデータセットを使用することでハルシネーション検出の精度が向上。 2024.11.03 言語・LLM論文解説
言語・LLM 自己蒸留を用いたLLM高速化手法「SDTT」により32トークン同時生成! この論文では、自己蒸留を用いた新しい言語モデルの高速化手法「Self-Distillation Through Time (SDTT)」を提案しています。従来の自己回帰型モデルと異なり、32トークンを同時に生成できるため、KVキャッシュを使用する従来手法と比べて最大8倍の高速化を実現。さらに、テキスト品質も向上し、自然言語理解のベンチマークでも優れた性能を示しました。 2024.11.02 言語・LLM論文解説
言語・LLM GPT-4oの異なる音声入力に対する性能を多様な国のデータを用いて評価 GPT-4oというモデルの能力と安全性について評価。異なる音声入力に対するモデルの一貫性や、多様な国のデータを用いた評価が行われています。テキストと音声による説得力も比べられ、特定の条件でモデルが人間と同等かそれ以上の影響力を持つことが示されました。 2024.10.31 言語・LLM論文解説