大規模言語モデル

Anthropicの新機能「Computer Use」が業界に革命！

AnthropicがAIモデル「Claude 3.5 Sonnet」のアップグレードを発表し、「Computer Use」機能のベータ版を公開。AIがPC操作を自動化可能に！GitLabやCanvaも導入、特にReplitではテスト自動化に活用。業務効率化に期待が高まる新たな技術革新です。

2025.01.04

ニュース技術

視覚タスクのゼロショット学習を刷新する「Explanatory Instructions」

視覚タスクにゼロショット能力を持たせる「Explanatory Instructions」アプローチを提案。指示付き説明で複数タスクに対応、視覚データの汎用性を向上。これにより効率的な機械学習モデルの開発が期待される。

2025.01.02

マルチモーダル論文解説

Meta、最新AIモデル「Llama 3.3 70B Instruct」

Meta社が700億パラメータの言語モデル「Llama 3.3 70B Instruct」を発表。公開データセットと1,000万件の人間注釈で訓練し、多様なタスクで高性能を実現。英語を中心に30以上の言語をサポートし、コード生成やテキスト生成にも対応。

2024.12.08

ニュース技術

Salesforce、AI管理ツール「Agentforce Testing Center」を発表

SalesforceはAIエージェント管理ツール「Agentforce Testing Center」を発表。AIエージェントのテスト、展開、監視を安全かつ効率的に行うことを可能に。現在クローズドパイロット中であり12月初旬に一般提供予定。

2024.12.04

ニュース技術

次世代音声AIプラットフォーム「Conversational AI」-ElevenLabsより

ElevenLabsのプラットフォーム「Conversational AI」は、音声認識、LLM、音声合成を組み合わせて自然な会話を実現。超低遅延、高品質な音声生成、31言語対応など多様な用途に対応可能。ReactやPythonなどのSDKを提供し、Twilioとの統合で電話会話もサポート。

2024.12.04

ニュース技術

【UniAR】人間の視線の動きや興味を理解するマルチモーダルモデル – Googleの研究

この論文では、人間の視覚的な注意や好みを予測する統合モデル「UniAR」を提案しています。従来は個別のモデルで対応していた「視線の動き」「重要な部分の予測」「審美性の評価」などを1つのモデルで実現し、様々な種類の画像（自然画像、Webページ...

2024.11.13

マルチモーダル画像論文解説

LLMは痛みや快楽の強度に応じて行動を変える？Googleの研究より

この論文では、LLMが快感と苦痛の状態を理解し、それらを基に意思決定できるかを検証しています。実験では、ポイント獲得と苦痛・快感のトレードオフを評価し、一部のLLMが人間のような合理的な判断を示すことが分かりました。

2024.11.08

言語・LLM論文解説

【AdaCache】動画の内容に応じて必要な計算量を自動調整する生成モデル

動画生成AIの処理速度を向上させる新手法「AdaCache」を提案。動画の内容に応じて必要な計算量を動的に調整し、キャッシュを活用することで、画質を維持したまま最大4.7倍の高速化を実現しました。

2024.11.07

動画論文解説

OpenAI、「chat.com」を高額取得！最大3000万ドル規模の戦略的ドメイン投資か

OpenAI、「chat.com」取得でChatGPTへの新アクセスポイント確立。前所有者のシャー氏から2000万～3000万ドル規模で購入か。66億ドルの資金調達と40億ドルの信用枠を背景とした戦略的投資。

2024.11.07

ニュースビジネス

【SuperClass】CLIPを改良しテキストを直接ラベル化！16000バッチサイズを実現

画像とテキストの学習において、従来のCLIPのような対照学習ではなく、テキストを直接分類ラベルとして扱う「SuperClass」という手法を提案。大規模なバッチサイズや複雑なテキスト処理が不要になり、より効率的な学習が可能になりました。ImageNetなどの様々なタスクでCLIPと同等以上の性能を達成しています。

2024.11.07

マルチモーダル画像論文解説