ベンチマーク

Anthropic、新AI「Claude 3.7 Sonnet」発表！推論強化で性能向上

Anthropicが最新AIモデル「Claude 3.7 Sonnet」とAIエージェント搭載ツール「Claude Code」を発表！迅速な応答と複雑な問題解決に対応し、開発業務も支援。

2025.03.03

ニュース技術

Baichuan-Omni-1.5は画像・音声・テキストを統合的に扱うマルチモーダルモデル。Visual BranchとAudio Branchを活用し、多様なデータを高精度に処理。実験では従来モデルを上回る性能を多数のベンチマークで示した。

2025.02.03

マルチモーダル論文解説

LLMの応答を安全に制御する新手法「GuardReasoner」を提案。合成データを用いた教師あり学習で推論精度を向上し、多様なベンチマークで高い安全性と説得力を実証。

2025.02.03

言語・LLM論文解説

競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。

2025.01.28

データセット論文解説

自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。

2025.01.07

言語・LLM論文解説

NVIDIAの「H100」「H200」とAMDの「Instinct MI300X」がAIチップの性能を競う！ベンチマークテストでMI300Xはメモリ帯域幅で強みを見せるも、全体パフォーマンスではNVIDIAがリード。競争力を保つにはソフトウェア改良が鍵と専門家が指摘。

2025.01.04

ニュース技術