データセット 競技プログラミング向けベンチマーク「CodeELO」登場 競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。 2025.01.28 データセット論文解説
言語・LLM 自己呼び出し関数の生成能力を測るベンチマークでLLMのコーディング性能向上へ! 自己呼び出し関数生成の新しいベンチマーク「HumanEval Pro」「MBPP Pro」を提案。最新のLLMはこの課題で苦戦中。特に非指示調整型モデルで低精度を示すが、新ベンチマークはエラー削減と評価ツールとして有用。 2025.01.07 言語・LLM論文解説
ニュース AIチップ競争激化!AMDとNVIDIAの実力を比較した結果 NVIDIAの「H100」「H200」とAMDの「Instinct MI300X」がAIチップの性能を競う!ベンチマークテストでMI300Xはメモリ帯域幅で強みを見せるも、全体パフォーマンスではNVIDIAがリード。競争力を保つにはソフトウェア改良が鍵と専門家が指摘。 2025.01.04 ニュース技術