推論能力

データ拡張で進化する数理モデルURSA！数式処理や幾何学的問題でGTP-4を上回る？

数学的推論に特化した多モーダルモデルURSAが登場！新しいデータ拡張技術と誤答例を活用し、推論能力を向上。数式処理や幾何学的問題でGTP-4を上回る？

マルチモーダル論文解説

競技プログラミング向けベンチマーク「CodeELO」登場

競技プログラミングの新しいベンチマーク「CodeELO」を提案。Eloレーティングを用いてモデルと人間のパフォーマンスを比較し、言語理解能力や推論能力を詳細に評価。新たな競技環境での能力を測定可能。

データセット論文解説