- Thrive社とCrete社がOpenAI Codexを活用した自己改善型税務エージェントを構築したことをOpenAIが公式事例として発表した
- エラー検出時にCodexが修正コードを自動生成してルールセットを更新するループを持ち、処理精度が継続的に向上する設計になっている
- 確定申告や法人税処理という高精度が求められる分野でAIエージェントの自律的な改善サイクルが実用段階に入りつつあることが示された
OpenAI Codexと税務処理の接点
OpenAI Codexは、OpenAIが2025年5月に公開したクラウドベースのソフトウェアエンジニアリングエージェントです。コード生成に特化した「codex-1」モデルを基盤とし、開発者の指示を受けてコードの作成・テスト・デバッグを非同期で処理できます。GitHubリポジトリへの直接アクセスや複数タスクの並列処理にも対応しており、単なるコード補完ではなく自律的に作業を進めるエージェントとして設計されています。
この特性が税務処理と組み合わさる背景には、税務の構造的な特徴があります。確定申告や法人税の処理には、法律・規制に基づく明確なルールと、例外的な取引や複雑な解釈が必要なケースが混在しています。ルールをコードとして表現し、新しい規制や未知のケースに対応するロジックを動的に生成できるCodexは、税務エージェントに「自己改善」の能力を与えるうえで適した基盤といえるでしょう。
自己改善ループの仕組み
Thrive社とCrete社が構築したエージェントの中心にあるのは、処理サイクル内に組み込まれた改善ループです。OpenAIが公開した事例資料によると、エージェントは「入力」「処理」「検証」の3フェーズを繰り返しながら精度を高めていく設計とされています。

入力フェーズでは、確定申告書や領収書、源泉徴収票といった税務書類をテキストとして取り込み、必要な情報を抽出します。処理フェーズでは既存のルールセットに基づいて計算・分類を行い、結果を出力します。そして検証フェーズでは出力内容を別のエージェントが独立してチェックし、閾値を超えた不一致を検出した際にCodexが修正コードを自動生成する仕組みです。生成された修正コードはサンドボックス内でテストされてから本番ルールセットへ統合されるため、改善の各ステップが監査ログとして蓄積されます。
処理対象のデータが積み重なるほど、エージェントが学習できる事例も増えてエラー検出精度が高まっていきます。年度ごとの税制改正への対応においても、Codexが新しいルールをコードとして生成することで、従来は人手で行っていた規則更新の作業を効率化できると考えられます。
Thrive社とCrete社の取り組み
OpenAIの事例発表では、Thrive社とCrete社の2社がこの自己改善型税務エージェントの実用例として紹介されています。両社はそれぞれ異なる税務処理の課題に取り組み、Codexを活用することで自動化と精度向上を実現したと発表しています。
両社が共通して重視したのは、出力の説明可能性と監査への対応です。Codexが自動生成したコードも含め、あらゆる判断ロジックがログとして残ることで、税務申告の計算根拠を後から確認できる構造になっています。AIが下した判断の根拠を人間が追跡できることは、規制当局や顧客との信頼構築において欠かせない要件でしょう。
IBMが提示するAIオペレーティングモデルのように複数のエージェントを統制する枠組みが注目を集める中、高い精度と説明責任が求められる税務分野での実用事例は、同種の課題を持つ他領域に向けた具体的な参考事例として位置づけられています。
税務AIの課題と展望
自己改善エージェントへの期待が高まる一方で、税務分野固有の課題も見逃せません。各国の税制は複雑かつ頻繁に改正されるため、エージェントが学習した内容が古くなるリスクを継続的に管理する必要があります。誤った税務処理は法的リスクに直結するため、人間の専門家によるレビューをどの段階でどの程度維持するかという設計判断も問われます。
Codexを軸にした自己改善エージェントの可能性は税務にとどまらず、法務・医療レセプト・金融コンプライアンスといったルールベースかつ高精度が求められる業務全般に広がっています。Thrive社とCrete社の取り組みは、AIエージェントが単なる自動化ツールを超えて業務品質を自律的に改善する存在として実用段階に入ったことを示す事例として、今後も参照されることになるでしょう。