銀行の実務テストで正答率89.0%・応答時間1秒未満を達成
株式会社みずほフィナンシャルグループのプレスリリース
株式会社みずほフィナンシャルグループ(執行役社長:木原 正裕)が独自で開発を進めている「金融特化LLM(大規模言語モデル)」が、銀行の実務テストにおいて、推論に依存しない条件下で正答率89.0%を達成しました。加えて業務実装を想定した評価において平均回答時間1秒未満を実現。汎用LLM(GPT-5.2)の推論あり設定(平均回答時間67.4秒)と比較して、応答時間を大幅に短縮しました。
本取り組みの最大の特長は、自社開発モデルを銀行内のセキュアな環境(オンプレミス)で運用できる点です。これにより機密性の高い重要データに対しても、汎用LLM(GPT-5.2)同等の高度なAI処理を専門的な場面で安全に適用できるようになります。
〈みずほ〉は、推論に依存しない条件での高精度と、業務での待ち時間を大きく低減する応答性を両立し、より専門性の高い業務へのAI適用とマルチエージェント構成による応答品質の高度化でお客さまをお待たせしない次世代の金融サービス構築をめざします。
背景:汎用AIが抱える実務への障壁
近年、金融業界では生成AI活用が進む一方、複雑な金融商品や社内規定に関する照会では、回答時間の増加や計算コストの上昇が課題となりつつあります。特に法人向け金融業務やトレーディング、市場分析等の業務において、こうした応答遅延は市場機会の喪失につながる要因となり得ます。
また金融領域では、法規制や社内ルールに加え、リスク許容度や判断基準といった企業としての方針まで踏まえた回答が求められることもあり、汎用モデルでは前提の解釈が揺れたり、必要な観点を十分に織り込めず、期待した品質の回答を安定して得ることが難しい場合があります。
こうした背景から〈みずほ〉では、複雑な推論ステップを経ずとも金融特有の実務知識や社内ルール、コンプライアンス上の留意点を踏まえた回答が可能な、金融特化LLMの構築をオープンウェイトモデル(*1)をベースとして進めてきました。
本取り組みは、業務特性に応じたAI基盤を段階的に整備していく戦略の第一段階にあたり、今回の成果はその基盤強化の進展を示すものです。
-
第1段階:金融特化LLM
金融の基礎知識、法令、社内手続等を幅広く学習し、一般的な照会応答や資料作成を支援 -
第2段階:特定領域特化LLM
「融資」「法務」「市場」など各部署に特化した専門データを学習し、手続き案内、与信判断支援、稟議書作成等の高度な実務をサポート -
第3段階:協調型エキスパートLLM
複数の特定領域特化モデルを連携させ、部門横断的な判断を支援
今回の達成内容:「推論なし」での高精度を達成
銀行の実務テスト(対象分野:預金、融資、外国為替等、多肢選択式)にて、金融特化LLMは推論なし条件で正答率89.0%を達成しました。あわせて、平均回答時間1秒未満を確認しています。
検証結果は以下のとおりです。
|
LLMの種類 |
推論(*2) |
コンテキスト |
正答率 |
平均回答時間 |
|
金融特化LLM(Qwen3-32Bベース) |
なし |
あり |
89.0% |
1秒未満(*4) |
|
汎用LLM |
なし |
あり |
89.0% |
1秒未満(*5) |
|
汎用LLM |
あり |
なし |
89.7% |
67.4秒(*5) |
今回の実証実験で、〈みずほ〉の金融特化LLMは推論を用いない条件下で比較した際、汎用LLM(GPT-5.2)と同水準の精度を達成しました。さらに汎用LLM(GPT-5.2)の推論あり設定と比較して、十分な精度を維持したまま応答時間を大幅に短縮できたことも確認できます。
重要なのは、この精度を外部へのデータ送信なしに実現できるという点です。汎用LLMで同等の精度を得るためには、詳細なコンテキストや推論プロセスを外部APIに委ねる必要がありますが、金融特化LLMはすべてのプロセスを銀行内の閉域環境で完結できます。
補足:本結果は特定の評価セットや条件に基づくものであり、今後、適用領域の拡大に合わせて評価セットの拡充および継続的な検証を実施します。また、回答時間に関しても、平均値のほか中央値および分布を確認し、業務での体感に近い条件での評価枠組みを整備しています。今後、開示可能な範囲で指標の提示方法を整理し、継続的に検証していきます。
学習内容と構築上の工夫:「知識の定着」による推論レス化
〈みずほ〉は、金融機関として求められる正確性と統制、そして現場で使える運用性の両立を重視し、以下のプロセスで金融特化LLMを高度化しました。
(1)正誤分析による知識の見極め
LLMの回答生成やタスクの正誤を分析することで、モデルの得意・不得意領域を特定。汎用知識に加え、銀行業務において必要性が高い領域(金融基礎、業務手続・社内ルール、コンプライアンス上の留意点等)を見極めました。
(2) コンテキストを活用した教師データ設計
(1)で特定した不得意領域について、正答導出に必要な金融知識・社内ルールの根拠となるコンテキストを教師データに付与。回答と根拠の対応関係が学習されるよう、データ設計を最適化し、教師ありファインチューニング(*6)などの学習を実施しました。
上記の工夫により、以下を実現しました。
-
不足している知識を重点的に強化し、精度向上に貢献
-
単に正答を出すだけでなく、業務知識がどの根拠と結びつくかを含めて学習
-
結果として、推論プロセスに依存せず高精度を実現
今後の展望
金融実務全体を支えるAI基盤の構築を見据え、金融特化LLMのさらなる高度化を推進していきます。
1.技術的高度化
-
パラメータサイズがさらに大きいモデルでの学習と評価
-
金融実務の知識を備えるための学習データの質と量のさらなる向上
-
推論プロセスの学習やモデルマージ、強化学習といった学習手法の拡充
2.業務適用の拡大
-
金融基礎・コンプライアンスに加え、より専門性の高い業務(融資・外為・事務・法務等)への段階的な適用拡大
-
マルチエージェント構成による応答品質の高度化
〈みずほ〉は、金融機関として求められる統制や安全性を前提に、現場で実際に使える生成AIの実装を進め、業務効率化と品質向上の両面からお客さま・社会への提供価値の向上に取り組みます。
補足・用語
*1 オープンウェイトモデル:AI の構成データ(設計図)が一般に公開されており、カスタマイズすることができる AI の基盤モデル。
*2 推論あり/なし:モデルが推論(Reasoning)を明示的に活用する設定の有無。
*3 コンテキスト付与あり/なし: RAG(Retrieval-Augmented Generation/検索拡張生成)を用いて、質問に関連するコンテキストを検索・付与したうえで回答を生成する設定の有無。
*4:単一のH100 GPUインスタンス(p5.4xlarge)にて計測。
*5:OpenAI APIを利用して計測。reasoning_effortを推論ありはxhigh、推論なしはnoneに設定。なお、API経由のため応答時間にはネットワーク遅延等が含まれるが、推論なし条件では1秒未満と、金融特化LLMと同等の応答性を確認。
*6 教師ありファインチューニング(SFT):質問/指示と模範解答のペア(教師データ)で、事前学習済みLLMを追加学習し、望ましい回答の出やすさや出力形式を調整する手法。
株式会社みずほフィナンシャルグループについて
みずほフィナンシャルグループは「ともに挑む。ともに実る。」をパーパスに掲げ、金融の枠を超えた価値創造を通じて、持続可能な社会の実現をめざしています。
銀行、信託、証券などの各グループ会社が一体となり、法人・個人・グローバルの幅広いお客さまに総合的な金融サービスを提供。デジタルやサステナビリティの分野にも注力し、社会・経済の変化に寄り添いながら、お客さまとともに新たな未来を切り拓いていきます。
■会社名 株式会社みずほフィナンシャルグループ
■代表者 執行役社長:木原 正裕(きはら まさひろ)
■本社所在地 〒100–8176 東京都千代田区大手町1丁目5番5号(大手町タワー)

