みずほフィナンシャルグループ、金融特化LLMで“推論に依存しない”「高精度」と「即答性」を両立、専門業務の拡張へ

銀行の実務テストで正答率89.0%・応答時間1秒未満を達成

株式会社みずほフィナンシャルグループのプレスリリース

株式会社みずほフィナンシャルグループ（執行役社長：木原正裕）が独自で開発を進めている「金融特化LLM（大規模言語モデル）」が、銀行の実務テストにおいて、推論に依存しない条件下で正答率89.0%を達成しました。加えて業務実装を想定した評価において平均回答時間1秒未満を実現。汎用LLM（GPT-5.2）の推論あり設定（平均回答時間67.4秒）と比較して、応答時間を大幅に短縮しました。

本取り組みの最大の特長は、自社開発モデルを銀行内のセキュアな環境（オンプレミス）で運用できる点です。これにより機密性の高い重要データに対しても、汎用LLM（GPT-5.2）同等の高度なAI処理を専門的な場面で安全に適用できるようになります。

〈みずほ〉は、推論に依存しない条件での高精度と、業務での待ち時間を大きく低減する応答性を両立し、より専門性の高い業務へのAI適用とマルチエージェント構成による応答品質の高度化でお客さまをお待たせしない次世代の金融サービス構築をめざします。

背景：汎用AIが抱える実務への障壁

近年、金融業界では生成AI活用が進む一方、複雑な金融商品や社内規定に関する照会では、回答時間の増加や計算コストの上昇が課題となりつつあります。特に法人向け金融業務やトレーディング、市場分析等の業務において、こうした応答遅延は市場機会の喪失につながる要因となり得ます。

また金融領域では、法規制や社内ルールに加え、リスク許容度や判断基準といった企業としての方針まで踏まえた回答が求められることもあり、汎用モデルでは前提の解釈が揺れたり、必要な観点を十分に織り込めず、期待した品質の回答を安定して得ることが難しい場合があります。

こうした背景から〈みずほ〉では、複雑な推論ステップを経ずとも金融特有の実務知識や社内ルール、コンプライアンス上の留意点を踏まえた回答が可能な、金融特化LLMの構築をオープンウェイトモデル(*1)をベースとして進めてきました。

本取り組みは、業務特性に応じたAI基盤を段階的に整備していく戦略の第一段階にあたり、今回の成果はその基盤強化の進展を示すものです。

第1段階：金融特化LLM
金融の基礎知識、法令、社内手続等を幅広く学習し、一般的な照会応答や資料作成を支援
第2段階：特定領域特化LLM
「融資」「法務」「市場」など各部署に特化した専門データを学習し、手続き案内、与信判断支援、稟議書作成等の高度な実務をサポート
第3段階：協調型エキスパートLLM
複数の特定領域特化モデルを連携させ、部門横断的な判断を支援

今回の達成内容：「推論なし」での高精度を達成

銀行の実務テスト（対象分野：預金、融資、外国為替等、多肢選択式）にて、金融特化LLMは推論なし条件で正答率89.0%を達成しました。あわせて、平均回答時間1秒未満を確認しています。

検証結果は以下のとおりです。

LLMの種類	推論(*2)	コンテキスト付与(*3)	正答率	平均回答時間
金融特化LLM(Qwen3-32Bベース)	なし	あり	89.0%	1秒未満(*4)
汎用LLM (GPT-5.2)	なし	あり	89.0%	1秒未満(*5)
汎用LLM (GPT-5.2)	あり	なし	89.7%	67.4秒(*5)

今回の実証実験で、〈みずほ〉の金融特化LLMは推論を用いない条件下で比較した際、汎用LLM（GPT-5.2）と同水準の精度を達成しました。さらに汎用LLM（GPT-5.2）の推論あり設定と比較して、十分な精度を維持したまま応答時間を大幅に短縮できたことも確認できます。

重要なのは、この精度を外部へのデータ送信なしに実現できるという点です。汎用LLMで同等の精度を得るためには、詳細なコンテキストや推論プロセスを外部APIに委ねる必要がありますが、金融特化LLMはすべてのプロセスを銀行内の閉域環境で完結できます。

補足：本結果は特定の評価セットや条件に基づくものであり、今後、適用領域の拡大に合わせて評価セットの拡充および継続的な検証を実施します。また、回答時間に関しても、平均値のほか中央値および分布を確認し、業務での体感に近い条件での評価枠組みを整備しています。今後、開示可能な範囲で指標の提示方法を整理し、継続的に検証していきます。