
【試験主催者向け】生成AIによる試験問題作成の実力はいかに?現場の課題と「AI×人間」協働のヒント
はじめに(生成AIの進化)
近年、ChatGPTやGeminiに代表される「生成AI(人工知能)」の進化には目を見張るものがあります。
すでに多くのビジネスシーンで活用されている生成AIですが、そのポテンシャルの高さを示すエピソードとして「試験の解答能力」がよく話題に上ります。国内外のニュースでも、AIが大学の入学試験や、医師・弁護士といった超難関の国家資格の試験に挑み、優秀な成績で合格ラインを突破したという報告が相次いでいます。
ここで一つの疑問が浮かびます。「これほど見事に問題を『解く』ことができるAIなら、逆に試験問題を『作る(作問)』ことも、高いクオリティでこなせるのではないか?」という点です。
「問題の作成」は、解答するよりもはるかに高度な文脈の理解や、出題意図の設計が求められるクリティカルな作業です。果たして生成AIは、厳格さが求められる資格検定試験の現場で「頼れる作問パートナー」になり得るのでしょうか。その実力と可能性を探っていきます。
資格試験の問題作成における現場の課題
そもそも、資格検定や社内評価試験の運営において、試験問題の作成には多くの組織が頭を悩ませています。
ここで重要なのは、試験問題とは「独立した1問」をただ寄せ集めれば良いわけではないという点です。すべての問題が組み合わさることで初めて受験者の能力を測り、正しく合否を振り分ける「一つの測定器」として機能します。しかし、実際の現場では以下のような極めて高度で複雑な課題に直面します。
① 誤答選択肢の質が生む、難易度のブレ
日本の資格試験の多くは「5肢択一式」であり、かつ「不適切なものを選べ」という出題形式が多くを占めます。ここで重要なのは「誤答の質」です。誰が見ても一目でバツと分かるような稚拙な誤答ばかりでは、どれだけ問題文が難しくても消去法で簡単に解けてしまいます。逆に、「正答と比べて、この誤答も正解と言えなくもないが、正答の方が『より適切』である」といった曖昧な選択肢は、不適切問題として試験の信頼性を揺るがします。この選択肢の品質管理が甘いと、「1級の難易度で問題を作っているつもりが、選択肢が分かりやすすぎて2級レベルの問題になってしまった」という事態が頻発します。
② 緻密な難易度バランスの設計
合格率を一定に保ち、実力を正確に判定するためには、誰もが解ける「平易な問題」、差がつく「標準的な問題」、知識の深さを試す「難問」を全体のバランスを緻密に計算して配置しなければなりません。この「全体図」を描きながら作問するには膨大なマンパワーとノウハウが必要です。
③ 問題間の「重複」や「相互干渉」のチェック
全問を並べたときに、「第1問の問題文や選択肢の中に、第3問の答えのヒントになる記述が含まれてしまっている」といった問題間の干渉(クロスレファレンス)は、試験の公平性を揺るがす重大なバグです。すべての問題を網羅的に突き合わせ、矛盾やヒントが隠れていないかを検証する作業は、人間の目にとっても極めて神経を使う過酷なプロセスです。
④ 実務で不可欠な「図表・画像・イラスト問題」の壁
多くの資格試験では、グラフや組織図、事例のフローチャート、現場の写真を見て答えさせる問題が多用されています。しかし、現在の生成AIにとって「複雑な図表やイラストを正確に、かつ出題意図に矛盾がないようにロジックを持って自動生成する」のは非常にハードルが高く、人間のデザイナーや作問者の手が必要不可欠な領域です。
⑤ 法改正・制度変更による過去問の風化
法律や各種ガイドライン、公的制度に関わる資格試験の場合、毎年のように行われる法改正への対応が必須です。法改正に対応していない過去問をAIにそのまま学習・参照させてしまうと、古い情報に基づいた「現在では誤りとなる問題」を出力してしまいます。常に最新の法制・制度を反映し、古いデータをシャットアウトする強固なナレッジマネジメントの仕組みが必要です。
⑥ 出題パターンのマンネリ化と「過去問対策」への対応
試験を長年継続していると、どうしても出題傾向や問題の切り口が固定化しがちです。受験者が過去問を丸暗記するだけで合格できてしまう状況を防ぐためには、常に新しい角度からのアプローチや類似問題の量産が必要ですが、これを人間の手だけで行い続けるのは限界があります。

生成AIを作問に活用するメリット
こうした複雑な課題に対して、近年の生成AI技術、特に「RAG(検索拡張生成)」などの仕組みを活用することで、作問の「効率的な補助ツール」として以下のようなメリットを享受できるようになっています。
① 作問プロセスの大幅なスピードアップ(たたき台の量産)
「〇〇の章から、4択の試験問題を10問作成して」「この解説文をベースに、誤りの選択肢を3つ作って」といった指示(プロンプト)を与えるだけで、AIはわずか数秒~数十秒でベースとなる問題案を出力します。ゼロから問題を考える手間を省き、作問時間を大幅に削減することが可能です。
② 「もっともらしい誤答」のアイデア出し
人間が頭を悩ませる「受験者が思わず引っかかりそうな、専門的でリアルな誤答選択肢」のバリエーションを、AIは一瞬で複数提示してくれます。人間がブラッシュアップするための「ヒント」として非常に優秀です。
③ 最新の法改正を反映したアプローチ
AIに過去のデータだけでなく、最新の法改正情報や新しいテキストのPDFを「正しい知識源」として直接読み込ませる(RAG技術の活用)ことで、古い法律に基づいた出題を未然に防ぎ、時事性の高い問題をセキュアに組み立てるサポートをします。
④ 多様な切り口による「類似問題」の大量生産
同じ知識を問う問題でも、シチュエーションを変えたり、選択肢の組み合わせを変えたりすることで、何パターンものバリエーションを一瞬で生み出すことができます。過去問のマンネリ化を防ぐためのヒント作りに貢献します。
⑤ 「相互干渉」や「矛盾」の簡易的なスクリーニング
AIは単に問題を作るだけでなく、完成した「試験問題案の一式」を読み込ませて、「問題同士でヒントになっている部分はないか」「重複しているテーマはないか」と客観的にチェックさせる使い方も有効です。人間が見落としがちな全問のクロスチェックを瞬時にこなし、初期エラーのフィルタリング(足切り)を行うことで、人間の目による検証コストを減らすことができます。
生成AI作問の限界と注意点(注意すべきリスク)
一方で、生成AIを「丸投げ」で実務に投入するには、まだ明確な限界とリスクが存在します。どれだけ技術が進化しても、人間がグリップを握るべき領域を理解しておくことが重要です。
① ハルシネーション(もっともらしい嘘)のリスク
生成AIは時として、事実とは異なる情報を「さも正しいこと」のように堂々と言い切る特性(ハルシネーション)があります。法律の条文や専門的な技術仕様を誤って解釈したまま問題を作ってしまうリスクがあるため、出力された内容は必ず専門家によるファクトチェックが必要です。どれほど高度なシステムを構築しても、確率的に発生するハルシネーションを完全にゼロにすることはできません。
② 「全体としてのバランス」を俯瞰する能力の不足と難易度コントロールの難しさ
AIに対して「難易度:中」と指定しても、AIにとっての「普通」と、実際の受験者にとっての「普通」にはズレが生じます。AIは指示された条件で1問を作ることは得意ですが、「試験全体を見渡して、全体の難易度を55%に調整する」「合格者を上位15%に絞り込むための罠を仕掛ける」といった、試験全体を俯瞰したマクロな調整や、平均点を一定にコントロールするための繊細な難易度調整は、まだAIが苦手とする領域です。
③ 図表問題におけるビジュアルとテキストの統合
AIに図表の「下書き」のコード(Mermaidなど)を書かせることはできても、それが視認性高く、試験問題として美しいレイアウトになっているか、図と設問のロジックが完全に一致しているかを最終判断し、微調整するのは人間の仕事です。
④ セキュリティと著作権の配慮
未公開の試験問題や、社外秘の研修テキストをパブリックな生成AIに入力してしまうと、AIの学習データとして取り込まれ、情報漏洩に繋がるリスクがあります。実務で使う際は、データが学習に利用されない法人向けのセキュアな環境(API連携や専用ツール)を選択することが必須です。

成功の鍵は「AIによる一次加工×人間(専門家)の最終調律」
ここまでのメリットとリスクを踏まえると、これからの資格試験DXにおける正解のワークフロー、すなわち「AIがパーツ(下書き)を量産・検証し、人間(専門家)が『一つの試験』へと統括・調整する」というハイブリッドな協働体制(Human-in-the-Loop)が見えてきます。
ステップ1: インプット
最新の法改正情報、テキスト、出題基準をAIに適切に参照させる。
ステップ2: 生成と初期スクリーニング(AIの役割)
AIが「もっともらしい選択肢」を含む大量の「原案(たたき台)」をスピード作成する。さらに、問題間の重複や相互干渉、難易度の違和感をAIで初期フィルタリングし、人間の手元に届く前のノイズを減らす。
ステップ3: 最終調律(人間の役割)
厳選された問題セットに対し、ここからが人間の本番です。有識者がハルシネーションを厳しくチェックし、図表との整合性を確認します。選択肢の細かなニュアンスを磨き上げ、全体が「受験者の能力を測る正しい天秤」になるよう難易度のバランスを美しく調律(ブラッシュアップ)します。
この役割分担を徹底することで、試験の質と信頼性を最高水準に保ったまま、これまでにない業務効率化を実現できるようになります。
まとめ
生成AIの「作問の実力」は、単なる1問1問のクイズ作成レベルを超え、適切な誤答の設計のヒント出しや、法改正への追従、そして問題全体のクロスチェックといった「試験全体の品質管理」をサポートできる段階へと進化しています。実際に、資格・検定業界のDX(デジタル化)を牽引する大手のCBT運営企業やeラーニングベンダーなどでも、AI技術(RAGなど)を組み込んだ専用の「作問支援ツール」の開発や実証実験が急速に進んでいます。
試験問題の作成は、1問ずつの完成度だけでなく、全問が揃ったときの調和、あるいは厳格な選択肢の品質が命です。AIは非常に便利な道具ですが、決して完璧ではありません。だからこそ、機械的な作業や「もっともらしい誤答」のアイデア出し、初期のバグ出しといったプロセスはAIシステムに任せ、人間は「全体設計と最終的な品質保証」に集中すべき時代が来ています。
当社では、こうした最新の生成AI技術(RAGなど)を活用した業務効率化や、資格試験運営のDX、セキュアなAI環境の構築をトータルで支援しています。「試験の質を落とさずに作問コストを削りたい」「法改正に対応した問題作成を仕組み化したい」という方は、ぜひお気軽にお問い合わせください。



