コラム
第2回:CBTの特徴と良質な試験問題の作成について(全3回)
- 試験開発支援サービス
- CBT
項目反応理論
CBTでは受験者は柔軟に試験日程を選択することができるため,問題漏えいなどの観点から複数の試験版を用意しておくことが一般的です。試験版が複数あると,版の間で難易度がばらつく可能性があるため,このままでは試験問題の品質が良かったとしても,素点(正答数得点)による合否判定には不公平が生じるかもしれません。プロメトリックでは,項目反応理論 (Item Response Theory, IRT) を用いることで,公平な合否判定が可能な解決策を提案しています。
素点は試験版の難易度の影響を接的に受けるため,複数の試験版を利用する場合にたまたま易しい試験版に割り当てられた受験者にとって有利になる恐れがあります。この不公平を解消するためには,試験版ごとの難易度を調整したうえで素点に代わる受験者の得点を利用すればよいです。試験版ごとの難易度を調整するためには,まずは試験版と試験問題そのものの難しさを知る必要があります。しかし,平均点や通過率(参照: 「第1回:CBTの特徴と良質な試験問題の作成について」)といった指標は受験者集団の能力レベルに左右されるため,より客観的にこれらの難易度を評価できる枠組みが必要となります。それがIRTです。 IRTによって試験の正誤データから,通過率とは異なる,集団のレベルに依存しない試験問題の難易度を知ることができます。正答と誤答のいずれかで採点されている多肢選択式の試験問題を例にとって,IRTの考え方について説明します。IRTでは,1つの試験問題に正答できる確率を試験問題の難易度と受験者の能力値という2種類の要因に分解して数式で表現します。
試験問題ごとの難易度と受験者の能力値は実際の試験結果から計算されます。すべての試験問題についての正答と誤答の情報が得られていれば,その正答と誤答のパターンが得られる確率が最も高くなるような値を,難易度と能力値の値としています。1つの試験解答データの中では,試験問題の通過率が低い問題ほど大きな難易度が,受験者の正答率が多いほど大きな能力値が推定されます。ここで説明した1パラメタ・ロジスティックモデルは最もシンプルなIRTモデルです。この他にも,試験問題の識別力((参照: 「第1回:CBTの特徴と良質な試験問題の作成について」)(IRTでは正答確率の傾きの大きさで表されます)を考慮したモデルや,多肢選択式であてずっぽうで選んでも正答できる可能性を考慮したモデル,部分点が存在する試験にも適用できるモデルなど様々な派生形があります。プロメトリックでは試験の特性に応じて適切なモデルを提案しています。
等化
ところで,IRTの難易度と能力値には,全く同じ正答率になる組み合わせが無数に存在します。例えば,1パラメタ・ロジスティックの式では試験問題の難易度の値と同じ能力値の受験者の正答確率は0.5(50%)となりますが,この時の難易度と能力値の具体的な数値は0でも1でも良いため,何もしなければどれかひとつの値に定めることができません。そこで,一般的には試験版の平均難易度がちょうど0になるように試験版の難易度の中心点を定めています。平均難易度を基準にすると,試験版に含まれる他の問題の組み合わせが変われば,たとえ同じ試験問題であったとしても,その試験版の中で計算される難易度の数値は変化します。異なる試験問題の組み合わせからなる試験版で難易度の数値の意味合いを共通化する作業が等化であるとも言えます。
最終的に,等化された難易度に基づいて受験者の能力値が計算されます。典型的な例では,IRTの能力値を0から100の間の数値に収まるように適切に変換して,受験者の得点が算出されます。これを尺度得点と呼びます。仮に異なる試験版同士であっても,等化されていればこの尺度得点によって公平な比較・合否判定が可能になります。なお実際には,受験者の解答データによって数値は細かく変動するため,ここまできれいに等化されることはありません。現実の試験問題の等化においては,共通項目の細かい数値変動も考慮したうえで,サイコメトリシャンによって等化係数の計算が行われています。
CBT導入についてのご質問、運用のご相談、料金についてなど
ご不明な点がございましたら、まずはお気軽にお問い合わせください。