コラム

  1. TOP
  2. コラム
  3. 第2回:CBTの特徴と良質な試験問題の作成について(全3回)

第2回:CBTの特徴と良質な試験問題の作成について(全3回)

2023年05月01日
  • 試験開発支援サービス
  • CBT
第2回は,CBT試験で用いられることが多い項目反応理論 (Item Response Theory, IRT) と等化 (equating) について説明し,CBTによって公平な試験を実現する方法を紹介します。

項目反応理論

CBTでは受験者は柔軟に試験日程を選択することができるため,問題漏えいなどの観点から複数の試験版を用意しておくことが一般的です。試験版が複数あると,版の間で難易度がばらつく可能性があるため,このままでは試験問題の品質が良かったとしても,素点(正答数得点)による合否判定には不公平が生じるかもしれません。プロメトリックでは,項目反応理論 (Item Response Theory, IRT) を用いることで,公平な合否判定が可能な解決策を提案しています。

素点は試験版の難易度の影響を接的に受けるため,複数の試験版を利用する場合にたまたま易しい試験版に割り当てられた受験者にとって有利になる恐れがあります。この不公平を解消するためには,試験版ごとの難易度を調整したうえで素点に代わる受験者の得点を利用すればよいです。試験版ごとの難易度を調整するためには,まずは試験版と試験問題そのものの難しさを知る必要があります。しかし,平均点や通過率(参照: 「第1回:CBTの特徴と良質な試験問題の作成について」)といった指標は受験者集団の能力レベルに左右されるため,より客観的にこれらの難易度を評価できる枠組みが必要となります。それがIRTです。 IRTによって試験の正誤データから,通過率とは異なる,集団のレベルに依存しない試験問題の難易度を知ることができます。正答と誤答のいずれかで採点されている多肢選択式の試験問題を例にとって,IRTの考え方について説明します。IRTでは,1つの試験問題に正答できる確率を試験問題の難易度と受験者の能力値という2種類の要因に分解して数式で表現します。

これがIRTにおける代表的なモデル(1パラメタ・ロジスティック,別名Raschモデル)の式です。式の中のexpは指数関数と呼ばれる曲線ですが,ここでは正答確率を滑らかな曲線にするための一種の型だと思ってください。重要なのは「能力値-難易度」の部分です。IRTの式では能力値と試験問題の難易度を分けて表しているため,受験者の能力値が高かったとしても,正答確率が変化するだけで,難易度の値は変わらずに一定のままです。これに受験者の能力の高い・低いに関係なく試験問題の難易度を知ることができます。能力値を横軸にとってこの正答確率の曲線を表してみると次の図のようになります。試験問題ごとに曲線の位置は左右に変化し,同じ能力の人であっても難しい問題への正答確率は低く算出されます。

試験問題ごとの難易度と受験者の能力値は実際の試験結果から計算されます。すべての試験問題についての正答と誤答の情報が得られていれば,その正答と誤答のパターンが得られる確率が最も高くなるような値を,難易度と能力値の値としています。1つの試験解答データの中では,試験問題の通過率が低い問題ほど大きな難易度が,受験者の正答率が多いほど大きな能力値が推定されます。ここで説明した1パラメタ・ロジスティックモデルは最もシンプルなIRTモデルです。この他にも,試験問題の識別力((参照: 「第1回:CBTの特徴と良質な試験問題の作成について」)(IRTでは正答確率の傾きの大きさで表されます)を考慮したモデルや,多肢選択式であてずっぽうで選んでも正答できる可能性を考慮したモデル,部分点が存在する試験にも適用できるモデルなど様々な派生形があります。プロメトリックでは試験の特性に応じて適切なモデルを提案しています。

 

等化

試験問題の難易度が分かったら,今度は試験版の難易度を調整するための分析を行います。IRTの難易度が分かったとしても,問題の組み合わせによって試験版の平均的な難易度に多少のばらつきが生じます。そのばらつきを調整する分析を等化 (equating) と呼びます。耳慣れない用語ですが,等化は民間団体が主催している英語の各種検定試験や国レベルの大規模学力試験でも用いられている分析です。IRTの難易度を等化することで,試験版に関係なく比較可能な受験者の能力値を知ることができます。

ところで,IRTの難易度と能力値には,全く同じ正答率になる組み合わせが無数に存在します。例えば,1パラメタ・ロジスティックの式では試験問題の難易度の値と同じ能力値の受験者の正答確率は0.5(50%)となりますが,この時の難易度と能力値の具体的な数値は0でも1でも良いため,何もしなければどれかひとつの値に定めることができません。そこで,一般的には試験版の平均難易度がちょうど0になるように試験版の難易度の中心点を定めています。平均難易度を基準にすると,試験版に含まれる他の問題の組み合わせが変われば,たとえ同じ試験問題であったとしても,その試験版の中で計算される難易度の数値は変化します。異なる試験問題の組み合わせからなる試験版で難易度の数値の意味合いを共通化する作業が等化であるとも言えます。
実際の等化ではこの平均的な難易度の差を埋める計算を行います。この計算のためには,版Aと版Bで共通する問題(共通問題)の難易度が利用されます。この例で共通問題の平均難易度を一致させるためには,版Aを基準としてみた時に,版Bの難易度を+1.0すればよさそうです。基準となる版に対して平均的にどれだけ難易度をずらせばよいかを表したこの数値は,等化係数と呼ばれます。等化後の難易度は4列目のような値になります。結果として,問題6は版Aの難易度尺度上では3.0であることが分かりました。

最終的に,等化された難易度に基づいて受験者の能力値が計算されます。典型的な例では,IRTの能力値を0から100の間の数値に収まるように適切に変換して,受験者の得点が算出されます。これを尺度得点と呼びます。仮に異なる試験版同士であっても,等化されていればこの尺度得点によって公平な比較・合否判定が可能になります。なお実際には,受験者の解答データによって数値は細かく変動するため,ここまできれいに等化されることはありません。現実の試験問題の等化においては,共通項目の細かい数値変動も考慮したうえで,サイコメトリシャンによって等化係数の計算が行われています。

CBT導入についてのご質問、運用のご相談、料金についてなど
ご不明な点がございましたら、まずはお気軽にお問い合わせください。

LANGUAGE