コラム
第1回:CBTの特徴と良質な試験問題の作成について(全3回)
- 試験開発支援サービス
- CBT
Computer Based Testing
プロメトリックでは受験者がコンピューターを利用して回答する形式の試験配信を行っています。これをコンピューター型試験 (Computer-Based Testing, CBT) と呼びます。CBTでは試験実施前に試験問題をサーバーに登録しておき,所定の手続きを経てひとまとまりのセット(試験版)を作成しておきます。試験会場では受験者1人につき1台のPCとモニターが割り当てられ,試験版の中から一定の順番,もしくはランダムに試験問題が受験者に提示されます。受験者はモニターに表示された試験問題を読み,もしくは音声を聞き,クリックで選択肢を選択したり,キーボードで回答文章を入力したりして,試験問題に回答します。CBTでは従来の紙の試験 (Paper-Based Testing, PBT) と比較して,次のようなメリットがあると言われています。
- 世界中,日本中のどこでも試験を受けることができる。
- 試験配信・集計に関わるコストを低く抑えることができる。
- 試験結果が受験終了後にすぐにわかる。
- 試験問題の漏えいリスクを低く抑えることができる。
プロメトリックでは全国160カ所を超える試験会場であればどこでも試験を開催することができます。試験会場では厳密に定められた試験運用プロセスに従って,不正等がないように公正な試験が運営されています。近年,自宅受験が可能な試験が注目を浴びていますが,プロメトリックの試験会場ではチェックイン時の本人確認や,回答エリアへの電子端末の持ち込みなども厳重にチェックされています。
CBTではPBTのように試験問題を紙で印刷し,各会場に配布する必要がないため,小規模の試験であっても相対的に低コストで試験を開催することができます。
PBTでは専用の機器でスキャンした回答データを採点しなければならないですが,CBTでは回答データはデータベースに保存され,自動的に採点されます。
試験の答案は,終了後に即時採点されます。そのため,従来であれば試験終了から受験者への結果通知までに数週間かかっていたものが,一瞬で済みます。試験の得点を表示するだけでなく,合否判定も含めて即時採点・判定が可能です。
試験問題の漏えいは,規模の大きな試験や公的資格の認定試験などで大きな問題となります。PBTでは全受験者が同じ試験問題を解くことが一般的でした。試験問題を終了後に回収したとしても,問題の一部は暗記され,ネットなどで公開されるリスクがあります。それを見た受験者が後の日程で受験することができるため,受験者間での有利不利が生じる可能性があります。CBTでは複数の試験日程を計画したとしても,受験者ごとにランダムに問題を入れ替えたり,受験者ごとに異なる試験問題を提示できるため,問題漏えいのリスクを最低限に抑えることができます。
しかし,このようなCBTのメリットを100%活用するためには,均一化された試験運用のための手順書と,環境の整った試験会場を用意するだけでは不十分です。すなわち,試験問題や試験版そのものの品質が良くなくてはならないのです。プロメトリックではサイコメトリシャン (psychometrician) と呼ばれる,統計学と心理学の専門家によって,より質の高い試験問題の作成と公平で安定した試験運用をサポートしています。今回はプロメトリックで提供している試験問題の分析手法の代表例とその特徴を紹介します。
試験品質評価
プロメトリックでは,試験とは受験者の能力や知識を測定するためのものさしであると考えています。一般的な試験では数十問程度の試験問題が出題されますが,各問題の正誤を判定し,その積み重ねによって受験者の能力が評価されます。多くの試験では多肢選択式と呼ばれる,複数の選択肢から正しいものを選ぶ形式の試験問題が用いられています。多肢選択式の試験の品質とは,試験問題の1つ1つが受験者の能力や適性を評価することに適しているかどうかや,試験全体で見た時に評価のためのツールとして安定的であるかどうかを指します。プロメトリックの試験品質評価では,多肢選択式試験の品質を統計的な観点から数値化・可視化し,試験がものさしとしてきちんと機能しているかどうかを確かめることができます。
試験品質評価には大きく分けると,試験問題1問ごとの分析と試験全体の得点(素点)の分析の2種類があります。試験問題の品質の指標として代表的なものに,通過率と識別力があります。通過率とは,受験者集団の中で何%くらいの人がその問題に正答できたかということです。いわゆる正答率と呼ばれるものです。識別力とは,素点が高い人ほどその問題に正答できる傾向があるかどうかを示しています。試験全体ではよい成績の人なのに間違いやすい問題というのは,受験者の能力の高低を適切に判別できていない可能性があるため,識別力が低くなります。そのほかにも試験問題の品質評価では,正答・誤答の選択肢に不適切なものが含まれていないかを項目特性図で確認します。項目特性図は受験者をいくつかのレベル(下の例では3レベル)に分けて,各レベルでの選択肢の選択率をグラフにしたものです。この例では正答選択肢であるCが右上がりに,それ以外の選択肢は右下がりになっているため,適切な選択肢設計ができていると言えます。識別力が低い項目は差し替えや修正が必要になります。選択肢の中に不適切な項目特性図の挙動をするものがある場合は,特定の選択肢について修正をおこないます。
個別の試験問題だけでなく,試験全体の品質も確認します。試験全体の品質は素点分布の平均や標準偏差などの他に,古典的テスト理論 (Classical Test Theory, CTT) と呼ばれる枠組みの試験の信頼性 (reliability) として評価されます。CTTでは,受験者個人の実際の得点を受験者の真の得点と誤差に分けて考えます。CTTにおける信頼性とは,大雑把にいえば,その試験が受験者の真の得点をどれくらい正確に測ることができるのかに関する指標です。誤差が小さいほど信頼性が高く,良い試験であると言えます。信頼性の高い試験を作成するためには,個々の試験問題の品質が良いことが前提となります。
おわりに
今回はCBT試験一般の特徴と,良いCBT試験を作成するために欠かせない試験品質評価について説明しました。試験実施後に品質評価を行うことで,試験の基本的な性能を定量的に確認することができます。良い試験問題は継続的に使用され,逆に悪い試験問題は差し替えや修正が推奨されます。試験の信頼性は,ある試験が受験者の能力をどの程度正確に把握することができるのかを示す指標として有用であり,試験全体の性能のベンチマークとなります。次回は,CBT試験で用いられることが多い項目反応理論 (Item Response Theory, IRT) と等化 (equating) について説明し,CBTによって公平な試験を実現する方法を紹介します。
CBT導入についてのご質問、運用のご相談、料金についてなど
ご不明な点がございましたら、まずはお気軽にお問い合わせください。