IRTを実装しました/様々な成績評価とデジタル・ナレッジ風IRTの活用について

By | 2023年6月12日

昨年末に弊社の基幹のeラーニングシステム(LMS)をメジャーバージョンアップしKnowledgeDeliver7(通称”KD7″)をリリースしました。このKD7のコンセプトの一つに「インテリジェント&スマート」があります。

従来からのeラーニングは、熟練した教員や教材開発者によってよく練られて構成されたカリキュラムに忠実に従うことで学習効果を最大化するというものですが、ただ学習者の理解度や傾向によって意図したように理解が進まなかったり学習目的からの乖離や学習者の実力と教材のレベルのギャップが生じることが起こりえます。一人ひとりにあったカリキュラムや教材ではなく、全員が同じ教材を利用するのでこのギャップはどうしても生じてしまうのです。

この課題に対してデータ分析やAIテクノロジを活用することで解決できないかというのがインテリジェント&スマートというコンセプトです。代表的なところではアダプティブ・ラーニングと言われる適応型学習があり、学習者の成績や結果をもとに一人ひとりに最適な学習プランを最適化して提示するというものです。

アダプティブの例

このアダプティブを使えば、さまざまな学習者に個別最適な学びを提供できそうですよね。

今回はそんなインテリジェント&スマートの一つの柱であるIRTについて紹介します。

IRTの説明の前に、旧来の成績評価について

IRTとはItem Response Theoryの略で、日本語では項目応答理論とか項目反応理論と呼ばれます。

IRTの説明の前にテストの評価や個人の成績について触れたいと思います。

合計得点

テストの成績で一番わかりやすいのは得点ですよね。各設問ごとに配点が設定されており、正解でその配点が加算され、文章を問われるような問題では部分点として配点をマックスに点数が加算されることもあります。そうして計算された累計が得点。100点満点で95点だった、というふうに使われ、最も馴染みのある評価だと思います。

じゃあ100点満点がすごいのか? テストで100点満点で40点だと、それはダメなのか? いえいえ、そうとは限りません。中学生相手に「3 × 5=」のような1桁の同士の掛け算の問題を出題しても、ほとんど100点取るでしょうし、中学生相手に高校の微分積分の問題を出してもほとんどの人は解けないでしょう(そんな中で40点も取ったら大したもの)。なので、点数だけで評価するのは早計です。

「前のテスト80点だったけど、今度のテストは100点だったよ!」

とお子さんに言われて、普通の親なら「わーすごいね! 頑張ったねー」と褒めるところでしょうが、冷静に考えると、それが本当に成長しているのかはまったくもって判断できない、ということになります。
(あくまで統計の話であって、すごいと思うので、褒めてあげましょう 笑)

図:合計得点からは分からないこと

偏差値

次に出てくるのが偏差値。学生の頃、模試を受けると提示されてきた数字です。自分の得点が全体の平均点とピッタリ同じだと偏差値は50、それより点数がいいと50を上回り、低いと50を下回ります。先ほどの得点とは違い、全体の平均、そして全体の点数のばらつき具合も計算に考慮されるので、これは評価としてはかなり適切になります。50だから平均だなとか、60だから結構上位だぞとか、テストを受験したグループの中で、自分がどの位置にいるのかが1つの数字で分かる、とても優れた統計だと思います。

じゃあ偏差値が万能かというとそうでもありません。例えば、高校の同じクラスの中で中間テスト・期末テストの偏差値を毎回計算して集計したとします。偏差値が60 → 55 → 53 → 53 などと変化したとして、その数字の変化が何を示すか?というと、これは同じクラスの中での自分の位置を示します。ここには大きく2点、解決できない課題があります。

まずは、同じクラスの中での位置付けの変化を示しているだけであり、その人の成長をプロットしていないという点。例えば中間テストで偏差値53で次の期末テストでも偏差値53だったとして、数字が変化していないから成長していないとは考えてはいけません。クラス全体が中間テストから期末テストで能力が伸びたとするのであれば、その人も等しく伸びたと評価するべきです。このように能力の変化には偏差値は対応していません。これは合計得点でも同じ問題を孕んでおり、合計得点が前回より上回ったからといって能力が伸びたとは言えません。そのテストの難易度が大きく左右します。

図:偏差値は母集団の位置を示すに過ぎない

もう一つの課題、評価するクラスが異なると例え同じ得点でも偏差値が大きく変わるという点。例えば2年1組と2年2組は1組が英語の特進コースで2組が理系のコースだったとして、中間テストの英語の試験で同じ内容のテストを出題して、それぞれのクラスで偏差値を求めたとします。例えば、80点を取ったとして、2年1組だと偏差値は45で、2年2組だと55だった、ということも考えられます。例え同じ点数=同じ能力だったとしても、どのクラスにいるかで偏差値は大きく変わる可能性があります。

図:偏差値は絶対的な実力は測れない

以上のことから、偏差値は母集団の中の位置を示すだけで、自分の能力の成長や、能力を絶対的に評価することには適していないのです。

そこで、IRTが登場

IRTは、ちょっと複雑な理論なので、詳細を省いて、ざっくりと説明すると、各設問の難易度と学習者の能力とを確率論的に求めるというものです。

IRTの項目特性曲線の例(名古屋大学 石井秀宗先生のWebサイトより引用)

上記のグラフをご覧ください。横軸が受検者の能力(Ability)、縦軸がその設問に正答する確率(Probability of a correct response)です。(1)から(3)まで、3つの設問があるとし、それぞれをプロットしたのが上記グラフです。

(1)は能力(Ability)が低くてもある程度の正答率(Probability of a correct response)を示す簡単な問題、(2)は中程度、(3)は能力が多少高くても正解できない、かなり難しい問題と見えます。このような曲線を項目特性曲線と言います。

詳細の説明は他の詳しい文献やサイトをご覧いただくとして、このような項目特性曲線を活用することで、受検者に様々な設問を解いてもらって、その人の能力を絶対的に測定することができるのです。「絶対的に」というのは、受検したグループの特性やテスト問題の内容を問わず、適切に受検者の能力を数値化できるということになります。

例えば、IRTが適用されている例、TOEIC®︎を例に見てみます。

TOEIC®︎はTest of English for International Communicationの略で、日本では一般財団法人 国際ビジネスコミュニケーション協会さんが運営している英語のコミュニケーション能力を判定する試験です。TOEIC®︎は世界160カ国で実施されている世界共通の基準テストですが、いくつかのテストがあり、一般には990点満点のTOEIC®テスト、TOEIC® Listening & Reading Testを指すことが多いです。この場合、文字通りリスリングとリーディングから構成されるテストを受検します。

TOEIC®︎の結果はリスニングパート5~495点、リーディング5~495点の計10~990点の点数で5点刻みで英語力が数値化されて出されます。この点数(TOEIC®︎スコア)は下記のような英語の能力レベルを表しています。

レベル TOEIC®︎スコア 評価(ガイドライン)
A860〜Non-Nativeとして十分なコミュニケーションができる。
B730〜どんな状況でも適切なコミュニケーションができる素地を備えている。
C470〜日常生活のニーズを充足し、限定された範囲内では業務業のコミュニケーションができる。
D220〜通常会話で最低限のコミュニケーションができる。
E10〜コミュニケーションができるまでに至っていない。
TOEIC®︎スコアとコミュニケーションレベル能力レベルとの相関表(一般社団法人国際ビジネスコミュニケーション協会)

では、この990点満点のテスト結果をどう採点しているのかというと、一般の試験のように各設問に配点が設定され、その合計値で計算している・・・のではないのです。そう、ここにIRTの考えが導入されており、受検者の英語の能力を絶対的に示しているのです。

単に点数で合格を評価すると、たまたまそのテストを受けた回の問題が簡単過ぎたり難し過ぎたりすると、実際の難易度とは異なり、適正に診断できません。

また、偏差値を出して、偏差値55以上を合格とする、などと設定すると、その回の受検者の上位層だけをピックアップできるので一見よさそうに見えますが、その回のグループの能力の平均が毎回のテストで不変であるということを前提にしなければならず、実際には適正ではありません。

そこでIRTを使って絶対的に数値化することで、受検者の能力を適正に評価できるというわけです。

IRTを成績評価に使うメリット

こうやって合計得点でも偏差値でもないIRTの評価を成績評価に使うと、以下のようなメリットが発生します。

  • 受検するテストの回の難易度によらず、受検者のスキルを評価できる。
  • 単なる合格・不合格ではない、スキルの数値化(スコア)ができる。
  • 目標となるスキルレベルのスコアに向かって学習をしていくとスコアが上昇し、達成の状況が把握できる。勉強してスキルを身につけただけスコアに反映できる。
  • これにより経年変化のスキルの測定に使うことができる。
  • まぐれで解答した設問が正解だった場合、これをまぐれ当たりとして除外し、正確なスキルの測定が行える。
  • 全受検者が同じ設問を解く必要すらない。異なる設問を出題しても適切にスキル評価が行える。隣の人の答案を盗み見するカンニングの意味がなくなる。
IRTを成績評価に使うメリット

IRTによって算出されるスコアは受検者のスキルを適切に評価でき、それを積み重ねることで自身の成長も実感できることでしょう。

グラフ:IRTを利用して自身の成長を把握した例

このように、IRTを用いて成績評価を行うと様々なメリットがあります。

IRTを成績評価に活用するケースとしては資格試験が最もわかりやすいと思います。単なる合格・不合格ではなく、その人のその領域におけるスキルを数値化するということはスキル診断、そして学習のモチベーションを維持する上でも、とても有効です。

導入事例としてはここ最近広がっており、先ほど紹介のTOEIC®︎や日本でも情報処理技術者試験CBTやITパスポート試験、日本語能力試験などで活用が進んでいますし、文部科学省も学力調査などで利用するCBTでIRTの運用を示しています。

弊社でのIRTの活用例:難易度の自動調整

というIRT、弊社にてIRTを実装化し4月にリリースしております。このIRTエンジンは、これまで説明したように、その人のスキルを数値化して評価する、ということもできるのですが、主眼はちょっと違うところにあります。

冒頭に説明したスマートラーニングの一例としてのアダプティブ、学習者に適切な学習を促すというのはとても大事な考えだと思います。現状のルールベースによるアダプティブはどういう仕組みかというと、問題を出題するとして、その問題を解くために必要な知識に分解し定義しています。そしてその問題がクリアできなかったら必要な知識が足りないと判断して、その知識を後戻り学習させるのです。

例えば二次方程式を解いて正解できなかったら、まず一次方程式ができていない可能性があるとして一次方程式の問題が出題されます。それも間違えると、多項式が理解していないのかもしれない、正の数・負の数の概念も確認しよう・・・ このようにどんどん後戻りをすることになります。これは知識を積み重ねて次の領域に達するようなタイプの学習には向いているのかもしれませんが、なんだか後戻りばかりで進んでいる実感が少ないですよね。このようにルールベースのアダプティブは、全体として成果にはつながるけれど、ちょっと大変だ・・・ということにはなります。

そこで、別の考え方のアダプティブとしてIRTが活用できないか? と思い開発したのが今回のシステムです。

簡単にいうと、IRTを学力値の測定に利用するだけでなく、その人の推定学力に合った難易度の問題を自動調整し出題するというものです。

図:「すらたん」でのIRTの活用事例

演習問題に取り組むとして、あまりにも難易度の高いものばかりを出題しても解けずに意味がなく、簡単過ぎてもスキルアップにはつながりません。そこでIRTを使って、その学習者に適切な難易度の問題を出題するのです。これは上記のルールベースとは違った観点で学習効果や学習の満足度を得られるアダプティブの手法だと思います。

ぜひIRTをご活用ください

以上のように、IRTは成績評価、スキル診断で利用できるだけでなく、アダプティブのエンジンとしてそれぞれの学習者の適切な難易度の問題を出題する仕組みとしても活用いただけます。

デジタル・ナレッジでは弊社LMSのKnowledgeDeliverを通じて、インテリジェント&スマートの一環としてIRTの様々な観点・価値を追加して提供いたします。ご興味おありになる方はぜひお問い合わせください。

おまけ

最近恒例の演奏の共有。今回はA Girl From Ipanema、「イパネマの娘」です。

私はお昼は会社近くのローソンでおにぎりを買うのですが、今日のお昼にローソンに行くと店内BGMでこの曲が流れていました。

ボサノヴァの歌手・ギタリストのジョアン・ジルベルトとジャズのテナーサックス奏者のスタン・ゲッツが1963年に”Getz/Gilberto”というアルバムをリリースしたのですが、このアルバムで、英語のボーカルを担当したのが当時ジョアン・ジルベルトの奥さんだったアストラッド・ジルベルトでした。これまでプロ歌手としての経験がないにも関わらず起用され、瞬く間にアメリカ、そして世界中にボサノヴァ旋風が駆け巡ったのです。彼女の歌声、そして一曲目の「イパネマの娘」がなければ、今日のボサノヴァはなかったと思います。そのアストラッド・ジルベルトが先週6月5日に亡くなったのでした。

学生の頃からこのレコードには何度も何度も針を落としてきました。そんな思い出と共に。

参考情報

KnowledgeDeliver7リリース記念第二弾、KnowledgeDeliver7の設計思想(blog)

項目応答理論 (IRT)(名古屋大学 石井秀宗先生のWebサイト)

項目応答理論ーTOEFL・TOEIC等の仕組みー(大友賢二,電気情報通信学会誌 vol.92,No.12)

TOEIC®︎スコアとコミュニケーションレベル能力レベルとの相関表(一般社団法人国際ビジネスコミュニケーション協会)

全国的な学力調査の CBT 化検討ワーキンググループ中間まとめ 「論点整理」(文部科学省)

IRTにより学力値を絶対値化! 学習塾などでのご活用に最適なデジタル教材『すらたん』 IRTを活用したアダプティブドリルモニターを募集(弊社プレスリリース)