Page 1 of 1

為什麼我們在 DataCamp 使用 IRT

Posted: Tue Dec 03, 2024 9:36 am
by urrifat77
您可能會清楚記得在大學或學院參加考試並在事後討論您遇到的問題是否比其他學生遇到的問題更難。或者您可能記得重新參加考試並發現該考試比前一場考試更容易。你的成績提高是因為考試比較簡單還是因為學習更多了?

這涉及到衡量一個人在某個領域的知識、技能和能力的核心意義。設計考試的典型方法是提出一組問題,將它們放在學生面前,對每個問題進行正確/不正確評分,併計算所有問題中正確回答問題的數量。最終分數應該是學生知識的量化,用於決定您是否通過考試。

在 DataCamp,我們提供類似的體驗。使用者 玻利維亞電話號碼列表 可以使用我們的評估來衡量他們在特定領域(例如,SQL 中的資料管理)的表現 - 登入並在此處嘗試!同樣,在DataCamp Certification中,使用者必須先通過一系列考試才能獲得認證。

經典測試理論
測試開發的核心是稱為經典測試理論 (CTT) 的測量框架。 CTT 的經典方程式如下:

X=T+E

其中 X 是觀察到的測驗分數,T 是真實分數,E 是誤差分量。這個方程式的意思是,任何觀察到的分數都是一個人的真實分數和一些非系統誤差成分的混合。這種方法非常適合您想要在一個時間點上使用相同的固定問題對某個領域中的一組人(例如,教室中的所有學生)進行測量的情況。例如,假設您開發了一組問題來探究一個人的 SQL 技能,CTT 是一個很好的框架來分析該測試的品質。

然而,DataCamp 可以被視為一個巨大的全球教室,學生可以在其中對自己感興趣的領域進行自我評估或嘗試獲得 24/7 認證。

在我們的環境中,當我們嘗試依靠 CTT 來確保測試品質時,很快就會遇到問題。


Image

鑑於我們提供評估和 DataCamp 認證,旨在量化使用者在特定領域的知識、技能和能力,我們不能簡單地一遍又一遍地向每個人詢問同樣的 15 個問題。這將使我們的測試非常容易受到洩漏問題以及重新參加測試時記憶問題的影響。隨著時間的推移,分數將變得毫無意義。

使用項目反應理論
解決此問題的簡單方法是增加可以向使用者顯示的問題數量和/或不斷刷新可以從中採樣的問題池。然而CTT只考慮一個人的真實分數,根本不說任何問題!當我們不知道連續測驗中的問題是否具有相當的難度時,我們如何才能獲得一個人的分數的估計值?

輸入:項目反應理論(IRT)。 IRT 是一種測量框架,其中單一問題(例如,正確/不正確)的觀察到的分數被假定為人的能力和項目難度之間的機率相互作用的結果。正式地說:

測驗分數方程

此模型也稱為單參數邏輯模型 (1-PL) 或 Rasch 模型。基於估計原因,假設能力遵循以0 為中心、標準差為1 的常態分佈。 。不用擔心,您可以將這個系列改造成您想要的任何東西!例如,在 DataCamp,-3.33 與分數 0 一致,0 與分數 100 一致,而 3.33 與分數 200 一致。 4,你得到以下曲線:

圖 1. 難度等級 0 的專案的專案特徵曲線。