在算出這些實證數據資料之後,即要進行比較、篩選試題。以下四個規準是需要考慮的:
- 測驗總題數:試題題數決定於所希望的測驗信度以及可用的作答時間。用於做個人決策的測驗或高注碼測驗,需要較高的信度,題數就要較多,但通常不得少於20題(成套測驗的分測驗) 或30題(單一測驗)。
可用的作答時間與試題題型也是影響題數的重要因素,所以在預試時,測驗編製者要到現場觀察,並記錄不同能力者的平均作答時間,以便使題數和作答時間限制能達到最佳的配合。 - 測驗內容與規格明細表的一致性:
若所測驗的範疇有經過詳盡的分析,並做成規格明細表,就要按照規格明細表選擇題目,在符合規格明細表的配置之下,再進一步考慮鑑別度和難易度,這樣才能維持試題取樣的代表性,以確保測驗的內容效度,這點在成就測驗上特別重要。
除了不遺漏重要概念,以維持試題取樣代表性之外,還要考慮內容的豐富性,也就是各試題之間內容不重複或者相關不要太高。 - 鑑別度(試題與總分的相關):這是挑選試題最重要的規準。試題與測驗總分的相關係數要愈高愈好,但為了顧及試題抽樣代表性,需要使整個測驗內容符合測驗規格明細表,所以較低的相關係數有時也得接受,但是不能有接近0.00的題目。
若試題與總分的相關是負相關,應該立刻回頭檢查是否把正確答案弄錯了(通常是在將原始答案轉換成1與0時,輸入錯誤的答案)。但偶爾有可能是當初命題者就提供了錯誤的標準答案,或者是該題目的內容本來就有爭議。 - 難易度(試題答對比率,p值):一般而言,p值在 .80 到 .20 之間都可接受,但是以 .50 上下的試題愈多愈好,因為這樣才能在團體施測時,使測驗分數的分布變異最大。
另一方面, 若測驗編製者事前知道該測驗將會做為錄取比率很低的甄選測驗時,就要多選一些答對率比較低(較難答對)的題目,使該測驗對於高能力者有較大的鑑別力。反之若測驗是要用來篩選出低成就的學生,或者率取比率會很高時,則可以多選一些答對率比較高(比較容易)的題目。