TEACHERS CORNER
TESTING (OVERVIEW)
อาจารย์ท่านหนึ่งได้
e-mail มาขอให้เขียนบทความด้านการทดสอบให้อ่านด้วยเพื่อ
เพิ่มพูนทักษะด้านการทดสอบและประเมินผลซึ่งเป็นความจำเป็นอีกอย่างหนึ่งในอาชีพครูผู้สอนภาษา
ด้วยความยินดีค่ะ บทความนี้จะครอบคลุมเนื้อหา 4 หัวข้อ คือ ประเภทของแบบทดสอบ คุณลักษณะของแบบทดสอบ
ความเป็นมาของการพัฒนาแบบทดสอบ และการวิเคราะห์
แบบทดสอบ ขอเชิญอ่านได้เลยค่ะ
1.
ประเภทของแบบทดสอบ
วัตถุประสงค์ของการสอบนั้นมีหลายประการ นอกจากแบบทดสอบจะใช้วัดผลความก้าวหน้าของผู้เรียนแล้ว
ยังสามารถใช้เป็นเครื่องมือในการประเมินหลักสูตรได้อีกด้วย โดยพิจารณาจากผลการเรียนของผู้เรียนทั้งหมด
การประเมินความก้าวหน้าและความสำเร็จของผู้เรียน และการประเมินหลักสูตรอาจจะทำหลังจากที่ผู้เรียนเรียนวิชานั้นจบแล้ว
ซึ่งเรียกว่าเป็นการประเมินผลรวบยอด (summative evaluation) หรืออาจจะประเมินระหว่างที่ผู้เรียนกำลังเรียนอยู่
ก็ได้เพื่อดูว่าผู้เรียนได้เรียนอะไรแล้ว และยังไม่ได้เรียนอะไร หรือเพื่อปรับปรุงหลักสูตรให้ตรงกับความต้องการของผู้เรียน
การประเมินผลในระหว่างที่ผู้เรียนกำลังเรียนนี้เรียกว่าเป็นการประเมินผลความก้าวหน้า
(formative evaluation)
การทดสอบอาจจะกระทำได้อีกวิธีหนึ่งคือ ก่อนที่ผู้เรียนจะเริ่มเรียนวิชานั้น แบบทดสอบประเภทนี้เรียกว่า
แบบทดสอบจัดระดับ (placement tests) ซึ่งจะกำหนดระดับความสามารถของผู้เรียนว่าอยู่ในระดับใด
เพื่อที่จะได้จัดให้ผู้เรียนได้เรียนในระดับที่เหมาะสมกับความสามารถของตน แบบทดสอบที่นำมาใช้ในการจัดระดับนั้นอาจจะเป็นแบบทดสอบสมิทธิภาพ
(proficiency tests) หรือแบบทดสอบสัมฤทธิผล (achievement tests) แบบทดสอบสมิทธิภาพเป็นแบบทดสอบที่ใช้วัดความสามารถในการนำสิ่งที่เรียนไปใช้ในสถานการณ์จริง
และไม่สัมพันธ์กับวิชาหนึ่งวิชาใดโดยเฉพาะ Harris (1969) กล่าวว่า แบบทดสอบสมิทธิภาพใช้วัดความสามารถและระดับความรู้ปัจจุบันของผู้เรียน
อันเป็นผลจากประสบการณ์ที่ได้เรียนรู้และสะสมไว้จากอดีตถึงปัจจุบัน และอาจจะใช้เป็นเครื่องทำนายความสำเร็จของผู้สอบในอนาคตได้อีกด้วย
เช่น ทำนายว่าจะประสบความสำเร็จในการเรียน หรือการทำงานที่ต้องใช้ภาษานั้น ๆ หรือไม่
เนื่องจากภาษาที่ใช้ในการสอบจะเป็นภาษาที่ผู้เรียนได้พบในการเรียนหรือการทำงานจริง
ๆ
นอกจากนี้แบบทดสอบสมิทธิภาพบางครั้งยังอาจใช้เพื่อดูความพร้อมของผู้เรียน และใช้เป็นเกณฑ์แบ่งกลุ่มหรือกำหนดชั้นเรียนตามระดับความสามารถ
ในกรณีนี้ข้อสอบสมิทธิภาพได้นำมาใช้เป็นแบบทดสอบจัดระดับ (placement Tests)
สำหรับแบบทดสอบสัมฤทธิผล คือแบบทดสอบสำหรับผู้เรียนที่เรียนจบรายวิชาใด
วิชาหนึ่งหรือหลักสูตรใดหลักสูตรหนึ่งภายในระยะเวลาที่กำหนดให้ แบบทดสอบสัมฤทธิผลนี้จะมีความสัมพันธ์กับหลักสูตร
และจะทดสอบในสิ่งที่ผู้เรียนเรียน จุดมุ่งหมายก็เพื่อต้องการประเมินผู้เรียนว่ามีความสามารถตามวัตถุประสงค์ของรายวิชาหรือหลักสูตรที่วางไว้หรือไม่
เพื่อให้ได้ทราบถึงมาตรฐานการเรียนของผู้เรียน ตัวอย่างแบบทดสอบสัมฤทธิผล ได้แก่
ข้อสอบ
ปลายภาคตามโรงเรียนหรือมหาวิทยาลัยที่ใช้วัดผลการเรียนรู้ตามหลักสูตรของผู้เรียน
แบบทดสอบสัมฤทธิผลนอกจากจะใช้วัดผลปลายภาคแล้วยังอาจจะใช้วัดหรือประเมินความ
ก้าวหน้าในการเรียน ระหว่างที่ผู้เรียนกำลังเรียนวิชานั้น ๆ อยู่ ซึ่งจะเรียกว่า
Progress Tests (Valette, 1977) นอกจากนี้แบบทดสอบสัมฤทธิผลยังอาจนำมาใช้เป็นแบบทดสอบจัดระดับ
๖(placement tests) เพื่อตัดสินอนาคตของผู้เรียน เช่น ผลจากการสอบจะเป็นเครื่องกำหนดว่าผู้เรียนควรจะอยู่ในระดับใด
ได้เรียนรู้เรื่องใดในหลักสูตรแล้วหรือยังไม่ได้เรียนรู้เรื่องใด (Lado, 1973)
ถ้าผู้เรียนทำแบบทดสอบชนิดนี้ได้ดีมาก ก็หมายความว่าได้เรียนรู้สิ่งที่จะสอนในหลักสูตรแล้ว
วิชานี้อาจจะไม่มีความจำเป็นสำหรับนักเรียนอีก ในกรณีที่ใช้ข้อสอบสัมฤทธิผลมาเป็นข้อสอบจัดระดับหรือยกเว้นนั้น
สิ่งที่สำคัญคือ ข้อสอบสัมฤทธิผลนี้จะต้องมีความเป็นมาตรฐานมากที่สุด จะต้องเป็นการวัดหรือประเมินที่สอดคล้องกับเนื้อหาและวัตถุประสงค์ของวิชาหรือหลักสูตร
นั้น ๆ
อย่างไรก็ตาม Upshur (1975)
ได้กล่าวว่าแบบทดสอบสมิทธิภาพและแบบทดสอบ
สัมฤทธิผลมีความสัมพันธ์กันอย่างใกล้ชิด และบางครั้งคำสองคำก็ใช้ในความหมายเดียวกัน
คือ
ผู้เรียนเรียนเพื่อให้ได้สัมฤทธิผลในวิชาที่เรียน แต่ขณะเดียวกันจุดมุ่งหมายของสัมฤทธิผลนี้คือ
การทำให้ผู้เรียนเกิดสมิทธิภาพในวิชานั้น ๆ ด้วยเหตุนี้ แบบทดสอบที่ใช้ในการสอบไล่วัดผลหรือที่ใช้ในการสอบจัดระดับความสามารถหรือสอบยกเว้น
จึงควรมีลักษณะของทั้งสัมฤทธิผลและสมิทธิภาพร่วมกัน คือวัดในสิ่งที่ผู้เรียนได้เรียนรู้ไปแล้ว
และวัดความพร้อมของผู้เรียนที่จะเรียนต่อไป
2.
คุณลักษณะของแบบทดสอบ
แบบสอบที่ดีที่จะใช้เป็นแบบสอบมาตรฐานได้นั้น ต้องมีคุณลักษณะดังนี้คือ มีความเที่ยง
(Reliability) ความตรง (Validity) ความเหมาะสมในการนำไปใช้ (Practicality) และมีคุณค่าต่อการเรียนการสอน
ความเที่ยงโดยทั่วไปหมายถึง ความคงที่ (Stability) หรือความคงเส้นคงวา (Consistency)
ของการวัด แบบทดสอบที่มีความเที่ยงสูงนั้นไม่ว่าจะนำไปใช้สอบกี่ครั้ง ผลที่ได้ก็จะคงเดิมหรือคงที่
ซึ่งแสดงว่าแบบสอบนั้นสร้างขึ้นอย่างชัดเจนในเรื่องที่จะวัด ไม่คลุมเครือ
ผู้สอบเข้าใจคำถามและตอบตามความสามารถที่มีอยู่จริง การตรวจสอบความเที่ยงนั้นกระทำได้หลายวิธี
วิธีแรก
โดยการจัดให้ผู้สอบกลุ่มเดียวกันสอบข้อสอบนั้นสองครั้ง (test-retest
method) ถ้าคะแนนที่ได้ในการสอบสองครั้งนั้นสัมพันธ์กันหรือใกล้เคียงกันมาก ย่อมแสดงว่า
แบบทดสอบมีความเที่ยงสูง
อีกวิธีหนึ่ง โดยการสร้างข้อสอบอีกชุดหนึ่งที่คล้ายกับข้อสอบชุดแรก (parallel-forms method) และนำคะแนนที่ผู้สอบทำแบบทดสอบสองชุดนั้นมาเปรียบเทียบดูความสอดคล้องกัน
วิธีที่สาม ที่ใช้ตรวจสอบความคงที่ในตัวแบบทดสอบนั้นเอง (internal consistency) โดยการแบ่งข้อสอบที่สร้างขึ้นเป็นสองส่วน (split-half method) ซึ่งโดยปกตินิยมแยกเป็นข้อคู่และข้อคี่
หลังจากนั้นจึงนำเอาคะแนนสองส่วนนี้มาหาความสัมพันธ์ นอกจากนี้ความเที่ยงของแบบทดสอบอาจจะกระทำได้จากการคำนวณ โดยใช้สูตรคูเดอร์-ริชาร์ดสัน 20 (Kuder-Richardson formula 20)
ความเที่ยงของแบบทดสอบสามารถคิดคำนวณเป็นค่าได้ เรียกว่าค่าสัมประสิทธิ์แห่งความเที่ยง
(Reliability coefficient) แบบสอบที่มีความคงที่สูงจะมีค่าสัมประสิทธิ์ใกล้เคียงกับ1
เป็นที่น่าสังเกตว่าค่าความเที่ยงสมบูรณ์ซึ่งจะมีค่าสัมประสิทธิ์เท่ากับ 1 นั้น
มักจะไม่พบใน
สถานการณ์การสอบทั่วไป ทั้งนี้ เนื่องจากการสอบแต่ละครั้งนั้น ย่อมมีความคลาดเคลื่อนในการวัด
(Error of measurement) รวมอยู่ด้วย เช่น ผู้สอบบางคนอาจจะได้เรียนรู้เพิ่มขึ้น
จึงทำคะแนนได้ดีขึ้น หรือผู้สอบบางคนอาจจะประมาท หรือไม่สบายในระหว่างการทดสอบ
จึงทำให้คะแนนที่ได้ตกต่ำลง ตามปกติแบบสอบมาตรฐานมักจะมีค่าความเที่ยงเท่ากับ 0.85
หรือสูงกว่า ส่วน
แบบสอบที่มีค่าความเที่ยงน้อย ไม่เหมาะที่จะนำไปใช้วัดผล หรือตัดสินความสามารถหรือ
คุณลักษณะของผู้สอบ
ความเที่ยงของแบบทดสอบนั้นขึ้นอยู่กับปัจจัยหลายอย่าง ได้แก่ ข้อสอบ การจัดสอบ
การตรวจข้อสอบ ผู้เข้าสอบ และสถิติที่ใช้ในการวิเคราะห์ ข้อสอบที่มีความยาวหรือมีจำนวนข้อมาก
จะทำให้รู้ถึงความสามารถของผู้เข้าสอบได้ดีกว่าข้อสอบสั้น และจะมีความเที่ยงมากกว่า
แต่ทั้งนี้ยังขึ้นอยู่กับองค์ประกอบอื่นอีก เช่น อำนาจในการจำแนกของข้อสอบ ที่จะจำแนกกลุ่ม
ผู้เข้าสอบที่เก่งและกลุ่มผู้เข้าสอบที่อ่อน กล่าวคือ ถ้าข้อสอบยาวแต่อำนาจจำแนกต่ำอาจมีคุณภาพด้อยกว่าข้อสอบสั้นแต่อำนาจจำแนกสูง
นอกจากตัวข้อสอบแล้วการบริหารการสอบก็มีผลต่อค่า
ความเที่ยงของแบบทดสอบด้วย การบริหารการสอบนี้รวมถึงลักษณะของห้องสอบ การจัดที่นั่ง
อุปกรณ์ที่ใช้ในการสอบและการคุมสอบ สภาวะการณ์ของการบริหารการสอบนี้จะต้อง
เหมือนกันสำหรับผู้เข้าสอบทุกคน มิฉะนั้นอาจทำให้ความเที่ยงของแบบทดสอบลดลง การตรวจข้อสอบก็เช่นเดียวกันคือต้องมีความเป็นปรนัย
(objectivity) ในการให้คะแนนให้มากที่สุดกล่าวคือ แบบทดสอบที่มีความเที่ยงสูงนั้น
ไม่ว่าผู้ตรวจคนเดิมจะตรวจกี่ครั้ง คะแนนที่ให้ก็จะไม่
คลาดเคลื่อนจากเดิมมากนัก คือมีความคงที่มากหรือถ้ามีผู้ตรวจหลายคนคะแนนที่ออกมาจะต้องมีความสอดคล้องกันมากที่สุด
ข้อสอบที่มีความเที่ยงนั้นควรมีเกณฑ์การตรวจที่แน่นอน และมีความเป็นปรนัยในการตรวจซึ่งกระทำได้โดยให้มีผู้ตรวจมากกว่าหนึ่งคน
ซึ่งจะมีความเที่ยง
มากกว่าใช้ผู้ตรวจคนเดียว นอกจากปัจจัยสามประการดังได้กล่าวมาแล้ว ปัจจัยอีกประการหนึ่ง
ที่มีผลต่อความเที่ยงของแบบทดสอบคือ ตัวผู้เข้าสอบเอง ถ้าผู้เข้าสอบเหนื่อย ป่วย
หรือขาด
แรงจูงใจในการสอบ ก็จะมีผลทำให้ความคงที่ของคะแนนคลาดเคลื่อนไป และกลุ่มผู้เข้าสอบ
ถ้ามีความสามารถแตกต่างกันก็จะทำให้ค่าความเที่ยงของข้อสอบสูงกว่ากลุ่มผู้เข้าสอบที่มีความสามารถใกล้เคียงกัน
ปัจจัยสุดท้ายที่จะกล่าวถึงคือ สถิติที่ใช้วิเคราะห์ค่าความเที่ยงของ
แบบทดสอบ ผู้วิเคราะห์ข้อสอบควรจะเลือกใช้สูตรหาค่าความเที่ยงที่เหมาะสมกับลักษณะของแบบทดสอบ
มิฉะนั้นจะมีผลต่อความเที่ยงของแบบทดสอบได้
แบบทดสอบที่ดีนั้นนอกจากจะมีความเที่ยงแล้ว
ยังจะต้องมีความตรงอีกด้วย ซึ่งความตรงนี้อาจจะเรียกว่าเป็นลักษณะที่สำคัญที่สุดก็ได้
ความตรงของแบบทดสอบหมายถึง การที่
แบบทดสอบนั้นสามารถวัดสิ่งที่ต้องการวัดได้ในขอบเขตที่ต้องการในสถานการณ์อย่างหนึ่งและกับประชากรกลุ่มหนึ่ง
กล่าวได้ว่าความตรงของแบบทดสอบมิได้เป็นคุณสมบัติเฉพาะของ
แบบทดสอบนั้น ๆ แบบทดสอบหนึ่งอาจจะมีความตรงเมื่อใช้เพื่อวัตถุประสงค์อย่างหนึ่ง
และกับประชากรกลุ่มหนึ่ง แต่ถ้าวัตถุประสงค์และกลุ่มประชากรเปลี่ยนไป แบบทดสอบฉบับเดียวกันนั้นอาจจะไม่มีความตรงได้
ด้วยเหตุนี้จึงจำเป็นที่ผู้สร้างหรือผู้ใช้แบบทดสอบจะต้องกำหนดหรือรู้แน่ชัดว่าต้องการจะทดสอบเรื่องอะไรและเพื่ออะไร
การตัดสินความตรงของแบบทดสอบก็จะต้องพิจารณาถึงการใช้แบบทดสอบตามความมุ่งหมายเฉพาะของแบบทดสอบที่ตั้งไว้ขณะนั้นด้วย
ความตรงของแบบทดสอบอาจแบ่งออกเป็น
4 ประเภทใหญ่ ๆ คือ ความตรงตามเนื้อหา (content validity) ความตรงเชิงทำนาย (predictive
validity) ความตรงร่วมสมัย (concurrent validity) และความตรงตามภาวะสันนิษฐาน (construct
validity)
แบบทดสอบที่มีความตรงตามเนื้อหาเป็นข้อสอบที่ใช้วัดว่าผู้เข้าสอบสามารถเข้าใจในเนื้อหาตามวัตถุประสงค์ที่วิชาหรือหลักสูตรนั้นตั้งไว้
ในกรณีที่เป็นแบบทดสอบสมิทธิภาพ
ความตรงตามเนื้อหาย่อมกำหนดได้ยาก
เนื่องจากสมิทธิภาพทางภาษาเป็นเรื่องที่ครอบคลุม
กว้างขวาง อาจจะต้องอาศัยความคิดเห็นของผู้เชี่ยวชาญในการเรียนการสอนภาษามาช่วยกำหนด
ซึ่งค่าที่ได้มักจะเป็นไปตามเกณฑ์ตัดสินที่มีลักษณะเป็นอัตนัย (subjective) สำหรับข้อสอบจัดระดับและข้อสอบยกเว้น
ซึ่งมีวัตถุประสงค์ให้ผู้สอบที่มีคะแนนสูงถึงเกณฑ์ได้รับการยกเว้นนั้น จำเป็นที่จะต้องทดสอบเนื้อหาหรือวัตถุประสงค์ที่สอดคล้องกับหลักสูตรของวิชาที่ผู้สอบจะ
ได้รับการยกเว้น จึงจะเรียกว่าเป็นแบบทดสอบที่มีความตรงตามเนื้อหา
แบบทดสอบที่ดีควรจะมีความตรงเชิงทำนายด้วย กล่าวคือ แบบทดสอบสามารถใช้ทำนายความสำเร็จในการเรียนในอนาคตของผู้สอบ
ตัวอย่างเช่น แบบทดสอบยกเว้นที่ดีควรใช้เป็นเครื่องบ่งชี้ความสำเร็จในการเรียนวิชาที่ได้รับการยกเว้น
หรือวิชาที่มีวัตถุประสงค์ใกล้เคียงกัน ในกรณีที่ผลออกมาเป็นไปในทางตรงข้าม อาจกล่าวได้ว่าแบบทดสอบนั้นขาดความตรงเชิงทำนาย
ค่าสัมประสิทธิ์สหสัมพันธ์ของความตรงเชิงทำนายถ้าสูงกว่า 0.45 จัดว่าอยู่ในเกณฑ์ดี
(Tuckman, 1975)
สำหรับความตรงร่วมสมัยของแบบทดสอบนั้น หมายถึง แบบทดสอบที่ใช้สามารถจะบ่งชี้ว่าผู้สอบมีความสามารถ
หรือคุณสมบัติตามเกณฑ์ที่ตั้งขึ้นจากสภาพในปัจจุบันเพียงใด กล่าวอีกนัยหนึ่งเป็นความสัมพันธ์ระหว่างคะแนนที่ได้จากการทำแบบทดสอบกับคะแนนเกณฑ์ที่ได้มาจากการกำหนดขึ้นในขณะนั้น
ตัวอย่างเช่น ความสัมพันธ์ของคะแนนการสอบแบบทดสอบ
ยกเว้นและคะแนนการสอบวิชาภาษาอังกฤษเข้ามหาวิทยาลัย การศึกษาความสัมพันธ์ของคะแนนหรือความตรงร่วมสมัยของแบบทดสอบจะมีประโยชน์ในกรณีที่ผู้ใช้แบบทดสอบต้องการจะใช้แบบทดสอบหนึ่งแทนที่แบบทดสอบอีกแบบหนึ่ง
อย่างไรก็ตาม การวัดความตรงร่วมสมัย และความตรงเชิงทำนาย ไม่ได้แสดงถึงสิ่งที่แบบทดสอบต้องการประเมินจริง
ๆ แต่เป็นการนำคะแนนที่ได้จากการทดสอบไปเปรียบกับเกณฑ์ใดเกณฑ์หนึ่งเท่านั้น ดังนั้นจึงควรมีการวัด
ความตรงอีกประเภทหนึ่งคือความตรงตามภาวะสันนิษฐานซึ่งมีการกำหนดอย่างแน่ชัดว่า
แบบทดสอบนั้นต้องการวัดอะไร
ความตรงตามภาวะสันนิษฐาน
หมายถึง ความสามารถของแบบทดสอบที่จะวัดลักษณะของพฤติกรรมใด ๆ ที่ได้อธิบายหรือตั้งสมมติฐานไว้
เช่น ความสามารถทางไวยากรณ์ ความสามารถในการอ่าน และความสามารถในการใช้ภาษาเพื่อการสื่อสาร
เป็นต้น Canale และ Swain (1980) กล่าวว่าความสามารถในการใช้ภาษาเพื่อการสื่อสาร
ประกอบด้วยความสามารถย่อย ๆ คือความสามารถทางไวยากรณ์ ความสามารถในการใช้ภาษาในบริบทต่าง
ๆ และความสามารถในการแก้ไขสถานการณ์เพื่อให้การสื่อสารดำเนินไปได้ ดังนั้นการที่จะวัดว่าแบบทดสอบที่ใช้นั้นมีความตรงตามภาวะสันนิษฐานการสอนภาษาเพื่อการสื่อสารหรือไม่นั้น
อาจทำได้โดยการวัดความสามารถแต่ละอย่างของผู้เข้าสอบ และมาเปรียบเทียบกับแบบทดสอบที่วัดความสามารถรวม
ๆ ในการใช้ภาษาเพื่อการสื่อสาร กล่าวอีกนัยหนึ่ง การหาค่าความตรงตามภาวะสันนิษฐาน
อาจจะคำนวณจากค่าสหสัมพันธ์ของคะแนนที่ได้จากแบบทดสอบกับคะแนนที่ได้จากแบบวัด
อื่น ๆ ที่แสดงถึงการวัดในสิ่งเดียวกัน
นอกจากความตรง 4 ประเภท ดังได้กล่าวแล้ว ยังมีความตรงอีกประเภทหนึ่งคือ
ความตรงเชิงประจักษ์ (face validity) ซึ่งเกี่ยวกับความรู้สึกของผู้สอบที่มีต่อแบบทดสอบ
เช่น แบบทดสอบดูง่าย ยาก หรือสับสน หรือรูปแบบผิวเผินที่เห็นเป็นปรนัยให้เลือกตอบ
แต่คำตอบที่ต้องการมีความเป็นอัตนัยสูง เป็นต้น สิ่งเหล่านี้จะมีผลต่อคะแนนในการทำแบบทดสอบได้
กล่าวโดยสรุปความตรงทุกประเภทมีความสำคัญไม่ยิ่งหย่อนไปกว่ากัน แบบทดสอบจึงควรจะมีความตรงเหล่านี้จึงจะเรียกว่าเป็นแบบทดสอบที่ดี
มีคุณภาพเชื่อถือได้
ในการตรวจสอบความตรงของแบบทดสอบ กาญจนา ปราบพาล (2530: 262-263) เสนอว่า ผู้สร้างข้อสอบอาจตั้งคำถามต่อไปนี้
1. แบบทดสอบที่สร้างขึ้นตรงกับวัตถุประสงค์การเรียนภาษาของผู้เรียนกลุ่มนี้
หรือไม่
2. วัตถุประสงค์แต่ละข้อเน้นความสามารถในการสื่อความหมายหรือไม่
3. ลักษณะของกิจกรรมที่ทดสอบมีความเป็นไปได้ สมเหตุสมผล และมีโอกาสเกิดขึ้นจริงในสถานการณ์การทดสอบได้หรือไม่
4. ภาษาที่ใช้เป็นภาษาที่ใช้จริง มีข้อความที่สมบูรณ์และสอดคล้องกับวัตถุประสงค์ในการใช้ภาษาหรือไม่
5. การทดสอบใช้สื่อต่าง ๆ ที่สอดคล้องกับวัตถุประสงค์ในการวัดหรือไม่
6. การทดสอบไม่ได้วัดความรู้เรื่องภาษา แต่วัดความสามารถในการใช้ภาษาหรือไม่
7. แบบทดสอบที่สร้างขึ้นสามารถทำนายความสามารถในการใช้ภาษาในชีวิตจริงของผู้เข้าสอบได้หรือไม่
นอกจากองค์ประกอบต่าง ๆ เหล่านี้ ผู้สร้างแบบทดสอบยังควรคำนึงถึงตัวแปรอื่นที่อาจมีผลกับความตรงของการวัดด้วย
Hatch และ Farhardy (1982: 253 อ้างถึงใน กาญจนา
ปราบพาล, 2530: 264) เสนอตัวแปรดังต่อไปนี้
1. คำสั่งไม่ชัดเจนทำให้ผู้เข้าสอบไม่รู้ว่าผู้ออกข้อสอบต้องการอะไร จึงใช้วัดสิ่งที่ต้องการวัดไม่ได้
2. ศัพท์และโครงสร้างในกิจกรรมที่ให้ทำยากเกินระดับความสามารถของผู้เข้าสอบทำให้ทำกิจกรรมนั้นไม่ได้
3. ข้อสอบยากเกินระดับความรู้ของผู้เข้าสอบ
4. ข้อสอบมีความกำกวม
5. ข้อสอบไม่สอดคล้องกับวัตถุประสงค์
6. จำนวนข้อที่ใช้วัดแต่ละวัตถุประสงค์มีไม่เพียงพอ
7. ไม่เรียงข้อสอบตามความยากง่าย ถ้าเอาข้อสอบยากไว้ก่อนผู้ทำข้อสอบอาจเกิดความท้อแท้
8. ผู้ทำข้อสอบสามารถเดาคำตอบได้โดยไม่ต้องใช้ความสามารถ เช่น เดาว่าข้อ A
ถูกหมดทุกข้อ เป็นต้น
คุณลักษณะอีกประการหนึ่งของแบบทดสอบที่ดีคือ ความเป็นไปได้ในการนำไปใช้ซึ่งรวมถึงค่าใช้จ่าย
เวลาในการสอบ ห้องสอบ ผู้คุมสอบ อุปกรณ์ที่ใช้ในการสอบ ผู้ตรวจข้อสอบ เป็นต้น ตัวอย่างเช่น
แบบทดสอบที่ใช้ทดสอบความสามารถในการเขียนที่ใช้กับผู้เข้าสอบจำนวนมาก อาจจะต้องปรับให้มีลักษณะเป็นปรนัยมากกว่าเป็นอัตนัย
เพื่อให้สะดวกในการที่จะนำไปใช้ ถ้าแบบทดสอบนั้นให้ผู้เข้าสอบเขียนเรียงความก็อาจจะไม่เหมาะ
เนื่องจากต้องใช้ผู้ตรวจเป็นจำนวนมากที่มีความสามารถ และมีมาตรฐานในการให้คะแนน
มิฉะนั้นคะแนนที่ได้อาจจะขาดความเที่ยง
นอกจากคุณลักษณะดังได้กล่าวมาแล้วข้างต้น Oller (1986) ยังได้เสนอว่าแบบทดสอบ
ที่ดีต้องมีคุณค่าในการเรียนการสอน กล่าวคือ ต้องสอดคล้องกับสิ่งที่สอนหรือวัตถุประสงค์ของหลักสูตร
สามารถวัดพัฒนาการในการเรียนนำไปใช้ได้ตรงตามความต้องการ และสามารถชี้
ข้อบกพร่องของผู้เรียนได้ว่าควรปรับปรุงในเรื่องใด
3.
ความเป็นมาของการพัฒนาแบบทดสอบ
การพัฒนาแบบทดสอบทางภาษามักจะมีความสัมพันธ์กับทฤษฎีการเรียนการสอนภาษา
Spolsky (1978) กล่าวถึงวิวัฒนาการพัฒนาแบบทดสอบว่าสามารถแบ่งได้เป็น 3 ช่วง คือ
pre-scientific, psychometric-structuralist และ psycholinguistic-sociolinguistic
ช่วงแรก
หรือ pre-scientific นั้น ตรงกับช่วงที่การเรียนการสอนเน้นไวยากรณ์และการแปล
(grammar-translation) การทดสอบแนวนี้มิได้คำนึงถึงความเป็นปรนัย ความเที่ยง และความตรงของแบบทดสอบ
ลักษณะของแบบทดสอบที่ใช้จะเป็นการแปล การให้เขียนเรียงความ การทดสอบไวยากรณ์ หรือการสอบพูด
ไม่มีมาตรการที่แน่นอนในการเลือกหรือสร้างแบบทดสอบ และส่วนใหญ่จะมี
ผู้ตรวจเพียงคนเดียว ทำให้มีความเป็นอัตนัยค่อนข้างสูง และความคงที่อาจจะคลาดเคลื่อนได้
นอกจากนี้การทดสอบแนวนี้ก็มิได้นำค่าทางสถิติมาใช้ในการวัด
ช่วงที่สอง psychometric-structuralist เป็นช่วงที่การเรียนการสอนเน้นที่โครงสร้างของภาษาทั้งด้านเสียงและไวยากรณ์
หรือเรียกว่า structural approach จะมีการสอนการออกเสียงว่าเสียงหนึ่งจะต่างจากอีกเสียงหนึ่งอย่างใด
(minimal pairs) เป็นการแยกส่วนแต่ละเสียง และจะเน้นที่การฝึกหัดและท่องจำ เช่นเดียวกับการสอนไวยากรณ์
ซึ่งจะมีการแยกสอนไวยากรณ์เป็นเรื่อง ๆ ไป เช่น present simple tense, past tense
เป็นต้น ทฤษฎีการสอนภาษาแบบนี้เชื่อว่าถ้าผู้เรียนเข้าใจหลักไวยากรณ์
หรือเสียงในภาษาทั้งหมดก็จะสามารถใช้ภาษานั้นได้อย่างมีประสิทธิภาพ ทฤษฎีการสอนภาษาแบบที่เน้นโครงสร้างไวยากรณ์
และเสียงนี้มีอิทธิพลต่อการสร้างแบบทดสอบ
ดังที่ Lado (1961) กล่าวว่า แบบทดสอบทางภาษาควรจะทดสอบความสามารถในการใช้ภาษาได้อย่างถูกต้องตามหลักไวยากรณ์
ไม่ทดสอบความรู้เกี่ยวกับเรื่องภาษา และโครงสร้างที่จะนำมาทดสอบควรจะเป็นโครงสร้างที่พบในภาษาพูด
(อ้างถึงใน Klein-Braley, 1981) การทดสอบจะเป็นในแนวแยกองค์ประกอบของภาษา (atomistic)
ภาษาจะแบ่งเป็นส่วนย่อย ๆ หรือโครงสร้างย่อย ๆ และจะมีการเปรียบเทียบโครงสร้างย่อย
ๆ เหล่านี้ระหว่างภาษาแม่และภาษาที่สอง
โครงสร้างที่พบว่าต่างกันจัดว่าเป็นโครงสร้างที่ยากต่อการเรียนรู้ และสมควรที่จะนำมาทดสอบเป็นข้อ
ๆ ไป (discrete-point items) การทดสอบแนวนี้เน้นที่ปริมาณการเรียนรู้ของผู้สอบและความถูกต้องของภาษา
(language usage) มากกว่าที่จะเป็นการทดสอบว่าผู้เรียนสามารถใช้ภาษาได้ในสถานการณ์ต่าง
ๆ อย่างเหมาะสม (language use) หรือไม่ สมมติฐานก็คือ ถ้าผู้เรียนทำ
ข้อสอบถูกมากข้อก็นับว่ามีการเรียนรู้มาก ซึ่งมีผู้วิจารณ์ว่าไม่เป็นจริงเสมอไป
การที่ผู้เรียน
ตอบถูกมากมิได้หมายความว่าเขาจะใช้ภาษาในการสื่อสารได้อย่างถูกต้องเหมาะสม (Morrow,
1979)
นอกจากนี้การทดสอบแนว psychometric-structuralist
ยังเน้นคุณลักษณะความเป็น
ปรนัย ความเที่ยง และความตรงของแบบทดสอบอีกด้วย และเป็นที่มาของการพัฒนาแบบทดสอบแบบปรนัยมีตัวเลือก
(multiple choice)
ระยะต่อมาเมื่อทฤษฎีการเรียนการสอนหันมาเน้นที่ความสามารถหรือการเรียนรู้ในช่วงต่าง
ๆ ก่อนที่ผู้เรียนจะเรียนถึงระดับที่รู้ภาษาอย่างดี ซึ่ง Corder (1975) เรียกว่า
transitional competence และเน้นที่ลักษณะภาษาที่ผู้เรียนใช้ในช่วงต่าง ๆ ของการเรียนรู้ภาษาที่สอง
ดังที่ Selinker (1972) เรียกว่า interlanguage การพัฒนาแบบทดสอบจึงหันมาเน้นที่คุณภาพของสิ่งที่
ผู้สอบตอบมาในข้อสอบมากกว่าที่จะเน้นปริมาณของคำตอบที่ถูก กล่าวคือแบบทดสอบจะมุ่งให้ผู้เรียนได้ฝึกใช้ภาษาตามระดับความสามารถในการเรียนรู้ของแต่ละบุคคล
ผลของการทดสอบจะเป็นเครื่องชี้ว่า ผู้เรียนได้เรียนรู้ หรือยังไม่ได้เรียนรู้เรื่องใด
นอกจากนี้ แบบทดสอบยังมีการพัฒนาให้เป็นลักษณะแบบทดสอบทักษะรวม (integrated test
items) กล่าวคือ แบบทดสอบจะไม่แยกทดสอบโครงสร้างย่อย ๆ เป็นจุด ๆ (discrete point
tests) แต่จะทดสอบความรู้ในการใช้ภาษาหลายเรื่อง (holistic) ในเวลาเดียวกัน
ผู้สอบอาจต้องใช้ความรู้ทั้งด้านเสียง ไวยากรณ์ คำศัพท์ และความรู้รอบตัว มาใช้ในการตอบ
ข้อสอบในเวลาเดียวกัน แบบทดสอบประเภทนี้แสดงถึงการใช้ภาษาอย่างเป็นธรรมชาติ
เหมือนกับในชีวิตจริงที่ผู้ใช้ภาษาต้องใช้ความรู้หลายด้านไปพร้อม ๆ กัน ตัวอย่างแบบทดสอบประเภทนี้ได้แก่
แบบทดสอบโคลช (cloze) และการเขียนตามคำบอก (dictation) อย่างไรก็ตามมี
ผู้วิจารณ์ว่าแบบทดสอบทักษะรวมมักจะเน้นโครงสร้างไวยากรณ์ภาษา (language usage)
มากกว่าการใช้ภาษาอย่างเหมาะสมในสถานการณ์ที่เป็นจริง (language use)
การเรียนการสอนภาษาอีกแนวหนึ่งที่มีอิทธิพลต่อการสร้างแบบทดสอบคือ การเรียนการสอนภาษาเพื่อการสื่อสาร
ซึ่งเน้นการที่ให้ผู้เรียนแสดงออกในการส่งสารและรับสาร มีการ
โต้ตอบสื่อสารกันและกันในบริบทต่าง ๆ และเพื่อวัตถุประสงค์ต่าง ๆ กันไป เน้นความสามารถหรือความรู้และการแสดงออกในการใช้ภาษาได้อย่างถูกต้อง
และเหมาะสมกับสถานการณ์ ไม่มุ่งสอนรูปแบบของภาษารูปแบบใดโดยเฉพาะ แต่จะเน้นสิ่งที่ใกล้ตัวผู้เรียน
และเป็นสิ่งที่ผู้เรียนเห็นประโยชน์ (Savignon, 1983; Burt & Dulay, 1983)
เนื่องจากทฤษฎีการเรียนการสอนภาษาได้พัฒนาไปในแนวนี้ แบบทดสอบจึงต้องมีการพัฒนาเพื่อให้สามารถทดสอบความสามารถในการสื่อสารได้
กาญจนา ปราบพาล (2530: 139-140) ได้สรุปลักษณะของแบบทดสอบที่ใช้วัดความสามารถในการสื่อสารไว้ดังนี้
1. ลักษณะของภาษาที่นำมาทดสอบควรเป็นภาษาที่ใช้ในสภาพความเป็นจริงที่ใช้ในการสื่อสาร คืออยู่ในระดับที่มีข้อความสมบูรณ์ในตัวเอง เป็นภาษาที่เจ้าของภาษาใช้ มีความเป็นธรรมชาติ สมเหตุสมผล อยู่ในบริบทและสอดคล้องกับวัตถุประสงค์ในการเรียนการสอนภาษาเพื่อการสื่อสาร
2. วัตถุประสงค์ในการวัด
ควรสอดคล้องกับวัตถุประสงค์ในการเรียนการสอนและตรงกับความต้องการของผู้เรียน เนื้อหาของข้อสอบอาจนำมาจากด้านการใช้ภาษาในชีวิต
ประจำวัน ในการศึกษาและในการประกอบอาชีพ ซึ่งรายละเอียดในแต่ละด้านขึ้นอยู่กับความต้องการของผู้เรียนแต่ละระดับ
และวัตถุประสงค์การเรียนภาษาเชิงปฏิบัติของแต่ละกลุ่มควรได้มาจากการสำรวจความต้องการของผู้เรียน
(needs survey)
3. การออกข้อสอบควรคำนึงถึงความสามารถและประสบการณ์ของผู้เรียนด้วย
และการตัดสินความสามารถของผู้เข้าสอบควรพิจารณาจากเกณฑ์ที่กำหนดว่าบรรลุวัตถุประสงค์ในเรื่องใด
เพราะฉะนั้นการตัดสินผลคะแนนแบบอิงกลุ่มจึงไม่เหมาะกับการทดสอบความสามารถในการสื่อสารควรจะใช้แบบอิงเกณฑ์
4. รูปแบบการสื่อสารมีได้หลายลักษณะ ทั้งแบบมีการโต้ตอบและไม่มีการโต้ตอบ ข้อสอบควรสอดคล้องกับรูปแบบของการสื่อสารด้วย
บางครั้งอาจให้ผู้เรียนเขียนตอบ บางครั้งต้องสังเกตจากพฤติกรรมในชั้นเรียน และบางครั้งอาจให้ผู้เรียนประเมินความสามารถของตนเอง
(self-assessment)
5. การสื่อสารไม่สามารถแยกองค์ประกอบของภาษาออกจากองค์ประกอบอื่น ๆ ได้ เพราะฉะนั้นการทดสอบความสามารถในการสื่อความหมายจริง ๆ จึงไม่ควรแยกการใช้ภาษาออกจากสถานการณ์ แต่ในกรณีที่จัดสอบไม่ได้ควรใช้สถานการณ์ที่ใกล้เคียงกับสภาพความเป็นจริงที่สุด ซึ่งอาจอยู่ในรูปของการจำลองสถานการณ์
6. องค์ประกอบของการใช้ภาษาประกอบด้วยความรู้เรื่องเสียง
ศัพท์ โครงสร้าง
การใช้ภาษาในสถานการณ์ และกลวิธีในการสื่อสาร การทดสอบควรวัดความสามารถในด้านเหล่านี้
แต่ไม่ควรแยกวัดแต่ละองค์ประกอบเพราะในการใช้ภาษาจริง ๆ ต้องใช้ทุกองค์ประกอบไปพร้อม
ๆ กัน ผู้ออกข้อสอบควรศึกษาว่าในแต่ละวัตถุประสงค์ของการใช้ภาษาเพื่อการสื่อสารองค์ประกอบใดมีบทบาทสำคัญมากกว่าที่ช่วยให้ประสบผลสำเร็จในการสื่อสาร
และอาจให้
น้ำหนักกับองค์ประกอบนั้น ๆ มากกว่าองค์ประกอบอื่น
7. ความสามารถในการสื่อสารเป็นพฤติกรรมที่ต่อเนื่อง
การทดสอบเป็นเพียงการวัดความสามารถในช่วงเวลาหนึ่ง และอาจมีองค์ประกอบอื่นที่ทำให้ขาดความเที่ยงตรง
และความเชื่อถือได้ในการวัด จึงควรมีการประเมินผลแบบต่อเนื่องซึ่งอาจต้องใช้วิธีการอื่นนอกเหนือจากการทดสอบมาพิจารณาประกอบ
นอกจากนี้ข้อมูลที่ได้ยังเป็นประโยชน์ในการปรับปรุงการเรียน
การสอนอีกด้วย
นอกจากนี้ Morrow (1979) ยังได้เสนอว่าแบบสอบที่เรียกว่า
แบบสอบพฤติกรรม
การเรียน (performance tests) เหมาะที่จะนำมาใช้ทดสอบความสามารถในการสื่อสารของผู้เรียน
เพราะจะเป็นการทดสอบว่าผู้เรียนสามารถใช้ภาษาในการทำอะไรได้บ้าง โดยให้ทำกิจกรรมประเภทต่าง
ๆ และสังเกตกลวิธีและทักษะการใช้ภาษาในการทำกิจกรรมเหล่านั้น ในด้านการประเมินพฤติกรรมการเรียนนั้น
Carroll (1977) ได้เสนอว่าจะต้องพิจารณาตามเกณฑ์ต่าง ๆ เช่น
ผู้เรียนสามารถใช้ภาษาได้มากน้อย ง่าย หรือซับซ้อนเพียงไร มีทักษะโครงสร้างหรือหน้าที่ทางภาษาใดบ้างที่ผู้เรียนใช้ได้
และเกณฑ์ควรครอบคลุมถึงความรวดเร็วในการใช้ภาษา ความถูกต้อง ความยืดหยุ่น ความเป็นอิสระ
และความลังเลในการใช้ภาษาอังกฤษของผู้เรียน ในการสร้าง
แบบทดสอบประเภทนี้ผู้สอนจำเป็นจะต้องระบุพฤติกรรม ทักษะและเนื้อหาที่จะทดสอบ และลักษณะของแบบสอบให้แน่ชัด
พร้อมทั้งเกณฑ์ในการประเมิน
4. การวิเคราะห์แบบทดสอบ
การวิเคราะห์ข้อสอบ (item analysis) เป็นการศึกษาข้อดีและข้อบกพร่องของข้อสอบว่าสามารถจำแนกความสามารถของผู้เข้าสอบได้มากน้อยเพียงใด
ข้อสอบที่มีอำนาจจำแนกสูงจะช่วยเพิ่มความเที่ยงของแบบสอบ Harris (1969) เสนอว่าในการวิเคราะห์ข้อสอบ
ผู้วิเคราะห์ควรศึกษาในเรื่องต่อไปนี้
1. ความยากง่ายของข้อสอบ
2. อำนาจจำแนกของข้อสอบ
3. ประสิทธิภาพของตัวลวง
4. บันทึกผลการวิเคราะห์ข้อสอบรายข้อ
1. ความยากง่ายของข้อสอบ
การหาค่าความยากง่ายของข้อสอบทำได้หลายวิธี วิธี
ที่ง่ายที่สุดคือ หาเปอร์เซนต์ของคนที่ทำถูก เช่น มีผู้ทำข้อสอบถูก 50 คน จากจำนวนผู้เข้าสอบ
100 คน ความยากง่ายของข้อสอบจะเท่ากับ 50% ข้อสอบที่มีค่าความยากง่ายอยู่ระหว่าง
.20-.39 ถือเป็นข้อสอบที่ค่อนข้างยากแต่พอใช้ได้เมื่อพิจารณาประกอบกับคุณลักษณะอื่น
ๆ ถ้าข้อสอบมีค่าความยากง่ายอยู่ระหว่าง .40-.60 เป็นข้อสอบที่มีค่าความยากง่ายกำลังดี
ถ้าข้อสอบมีค่าความ
ยากง่ายระหว่าง .61-.80 เป็นข้อสอบค่อนข้างง่ายแต่พอใช้ได้ ข้อสอบที่ยากเกินไปจะมีค่าความยากง่ายระหว่าง
.10-.19 ส่วนข้อสอบที่ง่ายเกินไปจะมีค่าความยากง่ายอยู่ระหว่าง .81-.90 (Harris,
1969) ผู้ออกข้อสอบสามารถใช้สูตรต่อไปนี้หาค่าความยากง่ายของข้อสอบ
RH + RL
P =
NH + NL
P = ค่าความยากง่ายของข้อสอบ
RH = จำนวนคนที่ตอบถูกในกลุ่มคะแนนสูง 27%
RL = จำนวนคนที่ตอบถูกในกลุ่มคะแนนต่ำ 27%
NH = จำนวนคนทั้งหมดในกลุ่มคะแนนสูง 27%
NL = จำนวนคนทั้งหมดในกลุ่มคะแนนต่ำ 27%
2. อำนาจจำแนกของข้อสอบ
ข้อสอบที่มีอำนาจจำแนกคือข้อสอบที่ผู้สอบในกลุ่มสูงทำถูกมากกว่าผู้สอบในกลุ่มต่ำ
ข้อสอบที่มีอำนาจจำแนกที่ดีควรได้ค่าจำแนกเกิน .32 ข้อสอบที่มีอำนาจจำแนกอยู่ระหว่าง
.20-.32 เป็นข้อสอบที่มีอำนาจจำแนกพอใช้ และข้อสอบที่มีอำนาจจำแนกต่ำกว่า .20 เป็นข้อสอบที่ควรปรับปรุง
ถ้าอำนาจจำแนกมีค่าเป็นลบข้อสอบนี้จะเป็น
ข้อสอบที่ไม่ดี เพราะเป็นข้อสอบที่ลวงผู้สอบในกลุ่มสูง คือคนเก่งทำไม่ได้ แต่คนไม่เก่งกลับ
ทำได้ ซึ่งผิดวัตถุประสงค์ของข้อสอบ (Harris, 1969)
การหาค่าอำนาจจำแนกของข้อสอบทำได้ดังนี้คือ
ขั้นที่ 1 เรียงคะแนนจากสูงมาต่ำ
ขั้นที่ 2 แยกกระดาษคำตอบออกเป็นกลุ่มเก่งและกลุ่มอ่อน
กลุ่มเก่งหมายถึง 27% ของผู้สอบทั้งหมดที่ได้คะแนนสูง
กลุ่มอ่อนหมายถึง 27% ของผู้สอบทั้งหมดที่ได้คะแนนต่ำ
ในกรณีที่มีผู้เข้าสอบน้อยกว่า 100 คน ให้ใช้กลุ่มละ 30%-40%
และถ้ามีผู้เข้าสอบน้อยกว่า 20 คน ให้ใช้ทั้งหมด
ขั้นที่ 3 เอาจำนวนคำตอบที่ถูกของกลุ่มผู้ได้คะแนนต่ำ ลบออกจากจำนวนคำตอบที่ถูกของกลุ่มผู้ได้คะแนนสูงเก่ง ในกรณีที่กลุ่มผู้ได้คะแนนต่ำตอบข้อนั้นถูกมากกว่ากลุ่มผู้ได้คะแนนสูงเก่ง ข้อนั้นจะมีค่าติดลบ
ขั้นที่ 4 เอาผลจากขั้นที่ 3 เป็นตัวตั้ง หารด้วยจำนวนคนทั้งหมดในแต่ละกลุ่ม ผลที่ได้จะเป็นค่าอำนาจจำแนกของข้อสอบดังแสดงในสูตรต่อไปนี้
Rh Rl
R = Nh + Nl
Bibliography
กาญจนา ปราบพาล. 2530. การทดสอบและการประเมินผลการเรียนการสอนภาษา สถาบัน-ภาษา จุฬาลงกรณ์มหาวิทยาลัย.
Burt, M.K. &
H.C. Dulay. 1983. Optimal, language learning environments. In J.W. Oller, Jr.
& P.A. Richard Amato (Eds.), Methods That Work. Rowley, Mass: Newbury
House Publishers, Inc.
Canale, M. & M. Swain. 1980. Theoretical bases of communicative approaches
to second language teaching and testing. Applied Linguistics, 1, 1-47.
Carroll, B.J. 1961. Fundamental considerations in testing for English language
proficiency of foreign students. In Testing the English proficiency of foreign
students. Washington, D.C.: Center for Applied Linguistics.
Carroll, B.J. 1980. Testing communicative performance. Oxford: Pergamon Press.
Corder, S.P. 1975. Introducing Applied Linguistics. Middlesex: Penguin Education.
Fan, C.T. 1952. Item Analysis Table. Princeton, N.J.: Educational Testing Service.
Harris, D. 1969. Testing English as a Second Language. New York: McGraw-Hill
Book Co.
Klein, Braley. 1987. Fossil at large: Translation as a language testing procedure.
In R. Grotjahn, C., Klein-Braley & D.K. Stevenson (Eds.). Taking Their Measure:
The Validity and Validation of Language Tests. Bochum: Studienverl. Brockmeyer.
Lado, R. 1961. Language Testing. London: Longman.
Lado, R. 1973. Lado English series. New York: Regents Pub., 1973.
Morrow, K. 1979. Communicative language testing: revolution or evolution? In
Brumfit, C.J. & K. Johnson (Eds.), The Communicative Approach to Language
Teaching. Oxford: Oxford University Press.
Oller, J.W., Jr. 1986. Making sense in teaching and testing. Paper presented
at the International Conference on Trends in Language Program Evaluation. Bangkok,
December. 9-11.
Savignon, S.J. 1983. Communicative Competence: Theory and Classroom Practice.
Reading, Mass.: Addison-Wesley Publishing Co.
Selinker, L. 1972. Interlanguage. IRAL. 10, 209-231.
Spolsky, B. 1978. What does it mean to know a language; or how do you get someone
to perform his competence? In J.W. Oller, Jr. & J.C. Richards (Eds.). Focus
on the Learner: Pragmatic Perspectives for the Language Teacher (5th ed.). Rowley:
Newbury House Publishers, Enc.
Tuckman, B.W. 1975. Measuring Educational Outcomes: Fundamentals of Testing.
New York: Harcourt Brace Jovanovich.
Upshur, J.A. 1975. Objective evaluation of oral proficiency in the ESOL Classroom.
In L. Palmer & B. Spolsky (Eds.), Papers on Language Testing. 1967-1974.
Washington, D.C.: Teachers of English to Speakers of Other Languages.
Valette, R.M. 1977. Modern Language Testing. (2nd ed.). New York: Harcourt Brace
Jovanovich, Inc.
Further Reading for Research in Language Testing
Alderson, Charles
et al. 1995. Language test construction and evaluation. Cambridge: Cambridge
University Press.
Anivan, Sarinee. (ed.) 1991. Current developments in language testing. Anthology
series 25. Singapore: SEAMEO Regional Language Centre.
Bachman Lyle F. et al. 1993. An investigation into the comparability of two
tests of English as a foreign language. Cambridge: Cambridge University Press.
Baker, David. 1989. Language testing: a critical survey and practical guide.
London: Edward Arnold.
Brindley, Geoff and Gillian Wigglesworth. (eds.) 1997. Access: issues in language
test, design and delivery. Sidney: National Centre for English Language Teaching
and Research, Macquarie University.
Browns, James Dean. 1988. Understanding research in a second language learning:
a teachers guide to statistics and research design. Cambridge: Cambridge University
Press.
Brown, James Dean. 1996. Testing in language programs. Upper Saddle River, New
Jersey: Prentice Hall Regents.
Chalhoub-Deville, Micheline. (ed.) 1999. Issues in computer-adaptive testing
of reading proficiency. Cambridge: Cambridge University Press.
Doughty, Catherine and Jessica Williams. (eds.) 1998. Focus on form in classroom
second language acquisition. Cambridge: Cambridge University Press.
Douglas, Dan and Carol Chapelle, (eds.) 1993. A new decade of language testing
research: selected papers from the 1990 language testing research colloquiam.
Alexandria, Virginia: Teachers of English to Speakers of Other Languages, Inc.
Green, Alison. 1998. Verbal protocal analysis in language testing research:
a handbook. Cambridge: Cambridge University Press.
Kunnan, Anthony John. 1995. Test taker characteristics and test performance:
a structural modeling approach. Cambridge: Cambridge University Press.
Oller, John W. (Jr) (ed). 1983. Issues in language testing research. Rowley,
Mass.: Newbury House Publishers, Inc.
Oller, John W. (Jr) and Kyle Perkins. 1978. Language education: testing the
tests. Rowley, Mass.: Newbury House Publishers, Inc.
Purpura, James E. 1999. Learner strategy use and performance on language tests:
a structural equation modeling approach. Cambridge: Cambridge University Press.
Weir, Cyril. 1993. Understanding and developing language tests. New York: Prentice
Hall.