PHẦN MỀM VI-TESTANA VÀ VIỆC PHÂN TÍCH KẾT QUẢ TRẮC NGHIỆM KHÁCH QUAN

GS.TSKH. Lâm Quang Thiệp,
KS. Lâm Ngọc Minh, KS. Lê Mạnh Tấn, KS.Vũ Đình Bổng

 

Bài viết giới thiệu phần mềm VI-TESTANA, một phần mềm đầu tiên của nước ta được xây dựng trên cơ sở lý thuyết trắc nghiệm hiện đại, tạo cơ hội để áp dụng đúng đắn phương pháp trắc nghiệm khách quan nhằm đo lường và đánh giá kết quả học tập trong các trường học.   

          1. Trong mấy năm qua, khi trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệp phổ thông và tuyển sinh đại học, sự quan tâm của các trường học, các cơ sở quản lý giáo dục và đội ngũ giáo chức về phương pháp này ngày một tăng lên. Tuy nhiên số người nghiên cứu sâu và áp dụng phương pháp này ở nước ta còn ít, và khi có nhu cầu phân tích số liệu trắc nghiệm các chuyên gia trắc nghiệm thường sử dụng phần mềm của nước ngoài. Phần mềm phân tích số liệu trắc nghiệm theo Lý thuyết ng đáp Câu hỏi (Item Response Theory – IRT) đầu tiên được nhập vào nước ta khoảng vào năm 1993 là phần mềm QUEST của Hội đồng Nghiên cứu Giáo dục Úc (ACER) xây dựng theo mô hình Rasch (1 tham số). Phần mềm BILOG-MG3, xây dựng cho cả các mô hình IRT 1, 2, 3 tham số cũng đã được nhập và sử dụng từ 3 năm nay, chính nó được tác giả bài viết này dùng để phân tích số liệu trắc nghiệm trong quá trình xây dựng hơn 30.000 câu hỏi trắc nghiệm (CHTN) cho các trường Cao đẳng Sư phạm, cũng như phân tích số liệu thử nghiệm để thiết kế các đề trắc nghiệm (ĐTN) Toán và Tiếng Việt cho Dự án Tiểu học nhằm khảo sát khoảng 60.000 học sinh lớp 5 trong cả nước.

          2. Lĩnh vực khoa học về Đo lường trong giáo dục (Educational Measurement) ở nước ta hình thành muộn và phát triển rất chậm, mặc dù nhiều người, trong đó có tác giả của bài viết này, đã có nhiều cố gắng trong suốt 15 năm qua để góp phần thúc đẩy nó. Trên thế giới, khoa học này bắt đầu phát triển từ khoảng đầu thế kỷ 20 và cho đến thập niên 1970 thì hoàn thiện trong khuôn khổ lý thuyết trắc nghiệm cổ điển. Từ sau thập niên 1970 đến nay một lý thuyết trắc nghiệm hiện đại, dựa trên IRT, ra đời và phát triển rất nhanh nhờ khả năng tính toán bằng máy tính điện tử. IRT được xây dựng dựa trên việc nghiên cứu mọi cặp tương tác nguyên tố “thí sinh – câu hỏi” (TS-CH) khi triển khai một TNKQ. Mỗi TS đứng trước một CH sẽ ứng đáp như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của TS và các đặc trưng của CH. Hành vi ứng đáp này được mô tả bằng một hàm đặc trưng CH (Item Response Function) cho biết xác suất trả lời đúng CH tùy theo tương quan giữa năng lực TS và các tham số đặc trưng cho CH. Hiện nay có 3 mô hình toán phổ biến nhất trong IRT: mô hình 1 tham số (mô hình Rasch) chỉ xét đến độ khó của CH, mô hình 2 tham số có xét đến độ phân biệt của CH, và mô hình 3 tham số xét thêm mức độ đoán mò của TS khi trả lời CH. (1)

          So với lý thuyết trắc nghiệm cổ điển, lý thuyết trắc nghiệm hiện đại với IRT có nhiều ưu việt quan trọng. Trong lý thuyết trắc nghiệm cổ điển độ khó, độ phân biệt của các CH tính được phụ thuộc vào mẫu thí sinh được chọn để thử nghiệm, và năng lực xác định được của TS phụ thuộc vào đề trắc nghiệm (ĐTN) cụ thể mà TS làm. Với IRT, thành tựu kỳ diệu nhất mà các mô hình toán mang lại là các tham số đặc trưng của CH (liên quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định cỡ CH (sample-free), và năng lực đo được của TS không phụ thuộc vào một ĐTN cụ thể (item-free), tức là phải như nhau cho dù đo bằng bất kỳ ĐTN nào được lấy từ ngân hàng câu hỏi (NHCH) đã được cùng định cỡ. Như vậy, theo IRT, mỗi CH có các thuộc tính đặc trưng cho nó, và mỗi TS ở một trình độ nào đó có một năng lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép đo, hoặc nói cách khác, chúng là các bất biến (invariance). Cũng tương tự như trong phép đo độ dài: mỗi cái thước dùng để đo có kích thước xác định, mỗi vật được đo có chiều dài xác định, phép đo là sự so sánh cái thước với vật được đo để biết chiều dài vốn có của vật được đo, các phép đo khác nhau không được làm thay đổi các thuộc tính vốn có của cái thước cũng như độ dài của vật được đo.

          Từ các hàm đặc trưng CH xác định được theo IRT có thể tính hàm thông tin của CHTN, và từ hàm đặc trưng và hàm thông tin của từng CH có thể tính được hàm đặc trưng của ĐTN (đường cong điểm thực) và hàm thông tin của ĐTN. Sai số chuẩn của phép đo là đại lượng tỷ lệ với nghịch đảo của căn số hàm thông tin trong IRT sẽ tùy thuộc các mức năng lực tiềm ẩn chứ không phải được xác định bởi một đại lượng trung bình chung cho cả phép đo như trong lý thuyết trắc nghiệm cổ điển. Đặc điểm đó giúp thiết kế một ĐTN cho phép đo chính xác khoảng năng lực nào mà người thiết kế mong muốn. Một hệ quả đặc biệt quan trọng của IRT là nó cho phép thiết kế các ĐTN với mức độ tương đương rất cao để đảm bảo sao cho các ĐTN khác nhau có thể cho cùng một kết quả như nhau khi đo năng lực của một TS nào đó.

          Các thành tựu quan trọng trên của IRT đã nâng độ chính xác của phép đo lường trong tâm lý và giáo dục lên một tầm cao mới về chất so với các lý thuyết trắc nghiệm cổ điển. Từ thành tựu tổng quát đó của IRT người ta có thể đưa ra các quy trình để xây dựng NHCH (item banking), phân tích các kết quả TNKQ để tu chỉnh các CHTN, chủ động thiết kế các ĐTN theo các mục tiêu mong muốn: chẳng hạn, trắc nghiệm để tuyển chọn theo nhiều mức năng lực hay trắc nghiệm để xác định một ngưỡng năng lực nào đó cần vượt qua xem như đạt yêu cầu giáo dục.

          3. Trong quá trình triển khai áp dụng IRT vào các công việc cụ thể, đặc biệt khi xây dựng các ngân hàng gồm hơn 30.000 CHTN, dưới sự chỉ đạo khoa học của GS. Lâm Quang Thiệp, một nhóm chuyên gia phần mềm của Công ty CP Khoa học và Công nghệ Giáo dục Việt Nam (EDTECH-VN) (*)có tên nêu ở đầu bài báo này đã xây dựng thành công phần mềm VI-TESTANA để phân tích CHTN và thiết kế ĐTN theo IRT. Sau đây là các đặc điểm và tính năng chính của phần mềm VI-TESTANA.

          Bài toán trung tâm của việc phân tích số liệu trắc nghiệm theo IRT là bài toán định cỡ (calibration), tức là ước lượng các tham số của CH và năng lực của TS. Thuật giải ước lượng biến cố hợp lý cực đại liên kết (joint maximum likelyhood estimation)(2) đã được áp dụng cho bài toán nói trên khi xây dựng VI-TESTANA. Ước lượng được triển khai theo mô hình đường cong đặc trưng câu hỏi 1, 2 hoặc 3 tham số. Trong tiến trình ước lượng, các tham số của CHTN theo lý thuyết trắc nghiệm cổ điển cũng được tính toán, chẳng hạn độ khó, độ phân biệt (tương quan điểm nhị phân) của CHTN. Dựa vào các tham số CHTN ước lượng được, các đường cong đặc trưng và hàm thông tin của từng CHTN và của toàn bộ ĐTN được tính toán và kết xuất dưới dạng đồ thị. Từ giá trị năng lực của TS ước lượng được, phần mềm cũng thực hiện phép biến đổi thông qua đường cong điểm thực của ĐTN nhằm thu được điểm số của từng TS theo một thang điểm mong muốn nào đó (trên 10, trên 20, trên 100 v..v…). Để dễ dàng phát hiện các CHTN có vấn đề nhằm lựa chọn hoặc loại bỏ các CHTN không thích hợp trong quá trình thiết kế ĐTN, phần mềm cho hiển thị các CHTN có độ phân biệt (cổ điển) âm, có các giá trị độ khó quá lớn hoặc quá nhỏ. Phần mềm cũng cho phép đánh giá tương quan giữa ĐTN và mẫu TS thử nghiệm qua việc hiển thị biểu đồ so sánh phân bố độ khó của các CH trong ĐTN với phân bố năng lực của TS trong mẫu thử nghiệm. Nhằm hỗ trợ cho các nhà giáo sử dụng phần mềm để phân tích kết quả làm trắc nghiệm của từng TS, phần mềm còn cung cấp sơ đồ bài làm của từng TS: kết quả trả lời từng CH khó, dễ… Nói chung các tiện ích mà phần mềm tạo ra làm cho phần mềm rất dễ dùng, hết sức thân thiện với người sử dụng.

          4. Để minh họa về các tính năng của VI-TESTANA, sau đây chúng tôi sẽ dùng phần mềm phân tích kết quả trắc nghiệm thử nhằm thiết kế một ĐTN tiêu chuẩn hóa đánh giá môn tiếng Việt của học sinh lớp 5 trong cả nước (Dự án Giáo dục Tiểu học). ĐTN gồm 40 CH, được Viện Chiến lược và Chương trình Giáo dục thiết kế và thử nghiệm vào tháng 4 năm 2007 trên các mẫu đại diện của học sinh lớp 5 ở 4 tỉnh (Hải Phòng, Hà Giang, Bình Định, Hậu Giang), bao gồm 535 học sinh.

Hình 1. Đường cong điểm thực ước lượng và số liệu thực nghiệm

 

           ĐTN thử được phân tích theo mô hình 2 tham số. Trước hết, để hình dung mức độ phù hợp giữa mô hình IRT và số liệu thực nghiệm, có thể xem trên H.1 đồ thị biểu diễn đường cong điểm thực và số liệu thực nghiệm. Phần mềm cho hiển thị toàn bộ đường cong đặc trưng và hàm thông tin của mọi CHTN, nhưng ở đây chỉ xin nêu minh họa về CH số 5. Phần mềm có tô màu để chỉ rõ các CH có vấn đề trong ĐTN, chẳng hạn CH 33 và 35 có độ phân biệt cổ điển âm. Dựa vào chỉ định, có thể xem lại các đường cong đặc trưng của các CH đó (xem H.3): các đường cong cho thấy giá trị độ khó của hai CH nói trên rất lớn và thông tin mà chúng cung cấp trong dải năng lực cần xét xem như bằng không. Các CH này sau đó tất nhiên đã được loại khỏi ĐTN chính thức. Phần mềm cũng cung cấp đồ thị hàm thông tin của ĐTN như biểu diễn ở H.4: đồ thị cho thấy ĐTN cung cấp thông tin về năng lực của TS trong một dải tương đối rộng, tuy nhiên nó sẽ đo chính xác nhất ở một khoảng năng lực dưới trung bình. Các thông tin về năng lực của từng TS được trình bày ở Bảng 2, trong đó đối với từng TS có nêu số CH làm đúng trên tổng số CH thực hiện, kết quả ước lượng năng lực θ của TS với sai số chuẩn ước lượng, và điểm thực của TS được cho theo thang điểm 10. Từ Bảng 2 có thể nêu một nhận xét lý thú: có những TS đạt điểm thô như nhau (tức số CH trả lời đúng bằng nhau) nhưng lại có điểm thực khác nhau (ví dụ cặp TS số 7 và 8 hoặc số 11 và 12). Lý do là vì mỗi CH mà các TS đó làm được cùng cung cấp 1 điểm thô nhưng chúng lại có tham số độ phân biệt khác nhau nên đóng góp vào kết quả ước lượng năng lực khác nhau. Sự khác nhau này sẽ không xảy ra đối với mô hình một tham số vì tham số độ phân biệt của mọi câu hỏi trong mô hình này là như nhau. Dù sao điều nhận xét trên cũng cho thấy: điểm thô không đánh giá chính xác năng lực của TS. Một biểu đồ nữa được dẫn ra ở H.5 mô tả tương quan giữa ĐTN và mẫu TS thử nghiệm: nửa mặt phẳng trên cho thấy phân bố các CHTN trong ĐTN từ dễ đến khó, nửa mặt phẳng dưới  cho thấy phân bố năng lực của TS từ thấp đến cao (theo chiều từ phải sang trái), giá trị trung bình của năng lực TS thấp hơn giá trị trung bình của độ khó CH (được đặt bằng không) một lượng không đáng kể, chỉ bằng -0,101. Như vậy ĐTN là tương đối vừa sức đối với mẫu thử nghiệm.

Hình 2.Ví dụ về các đường cong đặc trưng và hàm hông tin của câu hỏi số 5

 

 Bảng 1. Các số liệu thống kê theo lý thuyết trắc nghiệm cổ điển của từng câu hỏi.

 

 

 Hình 3. Các đường cong đặc trưng và hàm thông tin của CH 33 và 35.

 

Hình 4. Hàm thông tin của đề trắc nghiệm

 

STT

SBDNăng lựcSai số chuẩnĐúng/TổngĐiểm quy đổi

1

1030103201 0.646780.4086730/407.20

2

1030103203 2.256280.5649338/408.65

3

1030103205 0.038590.3674627/386.12

4

1030103207 0.083510.3698025/396.21

5

1030103209 1.694690.5070633/408.31

6

1030103212-0.482290.3510520/404.93

7

1030103214 1.741580.5118434/408.34
81030103216 1.934570.5316734/40

8.47

91030103218 0.568090.4023632/40

7.08

101030103220 0.594240.4044330/40

7.12

111030103222 1.012610.4405431/40

7.68

12

1030103224 1.148300.4531931/407.83
131030103226 0.717200.4145129/40

7.30

141030103228 0.389330.3889730/39

6.79

151030103230 0.744210.4167929/40

7.34

 Bảng 2: Thông tin về năng lực của từng TS

 

 

 Hình 5. Tương quan giữa ĐTN và mẫu TS thử nghiệm

 

Các minh họa qua việc phân tích định cỡ một ĐTN triển khai trên một mẫu thử nghiệm chứng tỏ phần mềm VI-TESTANA có thể được sử dụng rất tiện lợi và có hiệu quả trong việc phân tích số liệu trắc nghiệm, thiết kế ĐTN và đánh giá TS theo lý thuyết trắc nghiệm hiện đại.

Cuối cùng, tác giả xin gửi lời cám ơn đến TS. Đặng Huỳnh Mai, Thứ trưởng Bộ GD&ĐT và Viện Chiến lược và Chương trình Giáo dục đã tạo điều kiện cho tác giả tham gia phân tích số liệu thử nghiệm ĐTN cho Dự án Tiểu học, nhờ đó tác giả đã có thể đưa ra những minh họa thực tế lý thú.

Hà Nội, 27/09/2007

_________________

 

TÀI LIỆU DẪN

(1) Educational Measurement. Forth Edition. Edited by Robert L. Brennan. ACE&PP, 2006.

(2) Frank B. Baker & Seock-Ho Kim. Item Response Theory- Parameter Estimation Techniques, Marcel Dekker, 2004.

 (*) Địa chỉ liên lạc: Số 7 ngách 9/55 Huỳnh Thúc Kháng – P.Láng Hạ-Đống Đa – Hà Nội;  ĐT: 024.35145566, E-mail: ihevn.edu@gmail.com