ارزیابی یکی از مهمترین مراحل در فرآیند سنجش تواناییها و دانش افراد است. در سالهای اخیر، استفاده از روشهای پیشرفته آماری مانند نظریه پاسخ آیتم (IRT) به عنوان یک ابزار قدرتمند در تحلیل و بهبود کیفیت ارزیابیها مورد توجه قرار گرفته است. این نظریه با تمرکز بر رابطه بین پاسخهای افراد و ویژگیهای آیتمهای آزمون، امکان ارائه تحلیلی دقیقتر و عادلانهتر از عملکرد افراد را فراهم میکند. در این متن، به بررسی نقش و کاربرد IRT در مرحله ارزیابی میپردازیم.
نظریه پاسخ آیتم (IRT) یک چارچوب ریاضی و آماری پیشرفته است که برای تحلیل و تفسیر دادههای حاصل از آزمونها و پرسشنامهها استفاده میشود. برخلاف روشهای سنتی نمرهدهی که تنها بر تعداد پاسخهای صحیح تکیه میکنند، IRT بر رابطه بین پاسخهای افراد به آیتمها (سوالات) و ویژگیهای نهفتهای مانند توانایی افراد و دشواری سوالات تمرکز میکند. این نظریه با استفاده از مدلهای ریاضی، احتمال پاسخ صحیح به یک سؤال را بر اساس سطح توانایی فرد و ویژگیهای سؤال (مانند دشواری، تمایز و حدس) پیشبینی میکند.
مفاهیم کلیدی در IRT:
- توانایی (θ):
نشاندهنده سطح توانایی یا ویژگی نهفتهای است که آزمون قصد سنجش آن را دارد (مانند دانش، مهارت یا نگرش). این مقدار معمولاً به صورت یک متغیر پیوسته در نظر گرفته میشود. - دشواری آیتم (b):
نشاندهنده سطح دشواری یک سؤال است. هرچه مقدار دشواری بالاتر باشد، فرد با توانایی بیشتری باید باشد تا بتواند به آن سؤال پاسخ صحیح بدهد. - تمایز آیتم (a):
نشاندهنده میزان توانایی سؤال در تفکیک افراد با سطوح توانایی مختلف است. سوالاتی با تمایز بالا، بهتر میتوانند بین افراد قوی و ضعیف تمایز قائل شوند. - حدس (c):
در برخی مدلها، این پارامتر نشاندهنده احتمال پاسخ صحیح برای فردی با توانایی بسیار پایین است (مثلاً زمانی که فرد به طور تصادفی پاسخ صحیح را انتخاب میکند).

تفسیر نمودار:
- شکل کلی منحنی:
منحنی ICC یک منحنی سیگموئید (S-shaped) است که از چپ به راست افزایش مییابد. این منحنی نشان میدهد که با افزایش توانایی فرد (θ)، احتمال پاسخ صحیح به سؤال (Pi(θ)) نیز افزایش مییابد. - محور افقی (θ):
محور افقی نشاندهنده سطح توانایی افراد است. مقادیر منفی نشاندهنده توانایی پایینتر و مقادیر مثبت نشاندهنده توانایی بالاتر هستند. - محور عمودی (Pi (θ)):
محور عمودی نشاندهنده احتمال پاسخ صحیح به سؤال است. این احتمال بین ۰ (عدم احتمال پاسخ صحیح) تا ۱ (پاسخ قطعی صحیح) تغییر میکند.
مدلهای رایج در IRT:
- مدل لوجیستیک یکپارامتری (Rasch Model):
مدل لوجیستیک یکپارامتری، که به نام مدل راش (Rasch Model) نیز شناخته میشود، یکی از سادهترین و پرکاربردترین مدلها در نظریه پاسخ آیتم (IRT) است. این مدل توسط گئورگ راش، ریاضیدان و روانسنج دانمارکی، توسعه داده شد و به دلیل سادگی و قابلیت تفسیرپذیری بالا، به طور گسترده در حوزههای آموزشی و روانسنجی مورد استفاده قرار میگیرد.
ویژگی های اصلی مدل راش
- تنها یک پارامتر برای آیتمها:
در این مدل، تنها پارامتر دشواری آیتم (b) در نظر گرفته میشود. این پارامتر نشاندهنده سطح دشواری هر سوال است، یعنی میزان توانایی مورد نیاز برای پاسخ صحیح به آن سؤال. - فرض تمایز یکسان برای همه سوالات:
مدل راش فرض میکند که همه سوالات قدرت تمایز یکسانی دارند. به عبارت دیگر، همه سوالات به یک اندازه میتوانند بین افراد با سطوح توانایی مختلف تمایز قائل شوند. این فرضیه سادگی مدل را افزایش میدهد، اما ممکن است در برخی موارد با واقعیت تطابق کامل نداشته باشد. - پارامتر توانایی افراد (θ):
علاوه بر پارامتر دشواری آیتمها، مدل راش سطح توانایی هر فرد (θ) را نیز برآورد میکند. این پارامتر نشاندهنده میزان توانایی یا ویژگی نهفتهای است که آزمون قصد سنجش آن را دارد.

در این فرمول:
- Pi (θ): احتمال پاسخ صحیح فرد با توانایی θ به سؤال i.
- θ: توانایی فرد (ویژگی نهفتهای که آزمون قصد سنجش آن را دارد).
- bi: پارامتر دشواری سؤال i (نشاندهنده سطح دشواری سؤال).
- D: یک ثابت مقیاسدهی (معمولاً برابر با ۱٫۷۰۱) که برای نزدیکتر کردن منحنی به تابع نرمال استفاده میشود.
- e: پایه لگاریتم طبیعی (تقریباً برابر با ۲٫۷۱۸).
- مدل لوجیستیک دوپارامتری:
مدل لوجیستیک دوپارامتری یکی از مدلهای پرکاربرد در نظریه پاسخ آیتم (IRT) است که نسبت به مدل راش (یکپارامتری) پیچیدهتر و انعطافپذیرتر است. این مدل علاوه بر پارامتر دشواری (b)، پارامتر تمایز (a) را نیز در نظر میگیرد. پارامتر تمایز نشاندهنده توانایی سوال در تفکیک افراد با سطوح توانایی مختلف است. به عبارت دیگر، سوالاتی با تمایز بالاتر، بهتر میتوانند بین افراد قوی و ضعیف تمایز قائل شوند.
ویژگی های اصلی مدل دو پارامتری:
۱. دو پارامتر برای سوالات:
در این مدل، علاوه بر پارامتر دشواری (b)، پارامتر تمایز (a) نیز برای هر سؤال در نظر گرفته میشود. پارامتر دشواری (b) نشان میدهد که سؤال چقدر سخت است، در حالی که پارامتر تمایز (a) نشان میدهد که سؤال چقدر خوب میتواند بین افراد با سطوح توانایی مختلف تفاوت قائل شود.
۲. تمایز متفاوت برای سوالات:
برخلاف مدل راش، مدل 2PL فرض نمیکند که همه سوالات قدرت تمایز یکسانی دارند. هر سؤال میتواند قدرت تمایز متفاوتی داشته باشد. این ویژگی باعث میشود مدل 2PL انعطافپذیرتر باشد و بتواند سوالاتی با ویژگیهای مختلف را بهتر مدلسازی کند.
۳. پارامتر توانایی افراد (θ):
مانند مدل راش، مدل 2PL نیز توانایی هر فرد (θ) را برآورد میکند. این پارامتر نشاندهنده سطح توانایی یا ویژگی نهفتهای است که آزمون قصد اندازهگیری آن را دارد.

در این فرمول همانند فرمول بالایی میتوان پارامتر ها را معین کرد؛ فقط پارامتر ai اضافه شده که به معنی تمایزی است که سؤال i میتواند ایجاد کند.
- مدل لوجیستیک سهپارامتری:
مدل لوجیستیک سهپارامتری (3PL) یکی از پیشرفتهترین مدلها در نظریه پاسخ آیتم (IRT) است که نسبت به مدلهای یکپارامتری (راش) و دوپارامتری (2PL) پیچیدهتر و جامعتر است. این مدل سه پارامتر اصلی را برای هر سؤال در نظر میگیرد: پارامتر دشواری (b)، پارامتر تمایز (a) و پارامتر حدس (c).
ویژگی های اصلی مدل سه پارامتری:
پارامتر دشواری (bi):
نشاندهنده سطح دشواری سؤال i است. هرچه مقدار bi بزرگتر باشد، سؤال سختتر است و فرد با توانایی بیشتری باید باشد تا بتواند به آن سؤال پاسخ صحیح بدهد.
پارامتر تمایز (ai):
نشاندهنده توانایی سؤال در تفکیک افراد با سطوح توانایی مختلف است. سوالاتی با ai بالاتر، شیب تندتری در منحنی ویژگی آیتم (ICC) دارند و بهتر میتوانند بین افراد قوی و ضعیف تمایز قائل شوند.
پارامتر حدس (ci):
نشاندهنده احتمال پاسخ صحیح برای فردی با توانایی بسیار پایین است (مثلاً زمانی که فرد به طور تصادفی پاسخ صحیح را انتخاب میکند). این پارامتر معمولاً برای سوالات چندگزینهای استفاده میشود.

این فرمول همانند فرمول بالایی (دو پارامتر) میتوان پارامتر ها را معین کرد؛ فقط پارامتر ci اضافه شده که به معنی این است که سؤال i با چه احتمالی میتواند به صورت حدسی پاسخ داده شود. بیشتر در سوالات چندگزینهای یا پاسخکوتاه استفاده میشود.
در ادامه به بررسی نحوه تغییر تتا (θ) میپردازیم.
در نظریه پاسخ به آیتم (Item Response Theory – IRT)، توانایی هر فرد (که با θ نشان داده میشود) بر اساس پاسخهای او به آیتمهای آزمون تخمین زده میشود. برای بهروزرسانی θ (یعنی تخمین توانایی فرد)، از روش تخمین حداکثر درستنمایی (Maximum Likelihood Estimation – MLE) استفاده میشود. در ادامه مراحل این فرآیند را توضیح میدهیم:
۱. فرضیههای اساسی در IRT
قبل از اینکه بتوان از IRT برای تفسیر نتایج آزمون استفاده کرد، دو فرضیه اساسی باید برقرار باشند:
- یکبعدی بودن (Unidimensionality): این فرضیه بیان میکند که تنها یک عامل (معمولاً توانایی آزموندهنده) بر عملکرد آزمون تأثیر میگذارد. به عبارت دیگر، تمام آیتمهای آزمون باید یک سازه واحد را اندازهگیری کنند.
- استقلال موضعی (Local Independence): این فرضیه بیان میکند که پاسخهای آزموندهنده به آیتمهای مختلف مستقل از یکدیگر هستند، به شرطی که توانایی آزموندهنده (θ) ثابت باشد. این فرضیه به ما اجازه میدهد از روشهای تخمین مانند تخمین حداکثر درستنمایی (MLE) برای تخمین پارامترهای آیتمها و توانایی آزموندهنده استفاده کنیم.
۲. تابع درستنمایی (Likelihood Function)
تابع درستنمایی احتمال مشاهده پاسخهای آزموندهنده به آیتمهای آزمون را با توجه به توانایی θ و پارامترهای آیتمها محاسبه میکند. این تابع به صورت زیر تعریف میشود:

- ui): پاسخ آزموندهنده به آیتم (i) که اگر پاسخ صحیح باشد (ui = 1) و اگر پاسخ نادرست باشد (ui = 0).
- Q(θ) = 1 – P(θ)
برای بهروزرسانی θ، باید مقداری از θ را پیدا کنیم که تابع درستنمایی را به حداکثر برساند. بدین ترتیب θ برای هر آزمون دهنده در انتهای آزمون بهروزرسانی میشود.
در پایان این بررسی، میتوان نتیجهگیریهای زیر را درباره نقش و کاربرد نظریه پاسخ آیتم (IRT) در ارزیابی و سنجش تواناییها و دانش افراد به دست آورد:
۱. دقت و عدالت در ارزیابی: نظریه پاسخ آیتم بر پایه تحلیل دقیقتر روابط بین ویژگیهای آیتمها و تواناییهای افراد بنا شده است. این امکان را فراهم میکند که نتایج ارزیابیها به طور عادلانهتر و مطمئنتری تفسیر شوند، بهویژه در مقایسه با روشهای سنتی که تنها به شمارش پاسخهای صحیح متکی هستند.
۲. تحلیل عمیقتر از تواناییها: با توجه به مفاهیم کلیدی همچون توانایی (θ)، دشواری آیتم (b) و تمایز (a)، IRT به ما امکان میدهد تا تحلیلهای عمیقتری از تواناییهای آزموندهندگان به عمل آوریم و درک بهتری از چگونگی عملکرد هر فرد نسبت به سایرین به دست آوریم.
۳. انعطافپذیری مدلها: تنوع مدلهای IRT، از جمله مدلهای یک، دو و سه پارامتری، هر کدام با مزایا و قابلیتهای خاص خود، به متخصصان اجازه میدهد تا بهترین مدل را بر اساس ویژگیهای آزمون و نوع سوالات انتخاب کنند. این انعطافپذیری امکان بهبود مستمر ارزیابیها را فراهم میکند.
۴. بهبود طراحی آزمونها: با استفاده از IRT، طراحان آزمون میتوانند سوالات را به گونهای طراحی کنند که نه تنها به بهترین شکل تواناییهای آزموندهندگان را اندازهگیری کنند، بلکه در عین حال ویژگیهای تمایز را نیز مد نظر داشته باشند. این مسئله باعث میشود که آزمونها نه تنها معتبر و دقیق باشند، بلکه جذاب و چالشبرانگیز نیز طراحی شوند.
در مجموع، نظریه پاسخ آیتم (IRT) یک ابزار تحلیلی کارآمد و ضروری در حوزه ارزیابی است که میتواند به دقت و عدالت فرآیند سنجش تواناییها و دانش افراد کمک شایانی کند.