استفاده از Item Response Theory در گام ارزیابی

محمدجواد امیرزاده
استفاده از Item Response Theory در گام ارزیابی

ارزیابی یکی از مهم‌ترین مراحل در فرآیند سنجش توانایی‌ها و دانش افراد است. در سال‌های اخیر، استفاده از روش‌های پیشرفته آماری مانند نظریه پاسخ آیتم (IRT) به عنوان یک ابزار قدرتمند در تحلیل و بهبود کیفیت ارزیابی‌ها مورد توجه قرار گرفته است. این نظریه با تمرکز بر رابطه بین پاسخ‌های افراد و ویژگی‌های آیتم‌های آزمون، امکان ارائه تحلیلی دقیق‌تر و عادلانه‌تر از عملکرد افراد را فراهم می‌کند. در این متن، به بررسی نقش و کاربرد IRT در مرحله ارزیابی می‌پردازیم.

نظریه پاسخ آیتم (IRT) یک چارچوب ریاضی و آماری پیشرفته است که برای تحلیل و تفسیر داده‌های حاصل از آزمون‌ها و پرسشنامه‌ها استفاده می‌شود. برخلاف روش‌های سنتی نمره‌دهی که تنها بر تعداد پاسخ‌های صحیح تکیه می‌کنند، IRT بر رابطه بین پاسخ‌های افراد به آیتم‌ها (سوالات) و ویژگی‌های نهفته‌ای مانند توانایی افراد و دشواری سوالات تمرکز می‌کند. این نظریه با استفاده از مدل‌های ریاضی، احتمال پاسخ صحیح به یک سؤال را بر اساس سطح توانایی فرد و ویژگی‌های سؤال (مانند دشواری، تمایز و حدس) پیش‌بینی می‌کند.

مفاهیم کلیدی در IRT:

  • توانایی (θ):
    نشان‌دهنده سطح توانایی یا ویژگی نهفته‌ای است که آزمون قصد سنجش آن را دارد (مانند دانش، مهارت یا نگرش). این مقدار معمولاً به صورت یک متغیر پیوسته در نظر گرفته می‌شود.
  • دشواری آیتم (b):
    نشان‌دهنده سطح دشواری یک سؤال است. هرچه مقدار دشواری بالاتر باشد، فرد با توانایی بیشتری باید باشد تا بتواند به آن سؤال پاسخ صحیح بدهد.
  • تمایز آیتم (a):
    نشان‌دهنده میزان توانایی سؤال در تفکیک افراد با سطوح توانایی مختلف است. سوالاتی با تمایز بالا، بهتر می‌توانند بین افراد قوی و ضعیف تمایز قائل شوند.
  • حدس (c):
    در برخی مدل‌ها، این پارامتر نشان‌دهنده احتمال پاسخ صحیح برای فردی با توانایی بسیار پایین است (مثلاً زمانی که فرد به طور تصادفی پاسخ صحیح را انتخاب می‌کند).

تفسیر نمودار:

  1. شکل کلی منحنی:
    منحنی ICC یک منحنی سیگموئید (S-shaped) است که از چپ به راست افزایش می‌یابد. این منحنی نشان می‌دهد که با افزایش توانایی فرد (θ)، احتمال پاسخ صحیح به سؤال (Pi​(θ)) نیز افزایش می‌یابد.
  2. محور افقی (θ):
    محور افقی نشان‌دهنده سطح توانایی افراد است. مقادیر منفی نشان‌دهنده توانایی پایین‌تر و مقادیر مثبت نشان‌دهنده توانایی بالاتر هستند.
  3. محور عمودی (Pi​ (θ)):
    محور عمودی نشان‌دهنده احتمال پاسخ صحیح به سؤال است. این احتمال بین ۰ (عدم احتمال پاسخ صحیح) تا ۱ (پاسخ قطعی صحیح) تغییر می‌کند.

مدل‌های رایج در IRT:

  • مدل لوجیستیک یک‌پارامتری (Rasch Model):
    مدل لوجیستیک یک‌پارامتری، که به نام مدل راش (Rasch Model) نیز شناخته می‌شود، یکی از ساده‌ترین و پرکاربردترین مدل‌ها در نظریه پاسخ آیتم (IRT) است. این مدل توسط گئورگ راش، ریاضیدان و روان‌سنج دانمارکی، توسعه داده شد و به دلیل سادگی و قابلیت تفسیرپذیری بالا، به طور گسترده در حوزه‌های آموزشی و روان‌سنجی مورد استفاده قرار می‌گیرد.

ویژگی های اصلی مدل راش

  • تنها یک پارامتر برای آیتم‌ها:
    در این مدل، تنها پارامتر دشواری آیتم (b) در نظر گرفته می‌شود. این پارامتر نشان‌دهنده سطح دشواری هر سوال است، یعنی میزان توانایی مورد نیاز برای پاسخ صحیح به آن سؤال.
  • فرض تمایز یکسان برای همه سوالات:
    مدل راش فرض می‌کند که همه سوالات قدرت تمایز یکسانی دارند. به عبارت دیگر، همه سوالات به یک اندازه می‌توانند بین افراد با سطوح توانایی مختلف تمایز قائل شوند. این فرضیه سادگی مدل را افزایش می‌دهد، اما ممکن است در برخی موارد با واقعیت تطابق کامل نداشته باشد.
  • پارامتر توانایی افراد (θ):
    علاوه بر پارامتر دشواری آیتم‌ها، مدل راش سطح توانایی هر فرد (θ) را نیز برآورد می‌کند. این پارامتر نشان‌دهنده میزان توانایی یا ویژگی نهفته‌ای است که آزمون قصد سنجش آن را دارد.

در این فرمول:

  • Pi​ (θ): احتمال پاسخ صحیح فرد با توانایی θ به سؤال i.
  • θ: توانایی فرد (ویژگی نهفته‌ای که آزمون قصد سنجش آن را دارد).
  • bi​: پارامتر دشواری سؤال i (نشان‌دهنده سطح دشواری سؤال).
  • D: یک ثابت مقیاس‌دهی (معمولاً برابر با ۱٫۷۰۱) که برای نزدیک‌تر کردن منحنی به تابع نرمال استفاده می‌شود.
  • e: پایه لگاریتم طبیعی (تقریباً برابر با ۲٫۷۱۸).
  • مدل لوجیستیک دو‌پارامتری:
    مدل لوجیستیک دو‌پارامتری یکی از مدل‌های پرکاربرد در نظریه پاسخ آیتم (IRT) است که نسبت به مدل راش (یک‌پارامتری) پیچیده‌تر و انعطاف‌پذیرتر است. این مدل علاوه بر پارامتر دشواری (b)، پارامتر تمایز (a) را نیز در نظر می‌گیرد. پارامتر تمایز نشان‌دهنده توانایی سوال در تفکیک افراد با سطوح توانایی مختلف است. به عبارت دیگر، سوالاتی با تمایز بالاتر، بهتر می‌توانند بین افراد قوی و ضعیف تمایز قائل شوند.

ویژگی های اصلی مدل دو پارامتری:

۱. دو پارامتر برای سوالات:
در این مدل، علاوه بر پارامتر دشواری (b)، پارامتر تمایز (a) نیز برای هر سؤال در نظر گرفته می‌شود. پارامتر دشواری (b) نشان می‌دهد که سؤال چقدر سخت است، در حالی که پارامتر تمایز (a) نشان می‌دهد که سؤال چقدر خوب می‌تواند بین افراد با سطوح توانایی مختلف تفاوت قائل شود.

۲. تمایز متفاوت برای سوالات:
برخلاف مدل راش، مدل 2PL فرض نمی‌کند که همه سوالات قدرت تمایز یکسانی دارند. هر سؤال می‌تواند قدرت تمایز متفاوتی داشته باشد. این ویژگی باعث می‌شود مدل 2PL انعطاف‌پذیرتر باشد و بتواند سوالاتی با ویژگی‌های مختلف را بهتر مدل‌سازی کند.

۳. پارامتر توانایی افراد (θ):
مانند مدل راش، مدل 2PL نیز توانایی هر فرد (θ) را برآورد می‌کند. این پارامتر نشان‌دهنده سطح توانایی یا ویژگی نهفته‌ای است که آزمون قصد اندازه‌گیری آن را دارد.

در این فرمول همانند فرمول بالایی می‌توان پارامتر ها را معین کرد؛ فقط پارامتر ai اضافه شده که به معنی تمایزی است که سؤال i می‌تواند ایجاد کند.

  • مدل لوجیستیک سه‌پارامتری:
    مدل لوجیستیک سه‌پارامتری (3PL) یکی از پیشرفته‌ترین مدل‌ها در نظریه پاسخ آیتم (IRT) است که نسبت به مدل‌های یک‌پارامتری (راش) و دو‌پارامتری (2PL) پیچیده‌تر و جامع‌تر است. این مدل سه پارامتر اصلی را برای هر سؤال در نظر می‌گیرد: پارامتر دشواری (b)، پارامتر تمایز (a) و پارامتر حدس (c).

ویژگی های اصلی مدل سه پارامتری:

پارامتر دشواری (bi​):
نشان‌دهنده سطح دشواری سؤال i است. هرچه مقدار bi​ بزرگ‌تر باشد، سؤال سخت‌تر است و فرد با توانایی بیشتری باید باشد تا بتواند به آن سؤال پاسخ صحیح بدهد.

پارامتر تمایز (ai​):
نشان‌دهنده توانایی سؤال در تفکیک افراد با سطوح توانایی مختلف است. سوالاتی با ai​ بالاتر، شیب تندتری در منحنی ویژگی آیتم (ICC) دارند و بهتر می‌توانند بین افراد قوی و ضعیف تمایز قائل شوند.

پارامتر حدس (ci​):
نشان‌دهنده احتمال پاسخ صحیح برای فردی با توانایی بسیار پایین است (مثلاً زمانی که فرد به طور تصادفی پاسخ صحیح را انتخاب می‌کند). این پارامتر معمولاً برای سوالات چندگزینه‌ای استفاده می‌شود.

این فرمول همانند فرمول بالایی (دو پارامتر) می‌توان پارامتر ها را معین کرد؛ فقط پارامتر ci اضافه شده که به معنی این است که سؤال i با چه احتمالی می‌تواند به صورت حدسی پاسخ داده شود. بیشتر در سوالات چندگزینه‌ای یا پاسخ‌کوتاه استفاده می‌شود.

در ادامه به بررسی نحوه تغییر تتا (θ) می‌پردازیم.

در نظریه پاسخ به آیتم (Item Response Theory – IRT)، توانایی هر فرد (که با θ نشان داده میشود) بر اساس پاسخهای او به آیتمهای آزمون تخمین زده میشود. برای به‌روزرسانی θ (یعنی تخمین توانایی فرد)، از روش تخمین حداکثر درست‌نمایی (Maximum Likelihood Estimation – MLE) استفاده میشود. در ادامه مراحل این فرآیند را توضیح می‌دهیم:

۱. فرضیه‌های اساسی در IRT

قبل از اینکه بتوان از IRT برای تفسیر نتایج آزمون استفاده کرد، دو فرضیه اساسی باید برقرار باشند:

  • یک‌بعدی بودن (Unidimensionality): این فرضیه بیان می‌کند که تنها یک عامل (معمولاً توانایی آزمون‌دهنده) بر عملکرد آزمون تأثیر می‌گذارد. به عبارت دیگر، تمام آیتم‌های آزمون باید یک سازه واحد را اندازه‌گیری کنند.
  • استقلال موضعی (Local Independence): این فرضیه بیان می‌کند که پاسخ‌های آزمون‌دهنده به آیتم‌های مختلف مستقل از یکدیگر هستند، به شرطی که توانایی آزمون‌دهنده (θ) ثابت باشد. این فرضیه به ما اجازه می‌دهد از روش‌های تخمین مانند تخمین حداکثر درست‌نمایی (MLE) برای تخمین پارامترهای آیتم‌ها و توانایی آزمون‌دهنده استفاده کنیم.

۲. تابع درست‌نمایی (Likelihood Function)

تابع درست‌نمایی احتمال مشاهده پاسخ‌های آزمون‌دهنده به آیتم‌های آزمون را با توجه به توانایی θ و پارامترهای آیتم‌ها محاسبه می‌کند. این تابع به صورت زیر تعریف می‌شود:

  • ui): پاسخ آزمون‌دهنده به آیتم (i) که اگر پاسخ صحیح باشد (ui = 1) و اگر پاسخ نادرست باشد (ui = 0).
  • Q(θ) = 1 – P(θ)

برای به‌روزرسانی θ، باید مقداری از θ را پیدا کنیم که تابع درست‌نمایی را به حداکثر برساند. بدین ترتیب θ برای هر آزمون دهنده در انتهای آزمون به‌روزرسانی می‌شود.

در پایان این بررسی، می‌توان نتیجه‌گیری‌های زیر را درباره نقش و کاربرد نظریه پاسخ آیتم (IRT) در ارزیابی و سنجش توانایی‌ها و دانش افراد به دست آورد:

۱. دقت و عدالت در ارزیابی: نظریه پاسخ آیتم بر پایه تحلیل دقیق‌تر روابط بین ویژگی‌های آیتم‌ها و توانایی‌های افراد بنا شده است. این امکان را فراهم می‌کند که نتایج ارزیابی‌ها به طور عادلانه‌تر و مطمئن‌تری تفسیر شوند، به‌ویژه در مقایسه با روش‌های سنتی که تنها به شمارش پاسخ‌های صحیح متکی هستند.

۲. تحلیل عمیق‌تر از توانایی‌ها: با توجه به مفاهیم کلیدی همچون توانایی (θ)، دشواری آیتم (b) و تمایز (a)، IRT به ما امکان می‌دهد تا تحلیل‌های عمیق‌تری از توانایی‌های آزمون‌دهندگان به عمل آوریم و درک بهتری از چگونگی عملکرد هر فرد نسبت به سایرین به دست آوریم.

۳. انعطاف‌پذیری مدل‌ها: تنوع مدل‌های IRT، از جمله مدل‌های یک، دو و سه پارامتری، هر کدام با مزایا و قابلیت‌های خاص خود، به متخصصان اجازه می‌دهد تا بهترین مدل را بر اساس ویژگی‌های آزمون و نوع سوالات انتخاب کنند. این انعطاف‌پذیری امکان بهبود مستمر ارزیابی‌ها را فراهم می‌کند.

۴. بهبود طراحی آزمون‌ها: با استفاده از IRT، طراحان آزمون می‌توانند سوالات را به گونه‌ای طراحی کنند که نه تنها به بهترین شکل توانایی‌های آزمون‌دهندگان را اندازه‌گیری کنند، بلکه در عین حال ویژگی‌های تمایز را نیز مد نظر داشته باشند. این مسئله باعث می‌شود که آزمون‌ها نه تنها معتبر و دقیق باشند، بلکه جذاب و چالش‌برانگیز نیز طراحی شوند.

در مجموع، نظریه پاسخ آیتم (IRT) یک ابزار تحلیلی کارآمد و ضروری در حوزه ارزیابی است که می‌تواند به دقت و عدالت فرآیند سنجش توانایی‌ها و دانش افراد کمک شایانی کند.

اخبار و گزارش‌ها

موضوعات مرتبط