Person fit analysis with simulation-based methods

Aberrant responding in test or questionnaire data violating the principles of item response theory is a prevalent phenomenon in psychological and educational sciences. By means of person fit statistics aberrant responding is identified that prevents the computation of inadequate ability estimates. Simulation-based methods for person fit analysis were investigated in simulation studies with regard to Type I error and statistical power to detect aberrancy. Real data analyses from psychological and educational sciences further illustrate the usefulness of person fit statistics based on the presented approaches. In Study 1, a Markov chain Monte Carlo algorithm for sampling data matrices denoted as the Rasch Sampler is applied for simulating the null distribution of person fit statistics under the Rasch model. Results are compared to standardized statistics and illustrate the new approach (1) to correctly recover the nominal Type I error rates (while the standardized statistics deviate substantially) and (2) to offer predominantly similar or higher statistical power. Results from the application to Rasch-scalability problems of two subscales taken from Heller and Perleth’s (2000) multidimensional intelligence test (KFT) confirmed findings from the simulation studies. In Study 2, the Type I error and power of person fit tests based on weighted maximum likelihood ability estimators and parametric bootstrap were evaluated. Results were compared to established methods for person fit analysis. Bootstrapping based on robust maximum likelihood estimators improves the statistical power but a satisfactory recovery of nominal Type I error rates requires strong downweighting of aberrant item responses. Bootstrapping based on the Warm’s (1989) estimator applied as scoring method to original and simulated data displayed promising results concerning Type I error recovery and statistical power. Results from the simulations were matched by findings from the analysis of four samples of students with disabilities participating in a state-wide administered large-scale assessment program to investigate whether assessment of competence is invalidated by test modifications for these students. Both studies provide new insights on the benefits of simulation-based methods for the application of person fit tests to detect aberrant response behavior.
Abweichendes Antwortverhalten in Test- und Fragebogendaten gegenüber den Annahmen der Item-Response-Theorie stellt ein häufiges Phänomen in der Psychologie und den Bildungswissenschaften dar. Personen-Fit-Statistiken können herangezogen werden, um derartiges Antwortverhalten zu identifizieren und die Schätzung inadäquater Fähigkeitsausprägungen zu verhindern. Simulations-basierte Methoden zur Personen-Fit-Analyse werden mit Hilfe von Simulationsstudien in Bezug auf Typ-I-Fehler und statistische Power untersucht. Real-Daten aus der Psychologie und Bildungsforschung werden genutzt, um die Bedeutung der Ergebnisse beispielhaft zu untermauern. In Studie 1 wird der Rasch Sampler, ein Markov-Chain-Monte-Carlo-Algorithmus zur Ziehung binärer Datenmatrizen, herangezogen, um die Verteilung von Personen-Fit-Statistiken für das Rasch-Modell zu simulieren. Die Ergebnisse werden mit standardisierten Personen-Fit-Statistiken verglichen und verdeutlichen (1) die Einhaltung des nominalen Typ-I-Fehlers (im Gegensatz zu deutlichen Abweichungen der standardisierten Statistiken) sowie (2) überwiegend vergleichbare oder höhere statistische Power im neuen Ansatz. Die Anwendung der Methode auf die Forschungsfrage nach der Rasch-Skalierbarkeit von zwei Subskalen von Heller und Perleth’s (2000) multidimensionalem Intelligenztest (KFT) unterstreicht Ergebnisse der Simulationsstudien. In der zweiten Studie werden Typ-I-Fehler und statistische Power verschiedener (parametrischer) Personen-Fit-Statistiken basierend auf gewichteten Maximum-Likelihood-Fähigkeitsschätzern untersucht und mit etablierten Ansätzen verglichen. Ein parametrischer Bootstrap basierend auf robusten Maximum-Likelihood-Schätzern erhöht die statistische Power, jedoch fällt die Einhaltung des nominalen Typ-I-Fehlers nur dann zufriedenstellend aus, wenn der Einfluss abweichender Item-Antworten bei der Berechnung des Schätzers durch Wahl einer geeigneten Gewichtung stark reduziert wird. Ein parametrischer Bootstrap basierend auf Warms (1989) Schätzer, angewendet auf Original- und simulierte Daten, verzeichnet vielversprechende Ergebnisse bezüglich der Einhaltung des Typ-I-Fehlers sowie der statistischen Power. Ergebnisse der Simulationen werden durch Ergebnisse einer Analyse von vier Stichproben von Förderschülern ergänzt, welche Erkenntnisse zur Invarianz zwischen konventioneller und angepasster Testadministration bei einem regionalen Large-Scale Assessment Programm erlauben. Die Ergebnisse der beiden vorliegenden Studien erbringen neue Erkenntnisse bezüglich der Vorteile simulations-basierter Methoden bei der Anwendung von Person-Fit-Statistiken.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten