Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions

Wansuk Choi (최완석); TaeSeok Choi (최태석); HeeJoon Shin (신희준); Hongrae Kim (김홍래); Ma Xu (마욱); Do Heon Kwon (권도헌); Jin Yuemei (김월매); Myeong-Chul Park (박명철); Seoyoon Heo (허서윤)

doi:10.9708/jksci.2025.30.08.233

@article{ART003234389},
author={Wansuk Choi and TaeSeok Choi and HeeJoon Shin and Hongrae Kim and Ma Xu and Do Heon Kwon and Jin Yuemei and Myeong-Chul Park and Seoyoon Heo},
title={Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions},
journal={Journal of The Korea Society of Computer and Information},
issn={1598-849X},
year={2025},
volume={30},
number={8},
pages={233-247},
doi={10.9708/jksci.2025.30.08.233}

TY - JOUR
AU - Wansuk Choi
AU - TaeSeok Choi
AU - HeeJoon Shin
AU - Hongrae Kim
AU - Ma Xu
AU - Do Heon Kwon
AU - Jin Yuemei
AU - Myeong-Chul Park
AU - Seoyoon Heo
TI - Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions
JO - Journal of The Korea Society of Computer and Information
PY - 2025
VL - 30
IS - 8
PB - The Korean Society Of Computer And Information
SP - 233
EP - 247
SN - 1598-849X
AB - In this paper, we evaluated GPT-4o's validity for classifying physical therapy examination question difficulty compared to human expert assessments. A multi-institutional cross-sectional validation study was conducted across three South Korean universities with 180 physical therapy professionals (11 educators, 169 students) evaluating 525 questions previously classified by GPT-4o into five difficulty levels. Participants rated question difficulty using a 5-point Likert scale. GPT-4o classifications demonstrated exceptional correlation with human assessments (r = 0.988, p < 0.001), explaining 97.6% of variance in human ratings. Bland-Altman analysis revealed minimal systematic bias (mean difference = -0.233). Inter-rater reliability was excellent for educators (ICC = 0.912) and students (ICC = 0.908), with no significant institutional differences (p = 0.794). These findings support the use of GPT-4o as a reliable tool for educational assessment in physical therapy programs, with broad applicability for curriculum development and examination design.
KW - Generative AI;Educational Evaluation;Physical Therapy Education;Large-scale Language Models;Difficulty Classification
DO - 10.9708/jksci.2025.30.08.233
ER -

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park and Seoyoon Heo. (2025). Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions. Journal of The Korea Society of Computer and Information, 30(8), 233-247.

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park and Seoyoon Heo. 2025, "Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions", Journal of The Korea Society of Computer and Information, vol.30, no.8 pp.233-247. Available from: doi:10.9708/jksci.2025.30.08.233

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park, Seoyoon Heo "Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions" Journal of The Korea Society of Computer and Information 30.8 pp.233-247 (2025) : 233.

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park, Seoyoon Heo. Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions. 2025; 30(8), 233-247. Available from: doi:10.9708/jksci.2025.30.08.233

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park and Seoyoon Heo. "Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions" Journal of The Korea Society of Computer and Information 30, no.8 (2025) : 233-247.doi: 10.9708/jksci.2025.30.08.233

Wansuk Choi; TaeSeok Choi; HeeJoon Shin; Hongrae Kim; Ma Xu; Do Heon Kwon; Jin Yuemei; Myeong-Chul Park; Seoyoon Heo. Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions. Journal of The Korea Society of Computer and Information, 30(8), 233-247. doi: 10.9708/jksci.2025.30.08.233

Wansuk Choi; TaeSeok Choi; HeeJoon Shin; Hongrae Kim; Ma Xu; Do Heon Kwon; Jin Yuemei; Myeong-Chul Park; Seoyoon Heo. Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions. Journal of The Korea Society of Computer and Information. 2025; 30(8) 233-247. doi: 10.9708/jksci.2025.30.08.233

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park, Seoyoon Heo. Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions. 2025; 30(8), 233-247. Available from: doi:10.9708/jksci.2025.30.08.233

Wansuk Choi, TaeSeok Choi, HeeJoon Shin, Hongrae Kim, Ma Xu, Do Heon Kwon, Jin Yuemei, Myeong-Chul Park and Seoyoon Heo. "Validation of Difficulty Classification Concordance using GPT-4o for Physical Therapy Exam Questions" Journal of The Korea Society of Computer and Information 30, no.8 (2025) : 233-247.doi: 10.9708/jksci.2025.30.08.233

KJCKorea
Journal Central

Journal of The Korea Society of Computer and Information 2024 KCI Impact Factor : 0.81