LARGE LANGUAGE MODELS IN EDUCATIONAL MEASUREMENT OF KAZAKH LANGUAGE PROFICIENCY

Nurseit Baizhanov; Aslan Sabyrov; Alfira Makhmutova; Shirali Kadyrov

doi:10.63597/UTO3105-4161.2025.3.3.008

Авторы

Нурсейт Байжанов Автор https://orcid.org/0009-0008-5302-9858
Аслан Сабыров Автор https://orcid.org/0009-0006-1470-5433
Альфира Махмутова Автор https://orcid.org/0000-0002-8597-7667
Shirali Kadyrov Автор https://orcid.org/0000-0002-8352-2597

DOI:

https://doi.org/10.63597/UTO3105-4161.2025.3.3.008

Ключевые слова:

Крупные языковые модели, Образовательная оценка, Казахский язык, Единое национальное тестирование, Педагогическое измерение, Искусственный интеллект

Аннотация

Данное исследование оценивает производительность крупных языковых моделей (LLM) в оценке владения казахским языком в контексте Единого национального тестирования (ЕНТ) в Казахстане. Основная цель – изучить точность, характер ошибок и психометрические характеристики пяти современных LLM: Gemini 2.5 Pro Preview, Claude 3.7 Sonnet, Deepseek R1, Qwen и Llama 3.1-405B-Instruct – на 138 вопросах с множественным выбором (MCQ) из теста по казахскому языку ЕНТ 2024 года. Методология включала оценку в режиме нулевого обучения с использованием стандартизированных подсказок без доступа к внешним данным, а также статистический анализ, включая тест Кохрана Q, тесты МакНемара и логистическую регрессию с обобщенными оценочными уравнениями (GEE) для анализа производительности моделей по уровням сложности и лингвистическим темам. Результаты показывают, что Gemini достигла наивысшей точности (90,6%), значительно превосходя другие модели, в то время как Llama показала наименьший результат (37,7%). Производительность варьировалась в зависимости от сложности и тематики, при этом Gemini демонстрировала превосходство во всех категориях, а другие модели показывали сильные стороны в специфических областях, таких как сложное лингвистическое мышление. Исследование подчеркивает потенциал LLM для образовательной оценки в языках с ограниченными ресурсами, таких как казахский, но выявляет пробелы в оптимизации моделей, справедливости и надежности, что требует целенаправленной доработки и использования культурно адаптированных данных.

РОЛЬ КРУПНЫХ ЯЗЫКОВЫХ МОДЕЛЕЙ В ОЦЕНКЕ ВЛАДЕНИЯ КАЗАХСКИМ ЯЗЫКОМ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Выпуск

Раздел

Язык

Информация

Отправить материал