ІРІ ТІЛ МОДЕЛЬДЕРІНІҢ ҚАЗАҚ ТІЛІНІҢ БІЛІМ ДЕҢГЕЙІН БАҒАЛАУДАҒЫ РӨЛІ

Авторлар

DOI:

https://doi.org/10.63597/UTO3105-4161.2025.3.3.008

Кілт сөздер:

Ірі тіл модельдері, Білім беру бағалауы, Қазақ тілі, Ұлттық бірыңғай тестілеу, Педагогикалық өлшеу, Жасанды интеллект

Аңдатпа

Бұл зерттеу Қазақстандағы Ұлттық бірыңғай тестілеу (ҰБТ) контекстінде қазақ тілін меңгеруді бағалаудағы ірі тіл модельдерінің (LLM) өнімділігін бағалайды. Негізгі мақсат — бес заманауи LLM-нің: Gemini 2.5 Pro Preview, Claude 3.7 Sonnet, Deepseek R1, Qwen және Llama 3.1-405B-Instruct — 2024 жылғы БҰТ қазақ тілі тестінен алынған 138 таңдаулы сұрағындағы дәлдігін, қателіктер сипатын және психометриялық сипаттамаларын зерттеу. Әдістемеге сыртқы деректерге қол жеткізусіз, стандартталған нұсқаулар негізінде нөлдік оқыту режиміндегі бағалауды, сондай-ақ Кохран Q тесті, МакНемар тесттері және модельдердің күрделілік деңгейлері мен лингвистикалық тақырыптар бойынша өнімділігін талдау үшін жалпыланған бағалау теңдеулерімен (GEE) логистикалық регрессияны қоса алғандағы статистикалық талдау кірді. Нәтижелер Gemini-дің ең жоғары дәлдікке (90,6%) қол жеткізгенін және басқа модельдерден айтарлықтай жоғары көрсетеді, ал Llama ең төменгі нәтиже көрсетті (37,7%). Өнімділік күрделілік пен тақырыпқа байланысты өзгеріп отырды, бұл ретте Gemini барлық санаттарда басымдылық танытты, ал басқа модельдер күрделі лингвистикалық ойлау сияқты нақты белгілі бір салаларда өздерінің мықты жақтарын көрсетті. Зерттеу қазақ тілі сияқты ресурстары шектеулі тілдерде білімді бағалау үшін LLM -нің әлеуетін атап көрсетеді, алайда модельдерді оңтайландырудағы, әділдік пен сенімділіктегі олқылықтарды анықтайды, бұл мәдени бейімделген деректерді мақсатты түрде нақтылауды және пайдалануды талап етеді.

Жүктеулер

Жарияланды

- 2025-09-29 жаңартылды

Журналдың саны

Бөлім

ЖАСАНДЫ ИНТЕЛЛЕКТ ЖӘНЕ БІЛІМ БЕРУДІ БАҒАЛАУДАҒЫ ИННОВАЦИЯ