ЖАСАНДЫ ИНТЕЛЛЕКТ ЖӘНЕ ҚАЗАҚ ТІЛІНІҢ ҒЫЛЫМИ ДАМУЫ: КОРПУС, ТЕРМИНОЛОГИЯ ЖӘНЕ КОНТЕНТТІ АВТОМАТТАНДЫРУ
31 41
Кілт сөздер:
қазақ тілінің корпусы, терминологияны автоматтандыру, жасанды интеллект, машинамен оқыту, семантикалық талдау, контентті автоматтандыру, цифрлық экожүйе.Аңдатпа
Мақалада жасанды интеллект технологиялары мен тілдік корпустарды үйлесімді ұштастыру арқылы қазақ тілінің ғылыми-теориялық әлеуетін арттыру жолдары жан-жақты зерделенеді. Зерттеу мақсаты – қазақ тілін цифрлық кеңістікте тиімді қолдану үшін тілдік ресурстарды жасанды интеллект құралдарымен біріктіре отырып, терминологиялық жүйелеу мен автоматтандырылған өңдеу үдерістерін тілдің морфологиялық, семантикалық, синтаксистік және лексикалық деңгейінде талдау.
Зерттеу аясында алдымен қазақ тілін автоматты өңдеуге арналған ұлттық деректер қорын қалыптастыру қажеттілігі ғылыми-теориялық тұрғыда негізделеді. Бұл қорды құрастыруда морфологиялық белгілеу, сөз табын автоматты тану, түбір мен қосымшаның жіктелуі сияқты тілдік бірліктердің ішкі құрылымы ескеріледі. Сонымен қатар терминдер жүйесін біріздендіру мақсатында семантикалық өріс, ұғымаралық байланыс және сөздердің функционалдық жүктемесі сипатталады.
Тәжірибелік талдау барысында веб-скрепинг әдісі арқылы іріктелген мәтіндерден жиілік сөздер анықталып, олардың қолданыс жиілігі мен контекстуалдық қолданыс ерекшеліктері конкорданс әдісімен зерделенді. Салыстырмалы-диахрониялық тәсіл арқылы белгілі бір терминдердің әр кезеңдегі қолданысы мен мағыналық өзгерісі, сондай-ақ грамматикалық құрылымдағы орны сараланды. Жасанды интеллектінің семантикалық модельдеу, машиналық оқыту алгоритмдері аталған процестерді жүйелеуге мүмкіндік берді.
Нәтижесінде қазақ тіліндегі ақпараттық технологияларға қатысты жаңа терминдердің қалыптасу қарқыны, мағыналық аясын кеңейту тетіктері мен олардың бірізділігі анықталды. Бұл деректер қазақ тілінің цифрлық экожүйесін жетілдіру мақсатында нақты ұсыныстар ұсынуға негіз болды. Мақала қазақ тілінің ғылыми қолданысын арттыруға, терминологиялық реттеуді жетілдіруге және тілдің құрылымдық деңгейлерінің (морфология, синтаксис, лексика, семантика) өзара байланысын жүйелі түрде сипаттауға бағытталған.
Зерттеу нәтижелері лингвистика мен ақпараттық технологиялар тоғысында жүзеге асырылатын тіл саясаты мен инновациялық бастамаларға негіз бола алады.
Әдебиеттер тізімі
Hunston S. Corpora in Applied Linguistics. – Cambridge: Cambridge University Press, 2002. – 214 p.
McEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. – Cambridge: Cambridge University Press, 2012. – 278 p. 3.
Makhambetov O., Kokenbayev Y., Yessenbayev Z., et al. Assembling the Kazakh Language Corpus // Proceedings of ACL. – 2021. – P. 1–12.
Сыздық Р. Тіл табиғаты және оның зерттелуі. – Алматы: Ғылым, 2000. – 320 б.
Cabré M.T. Terminology: Theory, Methods and Applications. – Amsterdam: John Benjamins, 1999. – 356 p.
Ақылбекова Г.К., Жанғабылова З.К. Салалық терминология және терминжасам қағидаттары // ҚР Заңнама және құқықтық ақпарат институтының хабаршысы. – 2023. – №1 (72). – Б. 224–232.
Kim H. Machine Learning Methods for Turkic Languages // Language Resources and Evaluation. – 2022. – Vol. 56, No. 3. – P. 251–268.
Мединаева А.А. Қазақ тіліндегі кейбір терминдердің мәселелеріне орай // ҚР Заңнама және құқықтық ақпарат институтының хабаршысы. – 2023. – №2 (73). – Б. 222–228.
Maybury M. New Directions in Automated Text Summarization // Information Processing and Management. – 1999. – Vol. 35, No. 4. – P. 491–514.
Bowker L., Pearson J. Working with Specialized Language: A Practical Guide to Using Corpora. – London: Routledge, 2002. – 256 p.
Wu Y., Schuster M., Chen Z., Le Q.V., Norouzi M., & Macherey W. Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation // arXiv preprint. – 2016. – arXiv:1609.08144.
Chomsky N. Aspects of the Theory of Syntax. – Cambridge, MA: MIT Press, 2015. – 270 p.
REFERENCES
Hunston S. Corpora in Applied Linguistics. – Cambridge: Cambridge University Press, 2002. – 214 p.
McEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. – Cambridge: Cambridge University Press, 2012. – 278 p.
Makhambetov O., Kokenbayev Y., Yessenbayev Z., et al. Assembling the Kazakh Language Corpus // Proceedings of ACL. – 2021. – P. 1–12.
Syzdyq R. Tіl tabigaty zhane onyn zertteluі [The nature of language and its study]. – Almaty: Gylym, 2000. – 320 b. [in Kazakh]
Cabré M.T. Terminology: Theory, Methods and Applications. – Amsterdam: John Benjamins, 1999. – 356 p.
Aqylbekova G.K., Zhangabylova Z.K. Salalyq terminologia zhane terminzhasam qagidattary [Industry terminology and terminology principles] // QR Zannama zhane qұqyqtyq aqparat institutynyn habarshysy. – 2023. – №1 (72). – B. 224–232. [in Kazakh]
Kim H. Machine Learning Methods for Turkic Languages // Language Resources and Evaluation. – 2022. – Vol. 56, No. 3. – P. 251–268.
Medinaeva A.A. Qazaq tіlіndegі keibіr terminderdіn maselelerіne orai [In connection with the problems of some terms in the Kazakh language] // QR Zannama zhane quqyqtyq aqparat institutynyn habarshysy. – 2023. – №2 (73). – B. 222–228. [in Kazakh]
Maybury M. New Directions in Automated Text Summarization // Information Processing and Management. – 1999. – Vol. 35, No. 4. – P. 491–514.
Bowker L., Pearson J. Working with Specialized Language: A Practical Guide to Using Corpora. – London: Routledge, 2002. – 256 p.
Wu Y., Schuster M., Chen Z., Le Q.V., Norouzi M., & Macherey W. Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation // arXiv preprint. – 2016. – arXiv:1609.08144.
Chomsky N. Aspects of the Theory of Syntax. – Cambridge, MA: MIT Press, 2015. – 270 p.