Искусственный интеллект и научное развитие казахского языка: корпус, терминология и автоматизация контента
31 41
Ключевые слова:
корпус казахского языка, автоматизация терминологии, искусственный интеллект, машинное обучение, семантический анализ, автоматизация контента, цифровая экосистема.Аннотация
В статье всесторонне рассматриваются эффективные пути повышения научно-теоретического потенциала казахского языка посредством интеграции технологий искусственного интеллекта и языковых корпусов. Цель исследования – проанализировать процессы терминологической стандартизации и автоматизированной обработки казахского языка на морфологическом, семантическом, синтаксическом и лексическом уровнях через объединение языковых ресурсов с инструментами ИИ в условиях цифровой среды.
В теоретической части обоснована необходимость создания национальной базы данных для автоматизированной обработки казахского языка. При формировании корпуса учитываются морфологическая разметка, автоматическое определение части речи, структурный анализ основы и аффиксов. Также описаны семантические поля, межпонятийные связи и функциональная нагрузка лексем с целью систематизации терминов.
В эмпирической части исследования при помощи метода веб-скрейпинга были отобраны тексты, из которых с использованием конкорданс-анализа выявлены частотные слова и проанализированы особенности их употребления в контексте. Сравнительно-диахронический подход позволил проследить эволюцию значений терминов и их грамматическое функционирование на разных исторических этапах. Алгоритмы машинного обучения и семантического моделирования способствовали систематизации полученных данных.
В результате определена скорость формирования новых терминов, расширение их семантического содержания и уровень стандартизации в сфере информационных технологий на казахском языке. Полученные данные дополнены конкретными предложениями по совершенствованию цифровой экосистемы казахского языка.
Статья вносит значительный вклад в расширение научного употребления казахского языка и укрепление терминологической упорядоченности, описывая взаимосвязь между морфологией, синтаксисом, семантикой и лексикой.
Библиографические ссылки
Hunston S. Corpora in Applied Linguistics. – Cambridge: Cambridge University Press, 2002. – 214 p.
McEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. – Cambridge: Cambridge University Press, 2012. – 278 p. 3.
Makhambetov O., Kokenbayev Y., Yessenbayev Z., et al. Assembling the Kazakh Language Corpus // Proceedings of ACL. – 2021. – P. 1–12.
Сыздық Р. Тіл табиғаты және оның зерттелуі. – Алматы: Ғылым, 2000. – 320 б.
Cabré M.T. Terminology: Theory, Methods and Applications. – Amsterdam: John Benjamins, 1999. – 356 p.
Ақылбекова Г.К., Жанғабылова З.К. Салалық терминология және терминжасам қағидаттары // ҚР Заңнама және құқықтық ақпарат институтының хабаршысы. – 2023. – №1 (72). – Б. 224–232.
Kim H. Machine Learning Methods for Turkic Languages // Language Resources and Evaluation. – 2022. – Vol. 56, No. 3. – P. 251–268.
Мединаева А.А. Қазақ тіліндегі кейбір терминдердің мәселелеріне орай // ҚР Заңнама және құқықтық ақпарат институтының хабаршысы. – 2023. – №2 (73). – Б. 222–228.
Maybury M. New Directions in Automated Text Summarization // Information Processing and Management. – 1999. – Vol. 35, No. 4. – P. 491–514.
Bowker L., Pearson J. Working with Specialized Language: A Practical Guide to Using Corpora. – London: Routledge, 2002. – 256 p.
Wu Y., Schuster M., Chen Z., Le Q.V., Norouzi M., & Macherey W. Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation // arXiv preprint. – 2016. – arXiv:1609.08144.
Chomsky N. Aspects of the Theory of Syntax. – Cambridge, MA: MIT Press, 2015. – 270 p.
REFERENCES
Hunston S. Corpora in Applied Linguistics. – Cambridge: Cambridge University Press, 2002. – 214 p.
McEnery T., Hardie A. Corpus Linguistics: Method, Theory and Practice. – Cambridge: Cambridge University Press, 2012. – 278 p.
Makhambetov O., Kokenbayev Y., Yessenbayev Z., et al. Assembling the Kazakh Language Corpus // Proceedings of ACL. – 2021. – P. 1–12.
Syzdyq R. Tіl tabigaty zhane onyn zertteluі [The nature of language and its study]. – Almaty: Gylym, 2000. – 320 b. [in Kazakh]
Cabré M.T. Terminology: Theory, Methods and Applications. – Amsterdam: John Benjamins, 1999. – 356 p.
Aqylbekova G.K., Zhangabylova Z.K. Salalyq terminologia zhane terminzhasam qagidattary [Industry terminology and terminology principles] // QR Zannama zhane qұqyqtyq aqparat institutynyn habarshysy. – 2023. – №1 (72). – B. 224–232. [in Kazakh]
Kim H. Machine Learning Methods for Turkic Languages // Language Resources and Evaluation. – 2022. – Vol. 56, No. 3. – P. 251–268.
Medinaeva A.A. Qazaq tіlіndegі keibіr terminderdіn maselelerіne orai [In connection with the problems of some terms in the Kazakh language] // QR Zannama zhane quqyqtyq aqparat institutynyn habarshysy. – 2023. – №2 (73). – B. 222–228. [in Kazakh]
Maybury M. New Directions in Automated Text Summarization // Information Processing and Management. – 1999. – Vol. 35, No. 4. – P. 491–514.
Bowker L., Pearson J. Working with Specialized Language: A Practical Guide to Using Corpora. – London: Routledge, 2002. – 256 p.
Wu Y., Schuster M., Chen Z., Le Q.V., Norouzi M., & Macherey W. Google’s Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation // arXiv preprint. – 2016. – arXiv:1609.08144.
Chomsky N. Aspects of the Theory of Syntax. – Cambridge, MA: MIT Press, 2015. – 270 p.