Филологиялық зерттеу: стилометрияны автоматтандырудың компьютерлік аспектілері
21 36
Кілт сөздер:
компьютерлік лингвистика, стилометрия, мәтінді құрылымдау, компьютерлік аспектілер, стилометрияны автоматтандыру, жасанды интеллект, авторлық атрибуция.Аңдатпа
Мақаланың мақсаты – филологиялық зерттеулерде стилометрияны автоматтандыруды қарастыру. Бұл мақаланың өзектілігі жасанды интеллект әдістерін (авторлық атрибуция және профильдеу) қолдана отырып, мәтін авторын анықтау үшін соңғы жылдары белсенді дамып келе жатқан пәнаралық саладағы көптеген зерттеулердің нәтижелерін бақылау және сыни тұрғыдан талдау қажеттілігімен, сондай-ақ теориялық негіздер мен күрделі стилометриялық әдістемені ұсынумен байланысты (яғни, статистикалық әдістер мен машиналық оқыту алгоритмдерін қолдана отырып, сандық лингвистикалық ерекшеліктерді талдау негізінде) түсіндіру, объективтілік, дәлелдеу және ашық ғылым принциптеріне негізделген мәтін авторын анықтау.
Пәндік және белсенділікті сәйкестендіру шеңберінде идиолектология - компьютерлік және корпустық лингвистиканың, сондай-ақ деректер ғылымының заманауи жетістіктерін пайдалана отырып, компьютерлік аспектілерді анықтау кезінде идиолект құбылысын жүйелі түрде зерттеуге бағытталған және дамып келе жатқан ғылыми бағыт. Мақала авторлары компьютерлік және корпустық лингвистиканың міндеті зерттеушіге барлық қажетті материалдарды ұсыну, санау үшін деректерді дайындау және терең филологиялық бақылауларды растау немесе жоққа шығару үшін біріктірілген гипотезаларды тексеру үшін пайдаланылуы мүмкін есептеу процедураларының кең ауқымын ұсыну деп санайды.
Тілдік ақпаратты шешуде қолданылатын филологиялық есептер, әдетте, мұндай жағдайда мәтіннің нақты қолданылуы, бағыты, тілі мен стилі зерттеудің мақсаты емес, экстралингвистикалық есептерді шешудің құралы болып табылады. Сондай-ақ, белгілі бір филологиялық мәселені шешу (мысалы, даулы авторлық мәселе), әдетте, белгілі бір зерттеу әдіснамасының қатаң шеңберімен шектелмей, әртүрлі білім мен практикалық қызмет салаларындағы әдістер мен фактілерді қолдану арқылы жүзеге асырылады.
Әдебиеттер тізімі
Социальные науки и образование в условиях становления электронноцифровой цивилизации / Научно-практическая конференция. – М.; СПб.: Нестор-История, 2020. – 152 с. 2. Бортников В.И. Лингвистический анализ текста: учебно-методическое пособие / под общ. ред. О.В. Обвинцевой. – Екатеринбург: Изд-во Урал. ун-та, 2020. – 112 с. 3. Попов Е.В., Лагутина Н.С. Определение стилометрических характеристик коротких текстов и их применение в задачах классификации // Сборник научных статей. – Ярославль: Ярославский государственный университет им. П.Г. Демидова, 2020. – №12. – C. 254–261. 4. Мартыненко Г.Я. Стилометрия: возникновение в становление в контексте междисциплинарного взаимодействия // Структурная и прикладная лингвистика: межвуз. сб. / под ред. А.С. Герда и И.С. Николаева. – СПб.: Изд-во С.-Петерб. ун-та, 2015. – Вып. 11. – С. 9–28. 5. Сарекенова Қ.Қ., Меліс А.М., Тойбекова С.Р. Филология мамандығы бойынша білім алушыларды компьютерлік технология бағытында оқыту – заман талабы // Л.Н. Гумилев атындағы Еуразия ұлттық университетінің Хабаршысы. Филология сериясы. – 2018. – №2 (123). – Б. 166–172.
Жубантаева Ж. Корпустық лингвистика. [Electronic Resource]. URL: https://www.academia.edu/39122192 (қаралған күні: 15.10.2023)
Маханова З.А., Қожабекова П.А., Сейтжаппар М.А., Сабит Н.Е. Қазақ тілінің автоматтандырылған маркерлік корпусын әзірлеу // ҚазҰТЗУ хабаршысы. – 2021. – №1. – Б. 36–39. 8. Langlois J. When Linguistics meets computer science: Stylometry and professional discourse // Original Research Journal. Training Language and Culture. More than Meets the Eye: A Closer Look at Professional Discourse. – 2021. – Issue 2. – №5. – P. 51–61.
Wright D., May A. Identifying idiolect in forensic authorship attribution: an n-gram textbite approach. Language and Law // Linguagem e Direito. – 2014. – №1(1). – P. 37–69.
Galyashina E.I. Forensic linguistics in Russia: the current situation and new challenges // Theory and practice of forensic expertise. – 2018. – Vol. 13. – №4. – P. 28–37.
Nikishin V.D. Criteria of Extremist Speech Acts: Forensic Linguistic Diagnostic Complexes // European Journal of Social & Behavioural Sciences. – 2021. – №30(2). – P. 3394–3408. DOI:10.15405/ejsbs.296. 12. Чернявская В.Е. Дискурсивный анализ и корпусные методы: необходимое доказательное звено? Объяснительные возможности качественного и количественного подходов // Вопросы когнитивной лингвистики. – 2018. – №2 (55). – C. 31–37. DOI: 10.20916/1812-3228-2018-2-31-37 13. Burrows J. “Delta”: a measure of stylistic difference and a guide to likely authorship // Literary and Linguistic Computing. – 2002. – Vol. 17 (3). – P. 267–287. 14. Demsar J. Statistical comparisons of classifiers over multiple data sets // Journal of Machine Learning Research. – 2006. – №7. – P. 1–30.
Romero-Barranco J., Rodríguez-Abruñeiras P. Current trends in Corpus Linguistics and textual variation // Research in Corpus Linguistics. – 2021. – №9(2). – P. i-xiii. https://doi.org/10.32714/ricl.09.02.01
Desagulier G. Corpus linguistics and statistics with R. Introduction to quantitative methods in linguistics (quantitative methods in the humanities and social sciences). – Springer International Publishing Springer, 2017. – 353 p.
REFERENCES
Socialnye nauki i obrazovanie v usloviah stanovlenia elektronnocifrovoi civilizacii [Social sciences and education in the context of the formation of an electronic digital civilization] / Nauchno-prakticheskaia konferencia. – M.; SPb.: Nestor-Istoria, 2020. – 152 s. [In Russian]
Bortnikov V.I. Lingvisticheskiy analiz teksta [Linguistic analysis of the text]: uchebno-metodicheskoe posobie / pod obsh. red. O.V. Obvincevoi. – Ekaterinburg: Izd-vo Ural. un-ta, 2020. – 112 s. [In Russian]
Popov E.V., Lagutina N.S. Opredelenie stilometricheskih harakteristik korotkih tekstov i ih primenenie v zadachah klassifikacii [Determination of stoichiometric characteristics of short texts and their application in classification tasks] // Sbornik nauchnyh statei. – Iaroslavl: Iaroslavskiy gosudarstvennyi universitet im. P.G. Demidova, 2020. – №12. – C. 254–261. [In Russian]
Martynenko G.Ia. Stilometria: vozniknovenie v stanovlenie v kontekste mejdiciplinarnogo vzaimodeistvia [Stylometry: emergence into formation in the context of interdisciplinary interaction] // Strukturnaia i prikladnaia lingvistika: mejvuz. sb. / pod red. A.S. Gerda i I.S. Nikolaeva. – SPb.: Izd-vo S.-Peterb. un-ta, 2015. – Vyp. 11. – S. 9–28. [In Russian]
Sarekenova Q.Q., Melіs A.M., Toibekova S.R. Filologia mamandygy boiynsha bіlіm alushylardy kompiuterlіk tehnologia bagytynda oqytu – zaman talaby [Training of students in the specialty philology in the direction of computer technology is a modern requirement] // L.N. Gumilev atyndagy Eurazia ulttyq universitetіnіn Habarshysy. Filologia seriasy. – 2018. – №2 (123). – B. 166–172. [in Kazakh]
Jubantaeva J. Korpustyq lingvistika [Corpus linguistics]. [Electronic Resource]. URL: https://www.academia.edu/39122192 (date of access: 15.10.2023) [in Kazakh]
Mahanova Z.A., Qojabekova P.A., Seitjappar M.A., Sabit N.E. Qazaq tіlіnіn avtomattandyrylgan markerlіk korpusyn azіrleu [Development of an automated marker body of the Kazakh language] // QazUTZU habarshysy. – 2021. – №1. – B. 36–39. [in Kazakh]
Langlois J. When Linguistics meets computer science: Stylometry and professional discourse // Original Research Journal. Training Language and Culture. More than Meets the Eye: A Closer Look at Professional Discourse. – 2021. – Issue 2. – №5. – P. 51–61. 9. Wright D., May A. Identifying idiolect in forensic authorship attribution: an n-gram textbite approach. Language and Law // Linguagem e Direito. – 2014. – №1(1). – P. 37–69.
Galyashina E.I. Forensic linguistics in Russia: the current situation and new challenges // Theory and practice of forensic expertise. – 2018. – Vol. 13. – №4. – P. 28–37.
Nikishin V.D. Criteria of Extremist Speech Acts: Forensic Linguistic Diagnostic Complexes // European Journal of Social & Behavioural Sciences. – 2021. – №30(2). – P. 3394–3408. DOI:10.15405/ejsbs.296.
Cherniavskaia V.E. Diskursivnyi analiz i korpusnye metody: neobhodimoe dokazatelnoe zveno? Obiasnitelnye vozmojnosti kachestvennogo i kolichestvennogo podhodov [Discursive analysis and corpus methods: a necessary evidentiary link? Explanatory possibilities of qualitative and quantitative approaches] // Voprosy kognitivnoi lingvistiki. – 2018. – №2 (55). – S. 31–37. DOI: 10.20916/1812-3228-2018-2-31-37 [In Russian]
Burrows J. “Delta”: a measure of stylistic difference and a guide to likely authorship // Literary and Linguistic Computing. – 2002. – Vol. 17 (3). – P. 267–287.
Demsar J. Statistical comparisons of classifiers over multiple data sets // Journal of Machine Learning Research. – 2006. – №7. – P. 1–30.
Romero-Barranco J., Rodríguez-Abruñeiras P. Current trends in Corpus Linguistics and textual variation // Research in Corpus Linguistics. – 2021. – №9(2). – P. i-xiii. https://doi.org/10.32714/ricl.09.02.01
Desagulier G. Corpus linguistics and statistics with R. Introduction to quantitative methods in linguistics (quantitative methods in the humanities and social sciences). – Springer International Publishing Springer, 2017. – 353 p.