Філологи КНУ створили Електронний корпус текстів української мови

22.01.2016 Група дослідників лабораторії комп’ютерної лінгвістики кафедри сучасної української мови Інституту філології на чолі з доктором філологічних наук Наталією Дарчук за п'ять років створила електронне зібрання текстів українською мовою, що не поступається аналогічним ресурсам у Польщі, Австрії, Великій Британії та Німеччині. Проект http://www.mova.info — відкритий та безкоштовний, корисний не лише фахівцям-лінгвістам, а й письменникам, журналістам і науковцям як в Україні, так і за кордоном.




Корпус української мови – це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань «яке слово краще вжити у тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто у текстах використовується та чи інша словоформа?».

Близько 50 млн. слововживань введено до Корпусу протягом п’яти років. Підкорпус публіцистики становить 17 млн. слововживань; художньої прози – 24 млн.; поезії – 1 млн.; наукового стилю – 3 млн.; офіційно-ділового – 2 млн., фольклору – 32 тис. Кожен уведений текст маркується за жанровими особливостями й типом тексту. Навіть найвибагливіший користувач Корпусу знайде текст на свій смак.

Найближчими роками планується розширити Корпус до 100 млн. слововживань, доповнивши його українською мовою з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів та дати підґрунтя для роботи літераторів з віршованими розмірами, ритмікою та строфікою поетичних текстів. Британський національний корпус нараховує 100 млн. слововживань, Корпус австралійської періодики – 300 млн., Корпус чеської мови – 300 млн., Корпус німецької мови – 778 млн. слововживань.

Фахівці лінгвістичних і нелінгвістичних дисциплін за допомогою Корпусу можуть легко збирати та зберігати мовні факти, складати масштабні дослідницькі бази «під проблему»: для формування словника, укладання словникової статті, пошуку прикладів із слововживання в українській мові – для бакалаврських, магістерських чи кандидатських робіт. Українська лінгвістика тепер має зручний інструмент для розгляду дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.

Корпус текстів може бути джерелом для укладання різних словників, зокрема:
• алфавітно-частотних – слів і словоформ;
• граматичних – з морфологічною або синтаксичною інформацією, напр., про синтаксичні моделі – дієслівні, субстантивні, атрибутивні;
• морфемних і словотвірних – із частотними характеристиками, за якими можна вивчати комбінаторно-дистрибутивну будову слів або словотвірне значення кожної афіксальної морфеми в текстах;
• тезаурусів;
• словників неолексем.

І це цілком можливо, оскільки у базі для цього передбачено параметри:
1) граматичні (частина мови і категоріальні значення, напр., рід, число, відмінок, особа тощо);
2) структурні (моделі морфної структури слів різних частин мови; моделі керування – дієслівні, іменні, атрибутивні тощо);
3) лексико-семантичні (системні відношення: синонімія, антонімія, омонімія, ідеографія);
4) статистичні.

Система отримала схвальні відгуки від колег-лінгвістів із усієї України, адже Корпус дає можливість знаходити відповіді на несподівані питання та ставити нові проблеми перед лінгвістикою майбутнього.

Центр комунікацій

Повернутися до списку

Анонс подій

15.02.2017
План-графік конференцій Університету на 2017 рік
Наказ № 96-32 від 10.02.2017 "Затвердження плану-графіку та обсягу витрат на проведення наукових, науково-практичних, науково-теоретичних конференцій, наукових шкіл-семінарів у 2017 році". Розпорядження №17 від 15.02.2017 "Щодо наказів на проведення наукових, науково-практичних, науко... детальніше...
01.02.2017
Освітній семінар для аспірантів і докторантів «Академічна мобільність для молодих науковців: презентації фондів і грантових програм»

21 лютого о 14:00 в аудиторії 204 Головного навчального корпусу Київського національного університету імені Тараса Шевченка (вул. Володимирська, 60) відбудеться 
освітній семінар для аспірантів і докторантів «Академічна мобільність для молодих науковців: презентації фондів і грантових...
детальніше...
24.01.2017
Оголошено конкурс спільних українсько-польських науково-дослідних проектів для реалізації у 2017-2018 роках

Міністерство освіти і науки України та Міністерство науки та вищої освіти Республіки Польща оголошують конкурс спільних українсько-польських науково-дослідних проектів для реалізації у 2017 ‑ 2018 рр.


детальніше...
20.01.2017
Підготовка та прийняття анотованих звітів науково-дослідних робіт (їх етапів) за 2016 рік (розпорядження №2 від 20.01.2017 р.)
Про прийняття анотованих звітів науково-дослідних робіт (їх етапів) за 2016 рік детальніше...
12.01.2017
Засідання Вченої ради
16.01.2017 року о 10:00 в аудиторії 329 Головного корпусу Університету відбудеться засідання Вченої ради, на якому розглядатиметься питання «Про підсумки науково-дослідницької роботи в Київському національному університеті імені Тараса Шевченка у 2016 році та завдання щодо підвищення її ефективності»... детальніше...
30.12.2016
Вітаємо вас з Новим Роком та Різдвом Христовим!
детальніше...
Всі події