Філологи КНУ створили Електронний корпус текстів української мови

22.01.2016 Група дослідників лабораторії комп’ютерної лінгвістики кафедри сучасної української мови Інституту філології на чолі з доктором філологічних наук Наталією Дарчук за п'ять років створила електронне зібрання текстів українською мовою, що не поступається аналогічним ресурсам у Польщі, Австрії, Великій Британії та Німеччині. Проект http://www.mova.info — відкритий та безкоштовний, корисний не лише фахівцям-лінгвістам, а й письменникам, журналістам і науковцям як в Україні, так і за кордоном.




Корпус української мови – це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань «яке слово краще вжити у тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто у текстах використовується та чи інша словоформа?».

Близько 50 млн. слововживань введено до Корпусу протягом п’яти років. Підкорпус публіцистики становить 17 млн. слововживань; художньої прози – 24 млн.; поезії – 1 млн.; наукового стилю – 3 млн.; офіційно-ділового – 2 млн., фольклору – 32 тис. Кожен уведений текст маркується за жанровими особливостями й типом тексту. Навіть найвибагливіший користувач Корпусу знайде текст на свій смак.

Найближчими роками планується розширити Корпус до 100 млн. слововживань, доповнивши його українською мовою з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів та дати підґрунтя для роботи літераторів з віршованими розмірами, ритмікою та строфікою поетичних текстів. Британський національний корпус нараховує 100 млн. слововживань, Корпус австралійської періодики – 300 млн., Корпус чеської мови – 300 млн., Корпус німецької мови – 778 млн. слововживань.

Фахівці лінгвістичних і нелінгвістичних дисциплін за допомогою Корпусу можуть легко збирати та зберігати мовні факти, складати масштабні дослідницькі бази «під проблему»: для формування словника, укладання словникової статті, пошуку прикладів із слововживання в українській мові – для бакалаврських, магістерських чи кандидатських робіт. Українська лінгвістика тепер має зручний інструмент для розгляду дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.

Корпус текстів може бути джерелом для укладання різних словників, зокрема:
• алфавітно-частотних – слів і словоформ;
• граматичних – з морфологічною або синтаксичною інформацією, напр., про синтаксичні моделі – дієслівні, субстантивні, атрибутивні;
• морфемних і словотвірних – із частотними характеристиками, за якими можна вивчати комбінаторно-дистрибутивну будову слів або словотвірне значення кожної афіксальної морфеми в текстах;
• тезаурусів;
• словників неолексем.

І це цілком можливо, оскільки у базі для цього передбачено параметри:
1) граматичні (частина мови і категоріальні значення, напр., рід, число, відмінок, особа тощо);
2) структурні (моделі морфної структури слів різних частин мови; моделі керування – дієслівні, іменні, атрибутивні тощо);
3) лексико-семантичні (системні відношення: синонімія, антонімія, омонімія, ідеографія);
4) статистичні.

Система отримала схвальні відгуки від колег-лінгвістів із усієї України, адже Корпус дає можливість знаходити відповіді на несподівані питання та ставити нові проблеми перед лінгвістикою майбутнього.

Центр комунікацій

Повернутися до списку

Анонс подій

13.12.2018
Розпорядження № 113 від 10.12.2018 "Про створення комісії з матеріального заохочення"
Про створення комісії з матеріального заохочення детальніше...
13.12.2018
Проект нашої молодої вченої буде профінансовано у 2019 році
2019-го МОН профінансує 54 нові проекти молодих вчених з вишів та наукових установ Міністерства. Відповідне рішення було прийнято Конкурсною комісією з відбору проектів під головуванням заступника Міністра освіти і науки Максима Стріхи детальніше...
11.12.2018
Конкурс Ф86 на гранти Президента України для підтримки наукових досліджень молодих учених у 2020 році
Державний фонд фундаментальних досліджень (ДФФД) оголосив конкурс Ф86 на гранти Президента України для підтримки наукових досліджень молодих учених у 2020 році детальніше...
10.12.2018
Вітаємо наших співробітників із присудження премій Президента України для молодих вчених
УКАЗ ПРЕЗИДЕНТА УКРАЇНИ №419/2018 "Про присудження премій Президента України для молодих вчених 2018 року"
детальніше...
03.12.2018
Вітаємо наших співробітників із відзначенням державними нагородами України
Співробітники Університету були відзначенні державними нагородами України з нагоди 27-ї річниці підтвердження всеукраїнським референдумом Акта проголошення незалежності України 1 грудня 1991 року детальніше...
23.11.2018
Державні стипендії на честь Героїв Небесної Сотні для молодих учених
25 найкращих молодих учених зможуть щороку отримувати державні стипендії на честь Героїв Небесної Сотні, – постанова Уряду детальніше...
Всі події