Філологи КНУ створили Електронний корпус текстів української мови

22.01.2016 Група дослідників лабораторії комп’ютерної лінгвістики кафедри сучасної української мови Інституту філології на чолі з доктором філологічних наук Наталією Дарчук за п'ять років створила електронне зібрання текстів українською мовою, що не поступається аналогічним ресурсам у Польщі, Австрії, Великій Британії та Німеччині. Проект http://www.mova.info — відкритий та безкоштовний, корисний не лише фахівцям-лінгвістам, а й письменникам, журналістам і науковцям як в Україні, так і за кордоном.




Корпус української мови – це електронне зібрання текстів, упорядковане, організоване й оформлене так, щоб ним мали змогу користуватися як науковці-професіонали, так і пересічні користувачі, які намагаються вдосконалити своє знання української мови. Тексти призначені не для читання, а для з’ясування важливих питань «яке слово краще вжити у тому чи іншому випадку?», «яке словосполучення буде більш доречним?», «як часто у текстах використовується та чи інша словоформа?».

Близько 50 млн. слововживань введено до Корпусу протягом п’яти років. Підкорпус публіцистики становить 17 млн. слововживань; художньої прози – 24 млн.; поезії – 1 млн.; наукового стилю – 3 млн.; офіційно-ділового – 2 млн., фольклору – 32 тис. Кожен уведений текст маркується за жанровими особливостями й типом тексту. Навіть найвибагливіший користувач Корпусу знайде текст на свій смак.

Найближчими роками планується розширити Корпус до 100 млн. слововживань, доповнивши його українською мовою з різних регіонів України та діаспори, текстами XIV–XVIII ст., зробити підкорпус усних текстів та дати підґрунтя для роботи літераторів з віршованими розмірами, ритмікою та строфікою поетичних текстів. Британський національний корпус нараховує 100 млн. слововживань, Корпус австралійської періодики – 300 млн., Корпус чеської мови – 300 млн., Корпус німецької мови – 778 млн. слововживань.

Фахівці лінгвістичних і нелінгвістичних дисциплін за допомогою Корпусу можуть легко збирати та зберігати мовні факти, складати масштабні дослідницькі бази «під проблему»: для формування словника, укладання словникової статті, пошуку прикладів із слововживання в українській мові – для бакалаврських, магістерських чи кандидатських робіт. Українська лінгвістика тепер має зручний інструмент для розгляду дискусійних питань правопису, моніторингу тенденцій розвитку мови, змін у мовній системі, інновацій у різних підсистемах мови, правописних норм у сучасному мовленні.

Корпус текстів може бути джерелом для укладання різних словників, зокрема:
• алфавітно-частотних – слів і словоформ;
• граматичних – з морфологічною або синтаксичною інформацією, напр., про синтаксичні моделі – дієслівні, субстантивні, атрибутивні;
• морфемних і словотвірних – із частотними характеристиками, за якими можна вивчати комбінаторно-дистрибутивну будову слів або словотвірне значення кожної афіксальної морфеми в текстах;
• тезаурусів;
• словників неолексем.

І це цілком можливо, оскільки у базі для цього передбачено параметри:
1) граматичні (частина мови і категоріальні значення, напр., рід, число, відмінок, особа тощо);
2) структурні (моделі морфної структури слів різних частин мови; моделі керування – дієслівні, іменні, атрибутивні тощо);
3) лексико-семантичні (системні відношення: синонімія, антонімія, омонімія, ідеографія);
4) статистичні.

Система отримала схвальні відгуки від колег-лінгвістів із усієї України, адже Корпус дає можливість знаходити відповіді на несподівані питання та ставити нові проблеми перед лінгвістикою майбутнього.

Центр комунікацій

Повернутися до списку

Анонс подій

11.12.2017
Семінар: "Можливості платформи Web of Science для науковця"
З метою вдосконалення рівня інформаційної грамотності та підвищення публікаційної активності наукової спільноти університету Служба інформаційного моніторингу Наукової бібліотеки ім. М. Максимовича організовує семінар на тему: «Можливості платформи Web of Science для науковця (Web of Science Core... детальніше...
06.12.2017
Електронні ресурси для навчання та наукової діяльності
Доступ до електронних ресурсів у локальній комп’ютерній мережі Київського національного університету імені Тараса Шевченка детальніше...
01.12.2017
Зустріч представників НДЧ Університету з професором Яном Конвалінку
30 листопада 2017 року в залі прийому міжнародних делегацій (ауд. 205 Головного корпусу) відбулася зустріч з проректором з науки, професором Яном Конвалінку. детальніше...
01.12.2017
Інформаційний бюлетень Науково-дослідної частини №4
Науково-дослідна частина пропонує ознайомитись із четвертим випуском Інформаційного бюлетеня детальніше...
29.11.2017
Результати досліджень науковців КНУ імені Тараса Шевченка – на сторінках Nature Communications!
Виникнення цілого ряду важких захворювань та небезпечних патологічних процесів вчені пов’язують із порушеннями функцій іонних каналів – молекул білків, що утворюють нанопори у мембранах клітин для селективного, регульованого транспорту різних іонів, відповідаючи за широкий спектр біологі... детальніше...
28.11.2017
Візит професа Яна Конвалінки до КНУ імені Тараса Шевченка
30 листопада 2017 року о 14.00 в ауд. № 205 в приміщенні Головного корпусу, в рамках угоди про співробітництво між Київським національним університетом імені Тараса Шевченка та Карловим університетом (м. Прага, Чехія) детальніше...
Всі події