Национальный корпус русского языка
Общая характеристика
и направления развития
Что такое Национальный корпус?
-
Справочно-информационная система по национальному (государственному) языку
-
В основе – собрание текстов в электронной форме:
-
репрезентативное (для данного периода)
-
сбалансированное (пропорциональное присутствие текстов всех типов и жанров)
-
размеченное (текстам и словам приписана лингвистически существенная информация)
Цели создания Корпуса
-
Инструмент для научных исследований языка (теоретических и описательных, синхронных и диахронических)
-
Изучение лексики и морфосинтаксиса
-
Мониторинг языковых изменений, особенно небольших и постепенных
-
Социолингвистические исследования и изучение дискурса
Проект РАН
-
Начат в 2003 г. в рамках программы «Филология и информатика» (подготовительные работы с 2001 г.)
-
Основные участники: ИРЯ им. В.В. Виноградова РАН (Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.-Петербург), СПбГУ
-
Техническая поддержка компании Яндекс
Структура Корпуса
-
Т.н. основной, или большой, корпус: морфологически размеченные современные русские тексты (с начала XIX в.).
-
Доступно на сайте:
-
Корпус современных текстов (середина XX –начало XIX вв.)
-
Ближайшее развитие:
-
Корпус ранних текстов (XIX в. и первая половина XX в.)
Структура Корпуса: продолжение
-
Небольшой синтаксически размеченный корпус ИППИ РАН (около 500 тыс. словоупотреблений)
-
Параллельный корпус (русско-английский)
-
Древнерусский корпус XI-XIV вв. (http://io.udsu.ru:1300/mns/)
Основной корпус
-
Планируемый объем – 200 млн. слово-употреблений (в настоящее время доступно более 50 млн.)
-
Все виды письменных текстов и устные тексты
-
Ближайшее развитие:
-
Современные русские устные тексты (планируется поместить до 10 млн. словоупотреблений)
-
Диалектные тексты
Письменные тексты в корпусе
Художественные (проза и драматургия), мемуарные, публицистические, рекламные, научные, образовательные, религиозные, юридические и др.,
а также т.н. тексты ограниченного обращения (письменные тексты, не предназначенные для публикации: дневники, частные письма и т.п.)
Разметка в основном корпусе
-
Четыре основных типа:
-
«метатекстовая» разметка
-
морфологическая разметка
-
акцентная разметка
-
семантическая разметка
Метатекстовая разметка
-
«Паспорт текста»: автор (имя, пол, возраст), название, дата создания, объем (в словах)
-
Для художественных текстов: жанр (юмор, фэнтези и т.п.), тип текста (рассказ, роман и т.п.), место и время описываемых событий
-
Для нехудожественных текстов: функциональ-ная сфера, тип и тематика текста
-
По всем метатекстовым параметрам возможен поиск
Морфологическая разметка
-
Автоматический морфологический анализ без снятия омонимии
-
Ручное снятие омонимии и акцентуация в небольшом «эталонном» массиве (планируемый объем – около 5 млн. словоупотреблений)
-
Морфологическая информация: часть речи; словоизменительные и словоклассифицирую-щие категории; фамилии, имена, отчества; нестандартные формы (искаженные или аномальные)
Семантическая разметка
-
На основе системы «Лексикограф»
-
Фасетная классификация
-
Типы признаков:
-
таксономия (родо-видовые: лица, инструменты и т.п.)
-
мереология (части, совокупности и т.п.)
-
топология (вместилища, поверхности и т.п.)
-
оценка
-
словообразование
Онлайновый поиск: пример 1
-
Все словоформы заданной лексемы:
-
существительное полотно
-
глагол разрезать
Онлайновый поиск: пример 2
-
Поиск по словообразовательным характеристикам:
-
все прилагательные на псевдо-
-
все / некоторые глаголы с приставкой под-, управляющие ИГ с предлогом под (вида подсунуть под дверь)
Онлайновый поиск: пример 3
-
Поиск по грамматическим характеристикам:
-
все (специализированные) формы VOC.SG
-
выбор между GEN.SG и GEN2.SG в заданной конструкции:
-
с по́ла vs. с по́лу
Онлайновый поиск: пример 4
-
Поиск по семантическим характеристикам:
-
все названия музыкальных инструментов
-
все названия отрезков времени в предложных конструкциях вида с января по июль или с четверга на пятницу
Сравнение с другими корпусами
-
BNC (английский), ČNK (чешский), HANCO (русский)
-
Отличительные особенности НКРЯ:
-
относительно большой объем
-
возможность поиска по метатекстовым параметрам
-
детальная морфологическая разметка с ручным снятием омонимии в части корпуса