Справочно-информационная система по национальному (государственному) языку
В основе – собрание текстов в электронной форме:
репрезентативное (для данного периода)
сбалансированное (пропорциональное присутствие текстов всех типов и жанров)
размеченное (текстам и словам приписана лингвистически существенная информация)
Цели создания Корпуса
Инструмент для научных исследований языка (теоретических и описательных, синхронных и диахронических)
Изучение лексики и морфосинтаксиса
Мониторинг языковых изменений, особенно небольших и постепенных
Социолингвистические исследования и изучение дискурса
Проект РАН
Начат в 2003 г. в рамках программы «Филология и информатика» (подготовительные работы с 2001 г.)
Основные участники: ИРЯ им. В.В. Виноградова РАН (Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.-Петербург), СПбГУ
Техническая поддержка компании Яндекс
Структура Корпуса
Т.н. основной, или большой, корпус: морфологически размеченные современные русские тексты (с начала XIX в.).
Доступно на сайте:
Корпус современных текстов (середина XX –начало XIX вв.)
Ближайшее развитие:
Корпус ранних текстов (XIX в. и первая половина XX в.)
Структура Корпуса: продолжение
Небольшой синтаксически размеченный корпус ИППИ РАН (около 500 тыс. словоупотреблений)
Параллельный корпус (русско-английский)
Древнерусский корпус XI-XIV вв. (http://io.udsu.ru:1300/mns/)
Основной корпус
Планируемый объем – 200 млн. слово-употреблений (в настоящее время доступно более 50 млн.)
Все виды письменных текстов и устные тексты
Ближайшее развитие:
Современные русские устные тексты (планируется поместить до 10 млн. словоупотреблений)
Диалектные тексты
Письменные тексты в корпусе
Художественные (проза и драматургия), мемуарные, публицистические, рекламные, научные, образовательные, религиозные, юридические и др.,
а также т.н. тексты ограниченного обращения (письменные тексты, не предназначенные для публикации: дневники, частные письма и т.п.)
Разметка в основном корпусе
Четыре основных типа:
«метатекстовая» разметка
морфологическая разметка
акцентная разметка
семантическая разметка
Метатекстовая разметка
«Паспорт текста»: автор (имя, пол, возраст), название, дата создания, объем (в словах)
Для художественных текстов: жанр (юмор, фэнтези и т.п.), тип текста (рассказ, роман и т.п.), место и время описываемых событий
Для нехудожественных текстов: функциональ-ная сфера, тип и тематика текста
По всем метатекстовым параметрам возможен поиск
Морфологическая разметка
Автоматический морфологический анализ без снятия омонимии
Ручное снятие омонимии и акцентуация в небольшом «эталонном» массиве (планируемый объем – около 5 млн. словоупотреблений)
Морфологическая информация: часть речи; словоизменительные и словоклассифицирую-щие категории; фамилии, имена, отчества; нестандартные формы (искаженные или аномальные)
Семантическая разметка
На основе системы «Лексикограф»
Фасетная классификация
Типы признаков:
таксономия (родо-видовые: лица, инструменты и т.п.)
мереология (части, совокупности и т.п.)
топология (вместилища, поверхности и т.п.)
оценка
словообразование
Онлайновый поиск: пример 1
Все словоформы заданной лексемы:
существительное полотно
глагол разрезать
Онлайновый поиск: пример 2
Поиск по словообразовательным характеристикам:
все прилагательные на псевдо-
все / некоторые глаголы с приставкой под-, управляющие ИГ с предлогом под (вида подсунуть под дверь)
Онлайновый поиск: пример 3
Поиск по грамматическим характеристикам:
все (специализированные) формы VOC.SG
выбор между GEN.SG и GEN2.SG в заданной конструкции:
с по́ла vs. с по́лу
Онлайновый поиск: пример 4
Поиск по семантическим характеристикам:
все названия музыкальных инструментов
все названия отрезков времени в предложных конструкциях вида с января по июль или с четверга на пятницу
Сравнение с другими корпусами
BNC (английский), ČNK (чешский), HANCO (русский)
Отличительные особенности НКРЯ:
относительно большой объем
возможность поиска по метатекстовым параметрам
детальная морфологическая разметка с ручным снятием омонимии в части корпуса