Национальный корпус русского языка. Общая характеристика и направления развития

Страницы работы

Содержание работы

Национальный корпус русского языка

Общая характеристика и направления развития

Что такое Национальный корпус?

  • Справочно-информационная система по национальному (государственному) языку
  • В основе – собрание текстов в электронной форме:
  • репрезентативное (для данного периода)
  • сбалансированное (пропорциональное присутствие текстов всех типов и жанров)
  • размеченное (текстам и словам приписана лингвистически существенная информация)

Цели создания Корпуса

  • Инструмент для научных исследований языка (теоретических и описательных, синхронных и диахронических)
    • Изучение лексики и морфосинтаксиса
  • Мониторинг языковых изменений, особенно небольших и постепенных
    • Социолингвистические исследования и изучение дискурса

Проект РАН

  • Начат в 2003 г. в рамках программы «Филология и информатика» (подготовительные работы с 2001 г.)
  • Основные участники: ИРЯ им. В.В. Виноградова РАН (Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.-Петербург), СПбГУ
  • Техническая поддержка компании Яндекс

Структура Корпуса

  1. Т.н. основной, или большой, корпус: морфологически размеченные современные русские тексты (с начала XIX в.).
  2. Доступно на сайте:
    • Корпус современных текстов (середина XX –начало XIX вв.)
  3. Ближайшее развитие:
    • Корпус ранних текстов (XIX в. и первая половина XX в.)

Структура Корпуса: продолжение

  1. Небольшой синтаксически размеченный корпус ИППИ РАН (около 500 тыс. словоупотреблений)
  2. Параллельный корпус (русско-английский)
  3. Древнерусский корпус XI-XIV вв. (http://io.udsu.ru:1300/mns/)

Основной корпус

  • Планируемый объем – 200 млн. слово-употреблений (в настоящее время доступно более 50 млн.)
  • Все виды письменных текстов и устные тексты
  • Ближайшее развитие:
    • Современные русские устные тексты (планируется поместить до 10 млн. словоупотреблений)
    • Диалектные тексты

Письменные тексты в корпусе

Художественные (проза и драматургия), мемуарные, публицистические, рекламные, научные, образовательные, религиозные, юридические и др., а также т.н. тексты ограниченного обращения (письменные тексты, не предназначенные для публикации: дневники, частные письма и т.п.)

Разметка в основном корпусе

  • Четыре основных типа:
  • «метатекстовая» разметка
  • морфологическая разметка
  • акцентная разметка
  • семантическая разметка

Метатекстовая разметка

  • «Паспорт текста»: автор (имя, пол, возраст), название, дата создания, объем (в словах)
  • Для художественных текстов: жанр (юмор, фэнтези и т.п.), тип текста (рассказ, роман и т.п.), место и время описываемых событий
  • Для нехудожественных текстов: функциональ-ная сфера, тип и тематика текста
  • По всем метатекстовым параметрам возможен поиск

Морфологическая разметка

  • Автоматический морфологический анализ без снятия омонимии
  • Ручное снятие омонимии и акцентуация в небольшом «эталонном» массиве (планируемый объем – около 5 млн. словоупотреблений)
  • Морфологическая информация: часть речи; словоизменительные и словоклассифицирую-щие категории; фамилии, имена, отчества; нестандартные формы (искаженные или аномальные)

Семантическая разметка

  • На основе системы «Лексикограф»
  • Фасетная классификация
  • Типы признаков:
    • таксономия (родо-видовые: лица, инструменты и т.п.)
    • мереология (части, совокупности и т.п.)
    • топология (вместилища, поверхности и т.п.)
    • оценка
    • словообразование

Онлайновый поиск: пример 1

  • Все словоформы заданной лексемы:
    • существительное полотно
    • глагол разрезать

Онлайновый поиск: пример 2

  • Поиск по словообразовательным характеристикам:
    • все прилагательные на псевдо-
    • все / некоторые глаголы с приставкой под-, управляющие ИГ с предлогом под (вида подсунуть под дверь)

Онлайновый поиск: пример 3

  • Поиск по грамматическим характеристикам:
    • все (специализированные) формы VOC.SG
    • выбор между GEN.SG и GEN2.SG в заданной конструкции:
    • с по́ла vs. с по́лу

Онлайновый поиск: пример 4

  • Поиск по семантическим характеристикам:
    • все названия музыкальных инструментов
    • все названия отрезков времени в предложных конструкциях вида с января по июль или с четверга на пятницу

Сравнение с другими корпусами

  • BNC (английский), ČNK (чешский), HANCO (русский)
  • Отличительные особенности НКРЯ:
    • относительно большой объем
    • возможность поиска по метатекстовым параметрам
    • детальная морфологическая разметка с ручным снятием омонимии в части корпуса

Похожие материалы

Информация о работе