Другие предметы \ Филология

Национальный корпус русского языка. Общая характеристика и направления развития

Страницы работы

17 страниц (Word-файл)

Посмотреть все страницы

Скачать файл

Содержание работы

Национальный корпус русского языка

Общая характеристика и направления развития

Что такое Национальный корпус?

Справочно-информационная система по национальному (государственному) языку
В основе – собрание текстов в электронной форме:
репрезентативное (для данного периода)
сбалансированное (пропорциональное присутствие текстов всех типов и жанров)
размеченное (текстам и словам приписана лингвистически существенная информация)

Цели создания Корпуса

Инструмент для научных исследований языка (теоретических и описательных, синхронных и диахронических)
- Изучение лексики и морфосинтаксиса
Мониторинг языковых изменений, особенно небольших и постепенных
- Социолингвистические исследования и изучение дискурса

Проект РАН

Начат в 2003 г. в рамках программы «Филология и информатика» (подготовительные работы с 2001 г.)
Основные участники: ИРЯ им. В.В. Виноградова РАН (Москва), ВИНИТИ РАН (Москва); ИЛИ РАН (С.-Петербург), СПбГУ
Техническая поддержка компании Яндекс

Структура Корпуса

Т.н. основной, или большой, корпус: морфологически размеченные современные русские тексты (с начала XIX в.).
Доступно на сайте:
- Корпус современных текстов (середина XX –начало XIX вв.)
Ближайшее развитие:
- Корпус ранних текстов (XIX в. и первая половина XX в.)

Структура Корпуса: продолжение

Небольшой синтаксически размеченный корпус ИППИ РАН (около 500 тыс. словоупотреблений)
Параллельный корпус (русско-английский)
Древнерусский корпус XI-XIV вв. (http://io.udsu.ru:1300/mns/)

Основной корпус

Планируемый объем – 200 млн. слово-употреблений (в настоящее время доступно более 50 млн.)
Все виды письменных текстов и устные тексты
Ближайшее развитие:
- Современные русские устные тексты (планируется поместить до 10 млн. словоупотреблений)
- Диалектные тексты

Письменные тексты в корпусе

Художественные (проза и драматургия), мемуарные, публицистические, рекламные, научные, образовательные, религиозные, юридические и др., а также т.н. тексты ограниченного обращения (письменные тексты, не предназначенные для публикации: дневники, частные письма и т.п.)

Разметка в основном корпусе

Четыре основных типа:
«метатекстовая» разметка
морфологическая разметка
акцентная разметка
семантическая разметка

Метатекстовая разметка

«Паспорт текста»: автор (имя, пол, возраст), название, дата создания, объем (в словах)
Для художественных текстов: жанр (юмор, фэнтези и т.п.), тип текста (рассказ, роман и т.п.), место и время описываемых событий
Для нехудожественных текстов: функциональ-ная сфера, тип и тематика текста
По всем метатекстовым параметрам возможен поиск

Морфологическая разметка

Автоматический морфологический анализ без снятия омонимии
Ручное снятие омонимии и акцентуация в небольшом «эталонном» массиве (планируемый объем – около 5 млн. словоупотреблений)
Морфологическая информация: часть речи; словоизменительные и словоклассифицирую-щие категории; фамилии, имена, отчества; нестандартные формы (искаженные или аномальные)

Семантическая разметка

На основе системы «Лексикограф»
Фасетная классификация
Типы признаков:
- таксономия (родо-видовые: лица, инструменты и т.п.)
- мереология (части, совокупности и т.п.)
- топология (вместилища, поверхности и т.п.)
- оценка
- словообразование

Онлайновый поиск: пример 1

Все словоформы заданной лексемы:
- существительное полотно
- глагол разрезать

Онлайновый поиск: пример 2

Поиск по словообразовательным характеристикам:
- все прилагательные на псевдо-
- все / некоторые глаголы с приставкой под-, управляющие ИГ с предлогом под (вида подсунуть под дверь)

Онлайновый поиск: пример 3

Поиск по грамматическим характеристикам:
- все (специализированные) формы VOC.SG
- выбор между GEN.SG и GEN2.SG в заданной конструкции:
- с по́ла vs. с по́лу

Онлайновый поиск: пример 4

Поиск по семантическим характеристикам:
- все названия музыкальных инструментов
- все названия отрезков времени в предложных конструкциях вида с января по июль или с четверга на пятницу

Сравнение с другими корпусами

BNC (английский), ČNK (чешский), HANCO (русский)
Отличительные особенности НКРЯ:
- относительно большой объем
- возможность поиска по метатекстовым параметрам
- детальная морфологическая разметка с ручным снятием омонимии в части корпуса

Информация о работе

ВУЗ:

Национальный технический университет «Харьковский Политехнический Институт» (ХПИ)

Предмет:

Филология

Тип:

Дополнительные материалы

Категория:

Другие предметы (Гуманитарные предметы)

Размер файла:

125 Kb

Скачали:

Скачать файл

Национальный корпус русского языка. Общая характеристика и направления развития

Страницы работы

Содержание работы

Похожие материалы

Информация о работе