Распознавание кодировки русского текста с помощью нейронной сети. Обоснование выбора метода распознавания, страница 2

§  последовательные, если s=1,

§  прямые, если s>1,

§  обратные, если s<0.

·  Полносвязные нейронные сети. Каждый нейрон в полносвязных сетях связан со всеми остальными. На каждом такте функционирования сети на входы нейронов подается вешний входной сигнал и выходы нейронов предыдущего такта.

·  Нейронные сети с локальными связями. Нейроны в таких сетях располагаются в узлах прямоугольной решетки. Каждый нейрон связан с небольшим числом (4 или 8) своих топологических соседей.

·  Неструктурированные нейронные сети. К этой группе относятся все модели нейронных сетей, которые нельзя отнести ни к одной из предыдущих групп.

Для конкретной задачи как правило требуется разработка нейронной сети специальной конфигурации. Задача выбора конфигурации сети на данный момент почти не формализована. Выбор производится исходя из личного опыта разработчика, а также на основе проведенных экспериментов, целью которых является определение соответствия возможностей сети поставленной задаче.

Однако зачастую для несложных задач можно смело использовать простейшую нейронную сеть – персептроны. Что и сделано в курсовой работе.

1  Описание задачи

1.1  Постановка задачи

В последнее время, в связи с распространением способа общения при помощи компьютера, многие сталкиваются с проблемой декодирования текстов, которые были перекодированы в одну из кодировок или прошли несколько ступеней перекодировки.

При пересылке письма по электронной почте, оно может пройти через компьютеры, которые меняют его текст по определенным правилам. Каждое отдельное подобное преобразование называется фильтром. Работа фильтра в упрощенном варианте может рассматриваться как замена одних букв на другие в соответствии с некоторой таблицей. Различных фильтров, реально использующихся в почтовых компьютерах, известно около десятка.

В настоящее время для решения вышеописанных проблем использования электронной почты существует большое множество программ, позволяющих перекодировать письма из одной кодировки символов в другую с целью приведения текста к удобочитаемому виду. Однако такой подход недостаточно удобен, к тому же он требует достаточного опыта и сил, чтобы по виду кодированного текста предугадать, через какой фильтр прошло письмо. Человек, вынужденный переписываться с разными частями света посредством электронной почты, сталкивается очень большим количеством кодировок. Поэтому не представляется возможным не только вручную подобрать правильную кодировку, но и найти программу, способную обрабатывать такое количество кодировок одновременно.

В связи с этими особенностями программное обеспечение, предназначенное для обработки кодировок писем электронной почты, должно обладать следующими качествами:

·  гибкость (возможность введения новых кодировок);

·  автоматическое определение кодировки;

·  простота интерфейса.

В курсовом проекте я предлагаю свою реализацию данных качеств в программе RCP (Recognize Code Page):

·  гибкость в программе достигается за счет сканирования каталога программы при каждом запуске. Во время сканирования производится поиск файлов кодировок. Таким образом, простым добавлением в каталог программы соответствующего файла можно расширить функциональные возможности программы. Также имеется возможность обучения нейронной сети для распознавания новых кодировок;

·  автоматическое определение кодировки осуществляется при помощи алгоритма распознавания с использованием нейронной сети;