Отчет по учебной исследовательской работе «Исследование текстового документа», страница 3

Проблема универсального средства кодирования достаточно успешно реализуется в отдельных отраслях техники, науки, культуры. В качестве примеров можно привести систему записи математических формул, телеграфную азбуку, систему Брайля и многое другое.

В вычислительно технике существует своя система, которая называется двоичным кодированием. Она основана на представлении данных последовательностью всего двух знаков: 0 и 1. Эти знаки называются двоичными цифрами, по-английски – binary digit или сокращенно bit (бит).

При хранении текстовых данных важной характеристикой является компактность хранения. Очевидно, что она зависит от способа кодирования. Существуют различные стандартные базовые таблицы кодировок текстовых символов, наибольшее распространение из которых нашли ASCII, КОИ-8 и Windows 1251.

Вызывает интерес 16-разрядная система кодирования символов, получившая название UNICODE. Поскольку она позволяет использовать 65536 двоичных комбинаций, снимаются проблемы представления символов большинства языков (алфавитов) планеты.

Для облегчения работы с кодированными текстами обычно используются специальные программы, называемые текстовыми процессорами, текстовыми редакторами и т.п. Наибольшее распространение получил текстовый редактор Microsoft Word, входящий составной частью в пакет программ Microsoft Office. Простота и удобство работы с Word обеспечили его международное признание. Однако за удобства работы приходится расплачиваться. В частном случае в качестве такой платы выступает повышенный расход памяти, требуемой для хранения документа в формате Word.

Целью предлагаемого исследования является определение требуемой относительной (удельной) емкости памяти для одного символа, используемого в текстовом редакторе Microsoft Word при хранении комплексного документа в формате Word.


2 Индивидуальные исходные данные

Сформировать исходный текст, письменно ответив на заданные согласно варианту три вопроса. Ответы оформить в виде комплексного документа согласно требованиям стандарта (см. учебное пособие INF050.doc). Электронную копию полученного документа сохранить в индивидуальной папке на выделенном для учебной группы дисковом пространстве.

Используя полученные тексты в формате Word, заполнить таблицу исходных данных. Для этого сформировать и сохранить на рабочем диске (D) в индивидуальной папке в формате Word одиннадцать соответствующих вспомогательных файлов.

Для иллюстрации привести копию одной страницы текста в виде рисунка (см. рис. 1).

Рис. 1. Образец текста.


3 Уточнение исходных данных

Для заданного варианта исходные экспериментальные данные отструктурированы и представлены в табл. 1.

Таблица 1. Уточненные исходные данные.

Количество страниц

Характеристика страниц

Количество символов на странице, S

Емкость файла в битах, Z

Удельная емкость, u

Приведенная удельная емкость, pu

0

Одна страница без текста

1

19456

-

1

Одна страница с текстовым документом

1763

23040

13,07

2,03

2

Две страницы со связанным текстом

3526

27648

7,84

2,32

3

Три страницы со связанным текстом

5289

32256

6,10

2,42

4

Четыре страницы со связанным текстом

7052

36864

5

Пять страниц со связанным текстом

8815

41472

6

Шесть страниц со связанным текстом

10578

46080

7

Семь страниц со связанным текстом

12341

50688

8

Восемь страниц со связанным текстом

14104

55296

9

Девять страниц со связанным текстом

15867

59904

10

Десять страниц со связанным текстом

17630

64512