Сжатие данных. Теоретические основы сжатия данных. Методы сжатия

Страницы работы

Уважаемые коллеги! Предлагаем вам разработку программного обеспечения под ключ.

Опытные программисты сделают для вас мобильное приложение, нейронную сеть, систему искусственного интеллекта, SaaS-сервис, производственную систему, внедрят или разработают ERP/CRM, запустят стартап.

Сферы - промышленность, ритейл, производственные компании, стартапы, финансы и другие направления.

Языки программирования: Java, PHP, Ruby, C++, .NET, Python, Go, Kotlin, Swift, React Native, Flutter и многие другие.

Всегда на связи. Соблюдаем сроки. Предложим адекватную конкурентную цену.

Заходите к нам на сайт и пишите, с удовольствием вам во всем поможем.

Фрагмент текста работы

Лекция   11.

Глава 12. Сжатие данных

 Регулярно возникает необходимость сжимания данных перед размещением их в архивах с целью уменьшения занимаемого ими дискового пространства. Соответственно, возникает и обратная задача восстановления данных их предварительно уплотненных архивов.

12.1.  Теоретические основы сжатия данных

 Характерной особенностью большинства данных является определенная избыточность, которая зависит от:

 а) типа данных (так, у видеоданных степень избыточности обычно в несколько раз больше, чем у графических, а у графических – больше, чем у текстовых);

 б) принятой системы кодирования (так, кодирование текстовой информации с помощью русского алфавита дает в среднем избыточность на 20-30% больше, чем при использовании английского языка).

 Использование избыточности: улучшение восприятия информации, особенно в неблагоприятных условиях (просмотр телепередач при наличии помех, восстановление поврежденного графического материала и т.д.); повышение качества информации при ее обработке. Избыточность следует уменьшать для хранения готовых документов, что достигается эффектом сжатия данных.

Избыточность  кодирования

Информация в теории информации определяется только вероятностными (статистическими) свойствами сообщений. Все другие их свойства, например, полезность, интонации или принадлежность автору, игнорируются.

Пусть {X, p(x)} ансамбль сообщений, Х={х12,...,хL}, p(xi)-вероятность i-го сообщения. Количеством собственной информации или собственной информациейв сообщении хi называется число I(xi), определяемое как:

I(xi) = -log(p(xi)),  i = 1, 2, ..., L

Количество информации измеряется в битах

Таким образом, если мы имеем источник, выдающий с  равной вероятностью числа 0 и 1 (то есть P(0)=P(1)=1/2), то информация, приходящаяся на одну цифру,  равна  -log(1/2)  =  1 бит.

     Рассмотрим несколько примеров, в каждом из которых  будем предполагать, что вероятности всех символов одинаковы. В случае русского алфавита (33 буквы)  количество  информации, приходящейся на одну букву равно log(33)=5.044 битов, в случае латинского - log(26)=4.7, для десятичных цифр - 3.32 бита на символ.

     Как уже говорилось выше, если источник выдает цифры 0 и 1 с одинаковой вероятностью 1/2, то  количество  информации, приходящейся на одну цифру равно log(1/2)=1 биту. Предположим теперь, что цифры появляются с  различной  вероятностью,

P(0)=p, P(1)=q=1-p. Тогда количество информации, содержащейся в одной цифре, так же будет различным.  Если  P(0)=0.99  и P(1)=0.01, то количество информации,  соответствующей  цифре "0" будет равно -log(0.99)=0.0145 битов, а цифре "1" –

 -log(0.01)=6.64 бита.

Свойства информации:

1. Информация всегда неотрицательна: I ³ 0.

2. Для независимых сообщений p(xi,yj) = p(xi)×p(yj), следовательно: (свойство аддитивности)

I(xi,yj) = I(xi) + I(yj)

Математическое ожидание H(X) случайной величины I(x), определенной на ансамбле {X, p(x)}, называется энтропией этого ансамбля:

 (M-оператор математического ожидания).

Иными словами - это среднее количество собственной информации в сообщениях ансамбля Х. Энтропия рассматривается также как мера беспорядка в системе. Как известно, энтропия имеет тенденцию постоянно возрастать.

Свойства энтропии:

1. Энтропия неотрицательна: Н(Х) ³ 0.

2. Энтропия не может превышать логарифма количества сообщений: H(X) < logL.

3. Для статистически независимых сообщений: (свойство аддитивности)

H(XY) = H(X) + H(Y)

Поставим в соответствие каждому сообщению xi в соответствие код ai из некоторого алфавита A={a1,a2,...,aL}. Тогда, стоимостью кодированиябудет называться величина

где |a|-длина кода a в битах. В случае, когда длины всех кодов одинаковы и равны logL, мы получаем: C(X)=logL. Иначе говоря, под стоимостью кодирования понимается средняя длина кодового слова в битах .

Избыточность кодирования R равна разности между стоимостью кодирования C и энтропией H: R = C - H.

Величина R для декодируемых сообщений всегда больше нуля и в пределе

Похожие материалы

Информация о работе

Уважаемые коллеги! Предлагаем вам разработку программного обеспечения под ключ.

Опытные программисты сделают для вас мобильное приложение, нейронную сеть, систему искусственного интеллекта, SaaS-сервис, производственную систему, внедрят или разработают ERP/CRM, запустят стартап.

Сферы - промышленность, ритейл, производственные компании, стартапы, финансы и другие направления.

Языки программирования: Java, PHP, Ruby, C++, .NET, Python, Go, Kotlin, Swift, React Native, Flutter и многие другие.

Всегда на связи. Соблюдаем сроки. Предложим адекватную конкурентную цену.

Заходите к нам на сайт и пишите, с удовольствием вам во всем поможем.