Эффективность поиска информации в сети Интернет

Страницы работы

Содержание работы

Министерство образования и науки Российской Федерации

Новосибирский Государственный Технический Университет

Лабораторная работа №8

По дисциплине: «Мировые Информационные Ресурсы»

Тема: «Эффективность поиска информации в сети Интернет»

Факультет: Бизнеса

Группа: ФБИ- 51

Выполнили: Бабаев Р.Р., Виленкин А.М.

Проверила:    Каширина А.М.

Новосибирск

2009

Задание на лабораторную работу:

1.  Составить список 4 русско- или англоязычных поисковых машин. Привести краткую характеристику, провести анализ. Результаты анализа поместить в таблицу.

2.   Описать особенности поиска и индексации документов в каждой из систем.

3.  Сформулировать сложных запрос (такой, чтобы количество найденных сайтов не превышало 2-3 страницы)  и представить результат выполнения в виде таблицы 2. Поиск осуществить с помощью 4-х поисковых систем. Сделать выводы.

4.  Используя запрос из п.3 оценить эффективность поиска информации с помощью показателей релевантности (полнота выдачи, точность выдачи, потери информации, информационный шум) во всех четырех поисковых системах. Для определения показателя  «с» считайте, что всё множество релевантных документов равно максимальному количеству релевантных документов из всех поисковых систем.

5.  Указать, в каких из выбранных вами систем существует возможность расширенного поиска.

6.  Изучить операторы расширенного поиска. Привести их в отчете.

7.  Составить несколько запросов, используя операторы языка расширенного поиска, в разных поисковых машинах. Привести результаты. Сделать выводы.

Сначала мы составляем список 4 русско- или англоязычных поисковых машин. Затем приводим краткую характеристику, проводим анализ. Результаты анализа помещаем в таблицу.

Таблица 1

№ п/п

Название поисковой системы и компании

URL

Город (адрес), где расположен сервер

Общее количество индексированных страниц (уникальных документов)

Количество страниц или байт индексируемых в день, неделю или месяц

Количество запросов в день

Стоимость рекламы

1

Yandex

www.yandex.ru

Главный офис компании находится в Москве. У rомпании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве

общий объем русскоязычных документов в сети Интернет превысил 100 гигабайт. Системой Яndex на данный момент проиндексировано 101,94 Гб. русскоязычная часть Паутины содержит в общей сложности более 10 миллионов страниц.

Количество URL - 1324% Серверы - 345% Объем - 1618% Количество страниц на одном сервере - 384% Объем страницы -122% Объем сервера - 469%

Более 2 миллионов запросов в день

Минимальная стоимость заказа – 21 тыс. руб. Реклама размещается только динамическими пакетами.

2

Google

www.google.ru

По заявлению Google, на данный момент их база данных насчитывает более 1,346,966,000 проиндексированных страниц.

Лидер поисковых машин интернета, Google занимает более 60 % мирового рынка, а значит, шесть из десяти находящихся в сети людей обращаются к его странице в поисках информации в интернете.

Сейчас регистрирует ежедневно около 50 млн поисковых запросов и индексирует более 8 миллиардов веб-страниц.

Цена от 33 000 рублей на первой странице. Ниже первой страницы цена от 18 тыс. руб.

 

№ п/п

Название поисковой системы и компании

URL

Город (адрес), где расположен сервер

Общее количество индексированных страниц (уникальных документов)

Количество страниц или байт индексируемых в день, неделю или месяц

Количество запросов в день

Стоимость рекламы

 

3

Yahoo

www.yahoo.ru

Главный офис компании находится в городе Саннивейл (англ. Sunnyvale), штат Калифорния, США.

жедневно пользователи поисковой машины Nigma.ru делают более 1 миллиона переходов на сайты

, ежемесячная аудитория составляет более 2 100 000 уникальных посетителей.

Глобальная сеть веб-сайтов Yahoo! обрабатывает 3,4 млрд запросов веб-страниц в день

Стоимость размещения рекламы на сайте yahoo колеблется в районе 20 тыс. рублей. Всё зависит от самого типа рекламы, времени пребывания на сайте и месте расположения данной рекламы.

 

4

WebAlta

www.webalta.ru

Главный офис компании находится в Москве. Официальный партнёр конференции «Интернет и реклама».

Webalta планирует проиндексировать около миллиарда страниц.

Проиндексировано 737 422 974 документа объёмом  19 387 Гб

Webalta посещают около 50 000 пользователей, совершающих еженедельно более 500 000 запросов.

 Работает система контекстной рекламы Оптимист.

 

В результате мы изучили более менее подробно работу поисковых систем: Yandex, Google, Yahoo и WebAlta. Сразу, конечно же, можно отметить то, что поисковые системы Google и Yandex отличаются большим объёмом необходимой информации. То есть содержат больше интересующей пользователей информации. Поисковая система WebAlta классифицируется только на поиске преимущественно в России, что понижает интерес пользователей к данной системе. В поисковой системе Yahoo нам понравилось то, что всё интересующая нас информация раскладывается «по полочкам», то есть, указана категория каждой выданной информации: спортивная информация, историческая, политическая и т.д. В итоге, нам больше всего понравилась работа поисковой системы Google. Достоверная информация, которой на сервере очень много.

Далее, мы попробовали протестировать выбранные нами поисковые системы. Мы ввели одинаковый сложный запрос во все 4 системы и сделали вывод:

Запрос выглядел следующим образом: «классификация ядра СУБД в терминах Проектирования Информационных Систем».

Таблица 2

Поисковая система

Количество найденных сайтов

Количество релевантных сайтов

Время на просмотр первых пяти страниц

Дата самого свежей страницы

Дата самой старой страницы

Page not found

 

Yandex

13

8

Февраль 2008г.

Ноябрь 2001г.

-

Google

15

11

Март 2008г.

Апрель 1998г.

-

Yahoo

4

1

Июль 2007г.

Ноябрь 2000г.

-

Webalta

0

-

-

-

-

1

В результате проделанной работы мы выявили, что нас подвела лишь одна поисковая система: WebAlta. Не было найдено по нашему запросу ни одной страницы:

Теперь мы, используя запрос из п.3, оценим эффективность поиска информации с помощью показателей релевантности (полнота выдачи, точность выдачи, потери информации, информационный шум) во всех четырех поисковых системах.

Рассмотрим сначала поисковую систему :

Полнота выдачи (ПВ) =8 / (8+20) *100%=28,57%

Точность выдачи (ТВ) = 8 / (8+5) *100%=61,5%

Потери информации (ПИ) = 20 / (8+20) *100%=71,4%

Информационный шум (ИШ) = 5 / (8+5) *100%=38,48%

Следующей рассмотрим поисковую систему :

Полнота выдачи (ПВ) =11 / (11+20) *100%=35,48%

Точность выдачи (ТВ) = 11 / (11+4) *100%=73,3%

Потери информации (ПИ) = 20 / (11+20) *100%=64,51%

Информационный шум (ИШ) = 4 / (11+4) *100%=26,67%

Так как поисковая система WebAlta показала, что у неё не найдено ни одной интересующей нас страницы, то последней системой, в которой мы будем считать показатели становится :

Полнота выдачи (ПВ) =1 / (1+20) *100%=4,76%

Точность выдачи (ТВ) = 1 / (1+3) *100%=25%

Потери информации (ПИ) = 20 / (1+20) *100%=95,23%

Информационный шум (ИШ) = 3 / (1+3) *100%=75%

В результате можно сделать вывод, что поисковая система Google справилась лучше остальных с поиском необходимой информации. Yandex также справился с поставленной задачей, но, несколько хуже. Yahoo показала неудовлетворительные результаты, так как точность выдачи информации, равная всего лишь 25%  - это, конечно же, плохой показатель. Ну а система WebAlta с такими способностями должна в скором времени уйти с рынка поисковых систем.

Далее мы ознакомились с расширенным поиском в наших системах. Сразу надо сказать, что, опять же, «тест на проверку» не прошла поисковая система WebAlta. В этой системе не было расширенного поиска. Во всех остальных поисковых системах мы смогли успешно воспользоваться расширенным поиском. В каждой системе хороший грамотный расширенный поиск. В каждой из оставшихся трёх систем мы опробовали работу расширенного поиска и в каждой из наших систем результаты мы оценили как положительные: везде мы нашли то, что требовалось. Ниже указаны расширенные поиски наших систем:

Поисковая система Yahoo:

Поисковая система Yandex:

Поисковая система Google:

Вывод:

В результате всей проделанной нами работы мы больше узнали о поисковых системах: выявили особенности поиска и индексации документов в каждой из четырёх поисковых систем. Научились оценивать эффективность поиска информации с помощью показателей релевантности: полнота выдачи, точность выдачи, потери информации, информационный шум. Ознакомились со вспомогательным элементом в наших поисковых системах, таким как расширенный поиск.

Похожие материалы

Информация о работе