Яндекс для всех - Абрамзон М. Г (2007)
-
Год:2007
-
Название:Яндекс для всех
-
Автор:
-
Жанр:
-
Язык:Русский
-
Издательство:БХВ-Петербург
-
Страниц:245
-
ISBN:978-5-9775-0144-6
-
Рейтинг:
-
Ваша оценка:
Для людей которые только начинают пользоваться сетью Интернет.
Яндекс для всех - Абрамзон М. Г читать онлайн бесплатно полную версию книги
обратной частоты(IDf в терминах традиционного IR). Для этого на всех "собирающих" серверах хранится глобальная статистика терминов. Она изменяется медленно, поэтому обновляется относительно редко. Статистика подсчитывается по считающейся наиболее универсальной — вебовской — коллекции. Таким образом, каждая поисковая машина ищет ответ на запрос с назначенными "сверху" глобальными частотами, и значения релевантности, вычисляемые в разных коллекциях, можно считать последовательными и вычисляемыми "в одной системе координат". Модификации запросов этим не ограничиваются, и для специализированных коллекций (например, "энциклопедии") могут быть и другими, в том числе и очень специфическими.
4. 
Третья фаза обработки запроса: исполнение и ранжирование запроса в коллекциях— запрос выполняется паралельно для всех коллекций.
Следует отметить, что веб-коллекции документов распределены по машинам произвольно и, вообще говоря, могут быть расположены все вместе на одной машине. Слияние результатов производится на том из собирающих (метапоисковых) веб-серверов, на который попадал пользователь при заходе по адресу www.yandex.ru. Процесс раздачи запроса, описанный здесь, позволяет корректно ранжировать слитый результат. При этом не требуется переранжирование результатов, полученных из разных неоднородных коллекций с использованием локальных IDF, а также не нужен динамический обмен данными между источниками для вычисления глобальнойIDF.
1.2.1. "Пауки"
Мы ищем в Яндексе информацию и новости, картинки и значения слов, товары и услуги. На сегодняшний день в базе данных накоплена информация о миллионах документов и сайтов, огромном количестве новостей, графических изображений, сотнях тысяч предлагаемых товаров и услуг. За обновление информации в ней отвечают различные роботы.
Вот они, те роботы, которые выполняют основную работу по поиску и индексированию информации:
□ Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот;
□ Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок;
□ Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов;
□ Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons);
□ Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL";
□ Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке "Найденные слова";
□ YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.
А кроме них есть и несколько агентов, которые занимаются проверкой доступности сайта или документа, на который стоит ссылка в соответствующем сервисе. Их тоже несколько:
□ Yandex/2.01.000 (compatible; Win16; Dyatel; C) — "простукивалка" Яндекс. Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.;
□ Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — "простукивалка" Яндекс. Закладок. Ссылки на недоступные сайты помечаются серым цветом;
□ Yandex/2.01.000 (compatible; Win16; Dyatel; D) — "простукивалка" Яндекс. Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается;
□ Yandex/2.01.000 (compatible; Win16; Dyatel; N) — "простукивалка" Яндекс. Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.