Яндекс для всех - Абрамзон М. Г (2007)
-
Год:2007
-
Название:Яндекс для всех
-
Автор:
-
Жанр:
-
Язык:Русский
-
Издательство:БХВ-Петербург
-
Страниц:245
-
ISBN:978-5-9775-0144-6
-
Рейтинг:
-
Ваша оценка:
Для людей которые только начинают пользоваться сетью Интернет.
Яндекс для всех - Абрамзон М. Г читать онлайн бесплатно полную версию книги
К примеру, при использовании словоформ при поиске слова иди в результаты попали различные формы этого слова, такие как "иду", "идем", "шли", "идущий", "идет" и др. Если бы параметр задан не был, нашлись бы только точно совпадающие с искомым слова.
На начальном этапе настройки с помощью директивы Debug можно задать режим получения отладочной информации.
Области индексирования
Для того чтобы поисковый сервер знал, где находятся документы, подлежащие индексированию, в конфигурационном файле описывается
область индексирования
— множество документов, которые индексируются с единым набором параметров. Например, каждый внешний источник данных соответствует одной отдельной области индексирования. Одной области индексирования принадлежат и все документы, путь к которым задан префиксом URL.
Область индексирования определяется секцией IndexedArea. В одном конфигурационном файле таких секций может быть несколько.
Существует три способа получения данных для индексирования:
□ чтение файлов, доступных в локальной сети, где работает индексатор, с использованием протоколов операционной системы;
□ обращение к веб-серверам по протоколу HTTP;
□ обращение к произвольному
внешнему источнику данных
по специальному протоколу, реализованному в модуле связи с источником данных.
Если URL получен чтением файлового каталога, содержимое документа может быть получено как чтением файла, так и по протоколу http — в зависимости от настроек. Если URL получен в результате распознавания гипертекстовой ссылки, содержимое документа может быть получено по протоколу HTTP. С помощью чтения локального файла содержимое документа можно получить, только если соответствующий веб-хост принадлежит локальной сети, и в настройках индексатора указаны нужные пути. Если содержимое документа может быть получено только по протоколу HTTP, документ считается принадлежащим внешнему хосту. Индексатор может проиндексировать только те внешние хосты, которые явно указаны в настройках.
Способ доступа к данным для каждой секции indexedArea определяется единственным образом и должен включать одну из возможных директив. Директива HttpPrefix определяет доступ по HTTP-протоколу, директива FilePrefix определяет путь к разделу в локальной сети.
Но можно обойтись и без этих директив, если список начальных адресов (URL) будет в явном виде задан в ключе StartUrls, например, так:
StartUrls =
Помимо пути доступа, для каждой области индексирования прописываются режим получения URL документа, режим получения содержимого документа, включая конфигурацию HTTP-заголовков и прокси-серверов для документов, получаемых по HTTP-протоколу, режим обновления индекса, кодировка символов, используемая в документах, набор атрибутов, значения которых можно использовать, к примеру, в качестве критериев поиска.
Например, для определения режима получения URL документа применяются такие директивы:
□ IndexFollow — индексирует документы и распознает гипертекстовые ссылки для получения URL новых документов;
□ IndexNofollow — позволяет индексировать документы, но не распознает гипертекстовые ссылки для получения URL новых документов;
□ NoindexFollow — если директива включена в конфигурационный файл, то индексатор не будет индексировать документы, а вот ссылки на новые документы, находящиеся в них, будет использовать для получения URL новых документов.
Поисковый сервер и защита от роботов