- 1
- 2
- 3
- 4
- . . .
- последняя »
быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.Кроулеры просматривают заголовки и возращают только первую ссылку.Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.
Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.
Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).Тэги, в которых эти слова располагаются.Местоположение искомых слов в документе.Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
База данных
- 1
- 2
- 3
- 4
- . . .
- последняя »
Похожие работы
Тема: Поисковые системы |
Предмет/Тип: Информатика, ВТ, телекоммуникации (Реферат) |
Тема: Поисковые системы |
Предмет/Тип: Отсутствует (Реферат) |
Тема: Поисковые системы Интернета |
Предмет/Тип: Транспорт, грузоперевозки (Реферат) |
Тема: Современные поисковые системы |
Предмет/Тип: Отсутствует (Курсовая работа (т)) |
Тема: Поисковые юридические системы |
Предмет/Тип: Информатика, ВТ, телекоммуникации (Контрольная работа) |
Интересная статья: Быстрое написание курсовой работы