Насколько точны результаты поисковых машин?
На сайте scip.org опубликована заметка, неназванный автор которой размышляет о точности данных, которые выдают поисковые машины в ответ на посланный запрос.
Он призывает не верить количеству ответов, которые выдают поисковые системы. Если они выдают 68 миллионов страниц, то будьте уверены, что вне вашего внимания остались еще столько же страниц, не замеченных машинами.
Автор ссылается на исследование с тремя поисковыми системами, убедительно показавшее, что результаты запросов (каждый в пределах 1 000 ответов) весьма приблизительны. Ни одна из систем не смогла точно выдать количество запрошенных по теме документов. Наиболее приближенным к реальным цифрам оказался самый короткий запрос – в одно слово. С добавлением каждого дополнительного слова результаты становятся все менее точными. Запрос в одно слово в 80% случаев достаточно точен. С добавлением одного слова процент точности сократился вдвое. Затем исследователи вводили запросы, состоящие из 5 слов, и точность результатов упала еще вдвое.
Автор публикации провел собственное исследование. Он ввел запрос в виде первой строфы шуточного стихотворения и получил 15 документов плюс предложение кликнуть на «omitted results» (пропущенные). Что он и сделал, получив в общей сложности 29 результатов, из которых просмотру поддавались только 21.
Эксперты считают, что отсутствие точности в результатах запросов обусловлено скоростью вычислительных операций. Суперкомпьютеры должны работать очень быстро, выдавая результат по огромному массиву документов (при этом выбраковывая спам) в течение 1-2 секунд. С учетом немереного количества данных, которые ежедневно, ежеминутно накапливаются в Интернете, самые совершенные поисковые машины не в состоянии быстро охватить весь океан информации. Их мощности хватает на обработку только части данных.
Еще в 1996 году исследователи пришли к выводу, что поисковые системы способны обрабатывать не более 16% всей информации в Интернете. С тех пор, конечно, технологии далеко продвинулись, но и объем информации в Интернете вырос многократно.
Как полагает британский профессор Майк Зелуолл, поисковые машины могут искать информацию по запросу сколько угодно времени, но все равно не способны охватить весь Интернет. Современные системы устроены таким образом, что они начинают снимать данные с нескольких больших сайтов, затем пытаются выйти на новые сайты, отслеживая линки с уже обнаруженных сайтов. Таким образом, они едва ли найдут сайт, который не имеет вообще никаких линков.
© "АМУЛЕТ" 2003 г. Тел/Факс.(495) 614-40-60, 614-41-60,
Е-mail:sb@amulet-group.ru
|