Dmoz: Каждый четвертый сайт имеет ошибки в robots.txt
отметили
13
человека
в архиве

Эндрю Вустер провел интересное исследование файлов robots.txt на сайтах из каталога Dmoz. В ходе своего исследования HTTP заголовков он разработал собственного паука и собрал большую базу доменов. Скормив своему пауку (написанному на Python с использованием PycURL) эту базу сайтов из Dmoz, Эндрю Вустер получил MySQL базу, в которой сохранялись содержание robots.txt, HTTP заголовки и полный ответ сервера. Полный дамп базы составил 12 Gb. После получасовой работы анализатора были получены интересные данные и статистика о содержании robots.txt на более чем 4.6 миллионах доменов.
Какие выводы мы можем сделать исходя из этих данных? Главный вывод я думаю состоит в том, что Robots Exclusion Protocol намного более сложный чем кажется. На месте паука для того, чтобы правильно распарсить множество совершенно разных и сумасшедших robots.txt по всему Интернету, вам нужно написать исключительно гибкий парсер (следуя Robustness Principle), в большинстве случаев игнорировать тип содержания (content-type), уметь распознавать множество кодировок (и в большинстве случаев просто игнорировать возвращаемую сервером кодировку), распознавать HTML и другие виды контента в файлах robots.txt и потенциально поддерживать множество расширений к принятому стандарту.
А что насчет высказанного выше утверждения, что пауки должны спрашивать разрешения на индексацию у вебмастера? Недавний проигранный иск правительства Бельгии против Google еще раз подтвердил верность позиции поисковых систем:
“Из-за огромного размера Интернета для поисковой системы невозможно персонально спросить каждого вебмастера можно загрузить ту или иную страницу или нельзя. Если бы такое разрешение было обязательным, то Интернет бы развалился.” — Andrew McLaughlin, глава отдела Google по конфиденциальности.
Если бы это произошло, то почти четверть доменов стали бы “черными ящиками” для поисковых систем. Тогда эти сайты просто не существовали бы для большинства пользователей. Такой результат не устроил бы никого — ни вебмастеров, ни поисковые системы.
Какие выводы мы можем сделать исходя из этих данных? Главный вывод я думаю состоит в том, что Robots Exclusion Protocol намного более сложный чем кажется. На месте паука для того, чтобы правильно распарсить множество совершенно разных и сумасшедших robots.txt по всему Интернету, вам нужно написать исключительно гибкий парсер (следуя Robustness Principle), в большинстве случаев игнорировать тип содержания (content-type), уметь распознавать множество кодировок (и в большинстве случаев просто игнорировать возвращаемую сервером кодировку), распознавать HTML и другие виды контента в файлах robots.txt и потенциально поддерживать множество расширений к принятому стандарту.
А что насчет высказанного выше утверждения, что пауки должны спрашивать разрешения на индексацию у вебмастера? Недавний проигранный иск правительства Бельгии против Google еще раз подтвердил верность позиции поисковых систем:
“Из-за огромного размера Интернета для поисковой системы невозможно персонально спросить каждого вебмастера можно загрузить ту или иную страницу или нельзя. Если бы такое разрешение было обязательным, то Интернет бы развалился.” — Andrew McLaughlin, глава отдела Google по конфиденциальности.
Если бы это произошло, то почти четверть доменов стали бы “черными ящиками” для поисковых систем. Тогда эти сайты просто не существовали бы для большинства пользователей. Такой результат не устроил бы никого — ни вебмастеров, ни поисковые системы.
Источник:
egorych.com/internet/dmoz-kazh...
Добавил
egorych 23 Сентября 2007

нет комментариев
проблема (2)
Комментарии участников:
Ни одного комментария пока не добавлено