Оптимизация. Полные дубли страниц в пределах домена.
Официальные источники из Яндекса утверждают, что дубли контента внутри сайта, не влияют на позиции в поисковой выдаче. Однако опыт показывает, что устранение всех внутренних дублей помогает улучшить ситуацию по многим запросам.
Я хочу рассказать об основных элементах, которые способствуют автоматическому созданию полных дубликатов сайта:
1. Версии страниц для печати.
Очень часто на сайтах не закрывают от индексации страницы предназначенные для печати документа. В основном они отличаются от основных страниц отсутствием графики и других элементов дизайна, но при этом полное совпадение основного контента.
Я рекомендую закрывать такие страницы в файле robots.txt. Сделать это довольно просто, обычно url адреса таких страниц содержат слово «print».
Кстати, автоматическое создание таких страниц характерно для сайтов, сделанных на движке Joomla (он еще pdf генерит, которые также индексируются и могут добавить ряд неудобств).
2. Индексные страницы
Попробуйте набрать в адресной строке www.site.ru/index.php, www.site.ru/index.html, www.site.ru/index.shtml, www.site.ru/index.htm, www.site.ru/index.asp, www.site.ru/default.asp и т.п., если данные страницы открываются в браузере, и сервер отдает статус код 200 ОК, то перед вами дубли главной страницы. Данные страницы необходимо закрыть от индексации или настроить 301 редирект на страницу www.site.ru.
Хочется отметить, что наличие индексных страниц характерно не только в корневом каталоге, но и в некоторых внутренних (www.site.ru/page/index.html).
Наличие данных страниц в индексе поисковой системы Яндекс свидетельствует о присутствие на сайте ссылки на индексные файлы.
3. Результаты поиска
Если на сайте реализована возможность поиска, то в результатах очень часто дублируется существующий на сайте контент (примером может послужить этот блог). В этом случае обязательно стоит закрывать результаты поиска от индексации.
4. Слеш/ без слеша.
За этим бессмысленным подзаголовком подразумевается очень серьезная и часто остающаяся без внимания проблема. Хотя выявить ее довольно просто, достаточно зайти в какой-нибудь каталог на сайте и стереть в адресной строке слеш. Если после загрузки страницы в адресной строке так и остался адрес без слеша, то данная проблема присутствует на сайте.
Дело в том, что для поисковика страницы http://www.site.ru/category/ и http://www.site.ru/category совершенно разные страницы. Порой даже они различаются по своему содержанию (показывается страница предыдущего раздела). Это исправляется путем настройки 301 редиректа со страницы http://www.site.ru/category на http://www.site.ru/category/.
5. Фильтры, сортировки
При наличии сортировки или возможности фильтрации товаров в из каталога, также возникает вероятность возникновения дублей контента.
6. Краткие обзоры
Это характерно в основном для блоков новостей, каталога статей и т.п., когда в качестве краткого описания выступают абзацы из основной статьи. Если нет возможности сделать уникальные обзоры, то я стараюсь закрыть такие блок в тег <noindex> .
7. Страницы с тегами, статьи по дате, автору и т.п.
Особенно характерно для блоговых движков. Получаем много одинаковых страниц с разными url адресами.
8. Неправильная настройка 404 ошибки
Про настройку 404 ошибки я сделаю отдельную статью, но упомянуть здесь все же стоило.
Здесь указаны наиболее часты причины возникновения полного дублирования контента, совсем мелкие и редкие случаи я упоминать не стал.
Похожие записи:
- Оптимизация. Настраиваем основное зеркало. Лично я правильной настройки зеркал уделяю очень большое внимание....
- Оптимизация. 404 Ошибка 404 ошибка возникает, если в адресной строке набрать url-адрес...
- Оптимизация. Настройка внутренних ссылок. Как и обещал, начинаю публикацию своих мыслей по поводу внутренней...
- Оптимизация С сегодняшнего дня на моем блоге появляется новая рубрика,...
- Оптимизация. Управляем индексацией сайта. Настало время рассмотреть наиболее типичные способы для управления индексацией сайта....
Да, а еще я был свидетелем того, как после удаления всех дублей - сайт разбанили
Капча отбивает желание слать камменты
Хороший подробный обзор, респект.
Версию для печати лучше делать отдельными стилями (CSS), а не страницами, тогда и дублей не будет.
(подписан на комментарии)SeoBromid, про CSS спасибо, не использовал никогда.
Одесский Сисадмин, насчет капчи, обязательно переделаю, уже пытался, но математическая никак не хотела нормально работать. На выходных что-нибудь придумаю.
У меня раньше было два варианта статей: с комментами и без. Причем ссылки всегда ставил на посты без комментов, а вот поисковики считали основным с комментами. Писал об этом в статье http://seobeginner.ru/post_1244829219.html
Это во многом улучшило позицию!
По 4 пункту со слешами. Подскажите как правильно настроить в указанном случае 301 редирект на WP? И также как настроить 301 для такого случая:
(подписан на комментарии)есть http://www.sate.ru/blog/staty/
нужно http://www.sate.ru/staty/
Плагин redirection ставила - не идет у меня…
Наталья, при работе с WP проблем со слешами не возникало, но, насколько помню, должно работать вот так:
RewriteCond %{REQUEST_URI} !/$
RewriteCond %{REQUEST_URI} ![^/]*\.[^/]*$
RewriteRule ^(.*)$ http://%{HTTP_HOST}/$1/ [NS,L,R=301]
Если не верно, то поправьте, кто знает точно.
Во втором случае должна помочь строчка:
RewriteRule ^blog/staty/(.*)$ /staty/[L,R=301]
Опять же не уверен, нет возможности проверить.
Спасибо, с первым случаем разобралась, а вот второй… нет не работает
(подписан на комментарии)А что с пунктом 7 можно сделать? Желательно применительно к Вордпрессу.
(подписан на комментарии)Lenok, я закрываю все в файле robots.txt. Пример можно посмотреть в статье про оптимизацию WP http://4ill.ru/optimiziruem-sajt-na-wordpress/