Вы когда нибудь задумывались, над тем, как Яндекс индексирует сайт? Не так давно я делал сайт, хотя если честно не делал, заплатил человеку за наполнение его готовым контентом. И на нём, у меня получилась индексация очень интересная, но давайте сначала разберемся в самом порядке процесса индексации.
Сайт индексируется, по моим наблюдениям, да и не только моим, примерно по такой схеме:
- Первый АП(речь естественно, об АПах выдачи) – в индекс попадает главная страница сайта, она же морда. Возможны варианты когда попадет в индекс морда без тайтла, то есть попадает просто домен в индекс и отображаеться в индексе без заголовка просто как адрес сайта.
- Второй АП – главная страница так же в индексе, и обычно не появляется больше страниц, если же в первый АП морда вошла как адрес, а не как страница сайта(без тайтла), то чаще всего второй АП появляется именно тайтл на главной страничке.
- Третий АП – в зависимости от структуры сайта, навигации и всего остального в индекс попадает от 5 до 25 страниц.
- Четвертый АП – в индекс, в зависимости от количества страниц на всем сайте, попадает 100-500 страниц.
- Пятый АП – обычно индексирует сайт до конца. Если этого не произошло то 7-8 АП сделают свое дело.
Теперь, о том как я себе визуально представляю процесс индексации. Поисковый Робот, находит сайт, заходит на главную, индексирует – уходит. Идут какие-то внутренние процессы переваривания странички, при одобрении, идем дальше… Заходит и индексирует пару постов, пару меток пару рубрик, вобщем любые ссылки которые находятся в одном клике от главной странички.
При одобрении, контента, структуры, и всего прочего, робот заходит на сайт и уже по всем проиндексированным страничка переходит по ссылкам(грубо говоря ходит по Уровню вложенности 3). Ну и на последней стадии, когда в индексе много страниц при грамотной перелинковке, робот уже может ещё за “клик” проиндексировать оставшиеся страницы на сайте.
Примерно так Я представляю себе процесс индексации, любого сайта пусть это даже будет http://www.rosblok.ru который производит пеноблоки. Точнее примерно так он и проходит. И вот как я говорил в начале, на одном из сайтов наблюдал интересную картину. Попадает главная страница в индекс, проходит АП, главная страница так же в индексе, ну слабенький АП был… Думаю ладно в следующий проиндексирует. Редактирую шаблончик, решил изменить ЧПУ.
Меняю, урл в месте вывода Рубрик. Для наглядного примера:
Было: http://sitе.ru/rubrika/post.html
Изменил на: http://sitе.ru/categoriya/post.html
Какого же было мое удивление на следующий АП, который состоялся через несколько дней после замены, когда в индексе наблюдались страницы:
http://sitе.ru/rubrika/post1.html
http://sitе.ru/rubrika/post2.html
http://sitе.ru/rubrika/post3.html
От сюда мне в голову приходит только одно, Яндекс индексирует по кэшу, потому как если бы он индексировал по настоящему времени, в индексе было бы /categoriya/.
Да, это действительно так. Бывает, что Яндекс включает в выдачу страницы, которые индексировал месяц назад, и на момент выдачи данные страницы имеют совсем другой вид. Однако, отмечу, что страница по данному адресу существует. Если страница будет удалена, то в выдачу она не попадает.