Почему сайт не индексируется
На этот вопрос одним предложением не ответить. Причин может быть уйма. И чтоб сайт появился в индексе нужно найти эту причину/чины.
Для начала нужно убедиться в том, что сайта действительно нет в базах. Как это сделать описано в
разделе
"Проверка индексации" если сайта всё-таки нет, нужно принимать меры.
Я сам столкнулся с этой проблемой, мой сайт не индексировался яндексом, хотя раньше был в базах, поэтому опишу информацию, которая
может помочь в решении проблемы. Первое что нужно сделать это проверить
заходят ли поисковые роботы на ваш сайт. Сделать это
можно в аккаунте вашего хостинга в разделе "статистика" если такого нету, нужно попросить
лог файлы у вашего хостера.
В этих файлах Вы можете увидеть записи имеющие такие слова: "Yandex/1.01.001(compatible; Win16; I)", а может быть
статистика будет выглядеть как моя:

Поисковый бот не один, у яндекса их 11 и каждый отвечает за своё. Вот несколько названий ботов яндекса:
- Yandex/1.01.001(compatible; Win16; I) - основной индексирующий бот яндекса. Самый важный. В основном приходит на
сайт под такими ip-адресами 213.180.216.28, 213.180.216.4, 213.180.206.248, 213.180.206.
- 2. Название аналогичное первому, только вместо I, P - индексирует картинки.
- 3. H - определяет зеркала сайта.
- 4. Yandex/1/03.003(compatible; Win16; D) - определяет доступ сайта при добавлении его через форму "добавить URL"
и т.д.
Если робот давно не посещал сайт, значит, кто-то не даёт ему туда войти. Если у хостинга плохая связь, робот поисковик не может получить
ответ при запросе на индексацию и так случится несколько раз, то сайт выпадет из базы. Были случаи, когда хостеры
блокировали вход паука с определённых ip-адресов. Делали они это для того, чтоб разгрузить сервер.
Если пауки приходят очень часто это сильно загружает канал. Далее нужно правильно настроить файл
robots.txt если его нет, то написать в обычном блокноте и разместить в корень сайта (корневую директорию).
Когда робот заходит на сайт, первое место, куда идёт запрос это именно этот файл robots.txt
Этот запроси имеет такой вид: http://www.site.ru/robots.txt. Если ввести этот запрос
в адресную строку и вам выдаст страницу ошибки 404, значит этого файла нет или он лежит не там где надо, а если перенаправит на главную
страницу, значит всё нормально. Выглядит запись в этом файле вот так:
User-Agent: Yandex
Disallow:/
Host: www.vashsait.ru
#Пояснение :Для бота яндекса весь сайт запрещён к
#индексации. Основное зеркало www.vashsite.ru
#Бот - это робот который индескирует
User-Agent: *
Disallow:
# Пояснение : условие для любого робота,
#всё разрешено к индексации
|
Это основное, что нужно прописать в нём. Лично я сразу не сделал этот файл и после запроса
к этому файлу сервер, на котором находится мой сайт, выдавал страницу ошибки 404.
Скорей всего по этой причине мой сайт был склеен яндексом с другим сайтом. Контент
сайтов абсолютно разный, но яндекс посчитал мой сайт зеркалом и на попытку добавить
сайт в индекс выдавал сообщение о том, что мой сайт является зеркалом и не может
быть добавлен. После создания и коррекции файла robots.txt я смог добавить сайт
в очередь на индексацию и в файле статистики появились записи о том, что боты яндекса
приходят. Не знаю лично, но говорят, этот процесс может длиться до 2 месяцев. Надеюсь
произойдёт это после двух апов. Апы
это апдейты
(обновление баз данных) Когда они проходят, мало кто знает и скорей всего в разных частях
сети апдейты начинаются в разное время. После апдейта сайт может подняться или опустится в
рейтингах выдачи, а может вообще изчезнуть из выдачи. Так вот чтоб не опускаться нужно
следовать кой каким правилам, которые выдумал яндекс. Не
копировать контент у других сайтов, бот при сканировании склеивает страницы с
одинаковым содержимым, содержать статьи не отклоняющиеся по смыслу от "основной мысли"
сайта,
постоянно обновлять контент.