SitemapGenerator.ru поддерживает robots.txt, и для того, что бы он правильно определял ссылки,
описаные в robots.txt, Вам необходимо прочитать данный очерк и, возможно, сделать некоторые изменения в самом robots.txt.
В певую очередь, robots.txt должен соответсвовать стандарту, описание которого можно почитать
здесь.
Но, поскольку в наше время стандарта придерживаются лишь единицы, я влючил в обработку несколько не стандартных, но популярных методов описания robots.txt, которые для многих стали уже стандартом.
Итак, robots.txt должен лежать в корне сайта, названый в нижнем регистре латинским алфавитом.
По стандарту в нем должны находиться только 2 команды: User-Agent и Disallow. Что это, для чего и как им пользоваться Вы можете почитать на сайте описания стандарта.
Помимо них SitemapGenerator поддерживает команду Allow. Она имеет преимущетсво над командой Disallow, тоесть код
User-Agent: *
Disallow: /dir/
Allow: /dir/
будет разрешать сканировать и добавлять в сайтмап страницы, которые найдены в директирии dir.
Все не стандартные значения в robots.txt заменяются на обобщающие, тоесть код
User-Agent:
Disallow: *
будет восприниматься, как
User-Agent: *
Disallow: /
Но для избежания не предсказуемых ситуаций, я советую проверить свой robots.txt на валидность на
сайте Яндекса
Будте внимательны при оформлении robots.txt!