O arquivo robots.txt é um simples arquivinho com o qual você consegue dizer aos robôs de busca quais páginas você quer que ele indexe nas buscas e quais não.
Por padrão ele deve indexar todas as páginas, porém pode ser que você queira que algumas de suas páginas não apareçam nos resultados das pesquisas do Google, como por exemplo páginas restritas à usuários cadastrados ou arquivos pdf que são cópias da página html por exemplo, para que isso aconteça você deve dizer ao Googlebot que não indexe essas páginas. (Googlebot é o nome do “robozinho” de busca do Google)
ser-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: https://www.gerenciandoblog.com.br/feeds/posts/default?orderby=updated
A sintaxe do arquivo é bem simples, veja abaixo um exemplo de um arquivo robots.txt:
Em User-Agent você deve dizer em quais robôs de busca você quer que seu site seja indexado, se deixar o padrão ‘*’ então quer dizer que ele será indexado por todos os robôs.
Em Disallow você especifica quais as páginas, diretórios ou arquivos específicos NÃO devem ser indexados pelos robôs.
Há também a cláusula Allow, na qual você especifica quais páginas, diretórios ou arquivos DEVEM ser lidos pelos robôs, normalmente ela vem com o ‘*’, permitindo que todas as páginas sejam indexadas e antes da cláusula Disallow.
Apesar de o arquivo robots.txt funcionar bem com a maioria dos robôs de busca, pode ser que algum usuário queira descobrir o que tem nas páginas que você não queira que sejam indexadas simplesmente abrindo o arquivo robots.txt para saber quais os caminhos delas e depois digitando na barra de endereços do navegador, para que isso não aconteça, caso você tenha páginas realmente secretas e não quer que ninguém veja é bom usar também criptografia e senhas no arquivo .htaccess, além do arquivo robots.txt, o que torna as páginas realmente seguras.
Nas Ferramentas para Webmasters do Google tem um gerador de arquivo robots.txt além da opção de analisar seu arquivo robots.txt para ver se ele está funcionando corretamente. Vale lembrar ainda que o Google lê esse arquivo uma vez por dia para atualizar nas Ferramentas para WebMasters.
so mais umas informações nesserias
Os proprietários do Web site usam o / robots.txt arquivo para dar instruções sobre o seu site para os robôs da web; Este é o chamado Robots Exclusion Protocol.
Muitas vezes usado para não permitir partes do site lá apering nos resultados de busca. Estas páginas descobertos manualmente muitas vezes pode ser visto para mais informações.
O "/ robots.txt file "é um arquivo de texto, com um ou mais registros. Geralmente contém um único registro parecido com isto:
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ joe /
User-agent: *
Disallow: /
O "User-agent: *" significa que esta seção se aplica a todos os robôs.
A "Disallow: /" diz o robô que ele não deve visitar todas as páginas do site.
User-agent: *
Permitir: /
O "Permitir: /" diz o robô que possa visitar todas as páginas no site.
Para ver se um site tem um robots.txt arquivo simplesmente anexar o robots.txt pedido para o fim de uma urlhttps://www.example.com/robots.txt
Um resultado
User-agent: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / ~ joe /
um exemplo de visualização https://www.example.com/tmp/
Baixando o robots.txt arquivo não é necessário, mas se queria por favor leia abaixo.
Se você deseja fazer o download das opções abaixo vai ajudar.
Opção 1
Opção 2 - com proteção
proxychains wget http: //url/robots.txt
robots.txt é baixado para a pasta / root.
Opção 3 - Usando o Nmap para ver robots.txt
nmap -script = http-robots.txt.nse (url ou IP)