Criar robots.txt

Criar robots.txtOs mecanismos de busca utilizam-se de robôs de busca, conhecidos como webcrawlers, que percorrem automaticamente toda a web, a fim de indexar todo conteúdo disponível na rede.

O robots.txt é um arquivo texto que permite ou impede um robô indexar seu site ou parte dele. Este é o primeiro arquivo que os robôs procuram em seu site e deve ser colocado na raiz do site.

Se um site não possuir este arquivo, os robôs de busca irão percorrer normalmente todo o site.

Como Criar um Arquivo robots.txt

Existem diversas ferramentas para criar um robot.txt, mas se o seu site não for muito grande você poderá facilmente criar através do bloco de notas ou qualquer outro editor de texto ASCII e salvar com a extensão .txt. O nome do arquivo deve ser todo em letras minúsculas. (robots.txt)

Ferramentas para criar o arquivo robots.txt

Site – marketingdebusca
Site – mestreseo
Site – google
Site – mcanerin

Exemplo de um arquivo robots.txtrobots.txt

Entendendo a formatação do robots.txt

User-agent: *

A expressão “User-Agent” é usada para declarar o nome de um robô.
Colocando asterisco você diz que é para todos os robôs de busca.

Para especificar um determinado robô, tira o asterisco e coloca nome do bots.

User-agent: Googlebot

• Google: User-agent: Googlebot
• Yahoo: User-agent: Slurp/3.0
• MSN: User-agent: Msnbot
• AltaVista: User-agent: Scoote

Disallow:/
Indica qual diretório não deve ser vasculhado pelos robôs

User-agent: *
Disallow: /

Informa a todos os mecanismos de busca que este site não deve ser vasculhado por eles, ou seja o que está dentro do diretório raiz está impedido de ser indexados por todos os robôs de buscas.

User-agent: *
Disallow:

Não colocando a barra após Disallow: permite a indexação total do site.

Outros exemplos:

User-agent: Googlebot
Disallow: /administracao/
Disallow: /clientes/

Informa ao robô do Google que pode indexar todo o site, exceto os diretórios administracao e administracao.

User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/ #paginas de usuários autenticados

O sustenido (#) serve para colocar um comentário, não influencia em nada para os robôs, porém use com moderação ou não use pois o Google por exemplo limita a monitoração do robots.txt em 5.000 caracteres.

Disallow: /contato.htm

Para bloquear uma página específica, use uma barra e o nome do arquivo.

Disallow: /*.asp$

Especificar arquivos com determinadas extensões usa-se o cifrão ($).
Bloquear todas as páginas com extensão.asp

User-agent: Googlebot
Disallow: /particular*/

Para fazer com que uma sequência de caracteres gere uma correspondência, use um asterisco (*).Por exemplo, para bloquear o acesso a todos os subdiretórios que começam com “particular”

User-agent: Googlebot
Disallow: /*?

Para bloquear o acesso a todos os URLs que incluam um ponto de interrogação (?) (mais especificamente, qualquer URL que comece com o nome do seu domínio, seguido por qualquer string, por um ponto de interrogação ou por qualquer string):

Allow
Este comando diz aos robôs de buscas qual diretório ou arquivo pode ser indexado. Útil em situações em que o acesso a um diretório esta bloqueado pelo comando Disallow, mas tem um arquivo ou diretório que você considera interessante ser encontrado pelos mecanismos de buscas.

User-agent: *
Disallow: /pasta/
Allow: /pasta/servicos.htm

Não permite que uma pasta seja indexada, porém o arquivo serviços.htm dentro desta pasta pode ser indexado.

Robôs específicos para imagens

• Google: User-agent: Googlebot-Image
• Yahoo: User-agent: Yahoo-mmcrawler
• MSN: User-agent: Psbot.

User-agent: Googlebot-Image
Disallow: /

Para remover todas as imagens do seu site da Pesquisa de imagens do Google:

User-agent: Googlebot
Disallow: /*.gif$

Para bloquear os arquivos de um tipo específico (por exemplo, .gif), use o seguinte:

Conclusão

O robots.txt é extremamente útil, pois informa aos mecanisnos de buscas o que pode e o que você não deseja que seja mostrado nos resultados de buscas .

Dentro do robots.txt você pode colocar o endereço do seu sitemap, insira esta informação no final do arquivo.