Este artigo é o nono de uma série que comenta algumas técnicas de otimização de sites divulgadas pelo Google no documento “Search Engine Optimization Starter Guide” e é uma dica de SEO a todos os nossos clientes dos planos de Hospedagem de Sites.

Este documento está em inglês e pode ser acessado diretamente no site do Google: Search Engine Optimization Starter Guide.

Faça uma utilização eficaz do robots.txt

Mas afinal, o que é o “robots.txt”? Um arquivo “robots.txt”  é um arquivo com instruções que você pode querer informar aos “robôs de procura”, que são os programas utilizados pelos sites de busca para a varredura e indexão do conteúdo dos sites.

Este arquivo normalmente é utilizado para informar aos robôs de procura se eles podem ou não acessar e varrer parte do seu site. Este arquivo, que deve necessariamente  ter o nome “robots.txt”, deve ficar na raiz do site.

Por exemplo, no caso da Zooming ficaria assim:

/robots.txt

Em algumas situações, você pode querer que certas páginas do seu site não sejam rastreadas e não apareçam num resultado de pesquisa. Para evitar que os mecanismos de busca rastreiem suas páginas, o Google Webmaster Tools tem um gerador de robots.txt (em inglês) que o ajudará a criar este arquivo.

Uma observação importante: Se o seu site utiliza subdomínios, para que determinadas páginas não sejam rastreadas em um subdomínio específico, você terá que criar um arquivo robots.txt para cada subdomínio separadamente.

Para obter maiores informações sobre o robots.txt, sugerimos o guia “Utilizando arquivos robots.txt” da Central
de Ajuda para Webmasters do Google.

Existem várias maneiras de evitar que o  seu conteúdo apareça nos resultados de pesquisa. Uma delas é a adição do parâmetro “NOINDEX” na meta tag robots, utilizando .htaccess para proteger diretórios com senha. Outra, é utilizar as Ferramentas do Google para Webmasters para remover conteúdos que já foram rastreados.

Práticas recomendadas para robots.txt

  • Utilize métodos mais seguros para proteger conteúdos que requerem segurança – Você não deve utilizar robots.txt para bloquear materiais delicados ou confidenciais. Uma das razões é que os mecanismos de busca podem referenciar URLs bloqueadas (mostrando apenas a URL, sem título ou snippet) se houver algum link na internet apontando para esta URL. Também é possível que os mecanismos de pesquisa desonestos ou não compatíveis com o “Robots Exclusion Standart” não obedeçam a instrução em seu robots.txt. Finalmente, um usuário curioso poderia examinar a estrutura de diretórios em seu arquivo robots.txt e adivinhar a URL do conteúdo que você não quer que vejam. Portanto, criptografar o conteúdo ou proteger através de senha utilizando o .htaccess são alternativas mais seguras que apenas utilizar o robots.txt;

Evite:

  1. Indexar páginas de resultado de pesquisa (usuários não gostam de sair de uma página de resultado de pesquisas e cair em outra que não adicione valor significativo para eles);
  2. Indexar um grande número de páginas geradas automaticamente, com conteúdo idêntico ou muito semelhante;
  3. Permitir que URLs resultantes de um serviços de proxy sejam rastreadas.

No próximo artigo, falaremos sobre “rel=”nofollow” para links. Até lá!

Artigos Relacionados:

Tagged with →