Configurar o robots.txt em e-commerce parece simples, mas um erro sutil pode derrubar tráfego orgânico, impedir indexação de categorias estratégicas e desperdiçar crawl budget em páginas que não trazem receita. Neste artigo, você vai ver como estruturar o robots.txt e as diretivas de indexação de forma técnica e prática, evitando bloqueios indevidos e guiando o Google para o que realmente importa: produtos e categorias que geram vendas.
Por que o robots.txt é crítico em e-commerce
Em sites de conteúdo, erros de robots.txt já são problemáticos. Em e-commerce, o risco é maior porque há:
Muitas URLs dinâmicas (filtros, ordenações, parâmetros, busca interna);
Profundidade de navegação alta (categorias, subcategorias, paginações);
Produtos com estoque variável (URLs entrando e saindo o tempo todo).
Isso pressiona o crawl budget do Googlebot. Se o robô gasta o orçamento de rastreamento em URLs inúteis (filtros, parâmetros infinitos), sobra menos capacidade para rastrear:
Novos produtos recém-cadastrados;
Atualizações de preço e estoque em produtos que já ranqueiam;
Categorias estratégicas com potencial de tráfego e receita.
O papel do arquivo robots.txt no e-commerce não é “esconder” páginas, mas organizar o rastreamento, evitando desperdício de crawl budget sem bloquear a indexação do que é importante.
Estrutura ideal de robots.txt para e-commerce
Antes de definir o que bloquear, é preciso estruturar o arquivo corretamente. Um robots.txt mal formatado pode ser ignorado pelo Google ou causar bloqueios em massa.
Componentes básicos de um robots.txt
Elementos principais que quase todo e-commerce deve ter:
User-agent: define para qual robô as regras se aplicam.
Disallow: caminhos que o robô não deve rastrear.
Allow: exceções dentro de diretórios bloqueados.
Sitemap: ajuda a guiar o rastreamento para as URLs importantes.
Exemplo de estrutura básica para e-commerce:
Exemplo de robots.txt base
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /carrinho/
Disallow: /checkout/
Disallow: /minha-conta/
Disallow: /busca/
Disallow: /*?orderby=
Disallow: /*&orderby=
Disallow: /*?add-to-cart=
Sitemap: https://www.sua-loja.com.br/sitemap.xml
Esse é só um ponto de partida. A estrutura ideal vai depender da plataforma (VTEX, Magento, WooCommerce, Shopify, Tray, Nuvemshop etc.) e da forma como ela gera URLs.
Boas práticas avançadas de estrutura
Algumas diretrizes usadas em grandes e-commerces:
- Centralizar sitemaps: sempre inclua o sitemap principal no robots.txt, e a partir dele distribua sitemaps de produtos, categorias e conteúdos.
- Separar diretivas por user-agent quando necessário (ex.: regras específicas para bots de ads ou de comparação de preço).
- Evitar regex avançada: o Google só entende curingas simples (* e $). Nada de expressões regulares complexas.
- Manter o arquivo curto e legível: excesso de regras aumenta risco de conflito e dificulta manutenção.
O que bloquear com Disallow (e o que nunca bloquear)
O principal erro em robots.txt de e-commerce é o “tiro de canhão”: bloquear diretórios inteiros que contêm páginas estratégicas por engano. Vamos separar por grupos.
URLs que geralmente devem ser bloqueadas
1) Funções de compra e áreas privadas
- /carrinho/
- /checkout/
- /minha-conta/
- /login/, /logout/
- /wishlist/ (dependendo da estratégia)
Motivo: não agregam valor de SEO, são sensíveis e podem gerar conteúdo duplicado ou páginas de sessão.
2) Busca interna
- /busca/
- /search/
- URLs com ?s= ou ?q=
O Google desencoraja indexação de resultados de busca interna. Além disso, elas consomem muito crawl budget com pouco retorno.
3) Parâmetros de ordenação e filtragem não estratégicos
- ?orderby=
- ?sort=
- ?limit=
- ?dir=
- &add-to-cart=
Aqui entra uma decisão estratégica: nem todo filtro deve ser bloqueado. Alguns filtros (por marca, por categoria específica, por tipo de produto) podem ter potencial de busca e merecem páginas otimizadas.
URLs que quase nunca devem ser bloqueadas
1) Categorias e subcategorias
Bloquear /categoria/ ou /produtos/ inteiros é um erro clássico que derruba o tráfego orgânico. Categorias são hubs de relevância e devem ser rastreadas e indexadas.
Exemplo de erro real: e-commerce de moda que bloqueou /colecoes/ no robots.txt achando que eram páginas temporárias de campanha. Resultado: quedas severas em termos como “vestido x marca” e “calça jeans feminina”, pois essas URLs estavam sob /colecoes/.
2) Páginas de produto
Nunca bloqueie diretórios que contenham produtos, como /produto/, /p/, /item/, /sku/. Se precisar gerenciar indexação de produtos sem estoque ou descontinuados, use noindex, nunca Disallow (mais adiante).
3) Blog, guias e conteúdo institucional
Páginas como /blog/, /guia/, /institucional/, /sobre/, /contato/ normalmente devem ser rastreadas. Mesmo que você não queira destaque para algumas, noindex é mais adequado que Disallow na maioria dos casos.
noindex vs Disallow: diferenças críticas para e-commerce
Muita gente usa Disallow no robots.txt como se fosse um comando de “não indexar”. Isso é perigoso.
O que o Disallow realmente faz
O Disallow instrui o robô a não rastrear determinadas URLs. Mas isso não impede, necessariamente, que a página apareça no índice.
O Google pode:
- Descobrir a URL por links externos;
- Indexar apenas o endereço (sem conteúdo) com um snippet limitado;
- Exibir a página no resultado de busca sem ter lido o conteúdo.
Ou seja: Disallow é sobre rastreamento, não sobre indexação.
O que o noindex faz (e como usar corretamente)
Já o noindex é uma diretiva de indexação, aplicada via meta tag ou cabeçalho HTTP:
<meta name=”robots” content=”noindex,follow”>
Ele diz ao Google: “pode rastrear, seguir links, mas não inclua essa URL no índice”.
Para e-commerce, isso é útil em:
- Páginas de login, conta, carrinho (se não forem bloqueadas por Disallow);
- Resultados de busca interna (se não forem bloqueados no robots.txt);
- Páginas de produto esgotado definitivo, que você quer retirar das buscas;
- Filtros sem demanda de busca, mas que ainda precisam existir para navegação.
Combinação perigosa: Disallow + noindex
Erro comum: colocar noindex na página e ao mesmo tempo bloqueá-la com Disallow no robots.txt.
Se o robô não pode rastrear a página (por causa do Disallow), ele não verá a meta noindex. Resultado: a página pode continuar indexada, mesmo com noindex no código.
Regra prática em e-commerce:
- Quer controlar indexação? Use noindex (sem Disallow).
- Quer economizar crawl budget em URLs desnecessárias? Use Disallow.
- Se for preciso fazer os dois, primeiro deixe rastreável com noindex, e só depois de desindexar de fato avalie se vale bloquear o rastreamento.
Como otimizar o crawl budget em e-commerce
Otimizar crawl budget é garantir que o Googlebot gaste energia nas URLs com maior potencial de tráfego e receita. robots.txt é uma peça, mas não é a única.
Framework prático em 4 passos
1) Mapear tipos de URL
Liste (exportando da base ou do sitemap) os principais padrões de URL do site:
- /categoria/
- /subcategoria/
- /produto/ ou /p/
- /busca/ ou parâmetros de busca (?s=, ?q=)
- Filtros (?cor=, ?marca=, ?preco=)
- Ordenações (?orderby=, ?sort=)
- Páginas institucionais
- Blog e conteúdos
2) Classificar intenção de SEO
- Tipo A – Deve ranquear e gerar tráfego (produtos, categorias, páginas de marca).
- Tipo B – Ajuda na navegação, mas não precisa ranquear (filtros sem demanda, paginações específicas).
- Tipo C – Não deve ranquear nem ser rastreado em excesso (carrinho, checkout, busca interna, ordenações).
3) Definir estratégia por tipo
- Tipo A: Allow (padrão), index, presença em sitemap, conteúdo otimizado.
- Tipo B: index ou noindex conforme o caso, geralmente sem bloqueio de rastreamento, mas com controle de links internos.
- Tipo C: Disallow no robots.txt; em alguns casos, reforçar com noindex antes de bloquear o rastreamento.
4) Ajustar links internos e sitemaps
Não adianta bloquear no robots.txt e continuar enchendo o site de links para URLs lixo com parâmetros. Isso incentiva o Google a tentar rastrear o que você não quer.
Boas práticas:
- Evite links permanentes para filtros sem demanda (use AJAX ou estados de URL menos indexáveis quando possível).
- Não inclua paginações profundas ou filtros em sitemaps.
- Garanta que o sitemap concentre categorias, produtos e conteúdos estratégicos.
Testes e validação do robots.txt em e-commerce
Qualquer mudança em robots.txt pode ter impacto massivo. Testar é obrigatório.
Passo a passo para testar com segurança
1) Simular em ambiente de staging
Se possível, use um ambiente de homologação com domínio próprio (ex.: staging.sua-loja.com.br) e aplique o novo robots.txt lá. Bloqueie o ambiente de staging com noindex ou autenticação para evitar indexação.
2) Usar a ferramenta de Inspeção de URL (Google Search Console)
No domínio principal, após publicar o robots.txt:
- Inspecione categorias importantes;
- Inspecione produtos estratégicos e verifique se não estão bloqueados por robots.txt;
- Inspecione URLs que deveriam ser bloqueadas e verifique se o Google indica “Bloqueada por arquivo robots.txt”.
3) Monitorar o relatório de Cobertura / Páginas
No Search Console, acompanhe:
- URLs “Excluída por ferramenta de remoção” ou “Bloqueada por arquivo robots.txt” em volume anormal;
- Queda súbita no número de páginas válidas indexadas sem motivo;
- Aumento excessivo em páginas descobertas, mas não indexadas (pode indicar desperdício de crawl budget).
4) Log analysis (para operações mais avançadas)
Em e-commerces grandes, vale analisar logs de servidor para ver:
- Por quais diretórios o Googlebot anda mais;
- Se ele insiste em rastrear parâmetros que você bloqueou;
- Se categorias e produtos novos estão sendo descobertos rapidamente.
Essa análise ajuda a refinar ainda mais as regras de robots.txt e as decisões de indexação.
Exemplo de configuração de robots.txt para e-commerce
Abaixo um exemplo didático (não copie sem adaptar). Suponha um e-commerce em WooCommerce:
User-agent: *
# Áreas administrativas
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Funções de compra e conta
Disallow: /carrinho/
Disallow: /checkout/
Disallow: /minha-conta/
# Busca interna
Disallow: /?s=
Disallow: /busca/
# Parâmetros de ordenação e paginação não estratégicos
Disallow: /*?orderby=
Disallow: /*&orderby=
Disallow: /*?add-to-cart=
Disallow: /*&add-to-cart=
Disallow: /*?utm_
Disallow: /*&utm_
# Diretórios técnicos
Disallow: /wp-includes/
Disallow: /cgi-bin/
Sitemap: https://www.sua-loja.com.br/sitemap.xml
Em paralelo, você poderia usar meta noindex,follow em:
- Páginas de resultado de busca interna, se não bloquear via robots;
- Páginas de produto definitivamente descontinuados;
- Páginas de filtro com baixo valor de busca, mas úteis na navegação.
Erros comuns em robots.txt de e-commerce (e como evitar)
Para fechar, alguns erros que a My Web Digital encontra com frequência em auditorias técnicas.
1. Bloquear todo o /wp-content/ ou /media/
Isso impede o rastreamento de imagens de produto, arquivos CSS/JS essenciais e pode prejudicar a renderização. O Google precisa ver o layout para entender a página.
2. Bloquear pagination sem avaliar contexto
Bloquear /page/2/, /page/3/ de categorias pode prejudicar descoberta de produtos mais antigos. Em sites grandes, pode fazer sentido, mas precisa ser avaliado junto com:
- Links internos adicionais para produtos mais profundos;
- Estratégia de produtos mais vendidos / destaque na primeira página;
- Uso de sitemaps de produtos.
3. Usar robots.txt para resolver tudo de SEO
robots.txt não corrige problemas de conteúdo duplicado, canibalização de palavras-chave, thin content ou arquitetura ruim. Ele só orienta rastreamento. Indexação e relevância são outro capítulo (meta tags, canonical, conteúdo, links internos).
Conclusão: como usar robots.txt de forma estratégica no seu e-commerce
Um bom arquivo robots.txt para e-commerce não é o mais agressivo, e sim o mais cirúrgico. Ele:
- Protege o crawl budget ao bloquear carrinho, checkout, busca interna e parâmetros inúteis;
- Garante que categorias e produtos permaneçam rastreáveis e indexáveis;
- Se combina com noindex para controlar visibilidade de páginas sem potencial de tráfego;
- É testado, monitorado e ajustado continuamente.
Ao alinhar robots.txt, diretivas de indexação e arquitetura de informação, seu e-commerce dá um salto de eficiência: o Google encontra mais rápido os produtos que vendem, reduz desperdício de rastreamento e melhora a estabilidade do tráfego orgânico.
Se você precisa de ajuda para revisar a configuração de robots.txt no e-commerce, otimizar o crawl budget e integrar isso com uma estratégia completa de SEO técnico e Inbound, a equipe da My Web Digital pode diagnosticar riscos e criar uma configuração sob medida para o seu cenário.
Perguntas frequentes sobre robots.txt em e-commerce
Como saber se meu robots.txt está bloqueando páginas importantes do e-commerce?
Use a ferramenta de Inspeção de URL no Google Search Console para testar categorias e produtos estratégicos. Se aparecer “Bloqueada por arquivo robots.txt”, revise imediatamente. Também é útil rodar um crawler (Screaming Frog, Sitebulb) simulando o Googlebot e checar quais diretórios estão inacessíveis.
Devo usar noindex ou Disallow para remover páginas de produto esgotado?
Na maioria dos casos, comece com noindex,follow na página de produto esgotado. Assim o Google rastreia, entende que não deve indexar, mas ainda segue links internos. Use Disallow apenas se houver muitas variações técnicas inúteis e depois que a desindexação já estiver consolidada.
robots.txt ajuda a reduzir conteúdo duplicado em filtros de e-commerce?
Ele ajuda a diminuir o rastreamento de combinações de filtros que geram URLs parecidas, o que indiretamente reduz problemas de duplicidade no índice. Mas, para lidar de fato com conteúdo duplicado, é preciso combinar robots.txt com canonical tags, noindex em filtros não estratégicos e uma arquitetura de categorias bem planejada.

