Dois Megabytes. Este é o limite técnico para definir o quanto do seu HTML o Googlebot, o robô de busca do Google, processa a cada visita. Qualquer coisa além desse ponto não existe para o Google. É simplesmente ignorada, não indexada e não renderizada.
Em março de 2026, Gary Illyes, do time de busca do Google, publicou um detalhamento sobre como o Googlebot funciona na prática. O documento, “Inside Googlebot”, esclarece limites de rastreamento (ou crawling) que até então eram pouco documentados.
O Google não tem um único Googlebot
Antes de falar sobre limites, vale desfazer um equívoco comum: o Googlebot não é um crawler único.
A empresa opera dezenas de crawlers distintos, cada um com propósito e limites próprios. Apenas o crawler principal de HTML tem limite de 2 MB por URL. Arquivos em PDF sobem para 64 MB. Para crawlers sem especificação própria, o padrão é 15 MB. Imagens e vídeos variam conforme o produto de destino.
O que acontece quando o arquivo ultrapassa o limite?
O Googlebot não rejeita a página. Ele simplesmente pára de baixar no ponto exato do corte e passa o que foi baixado para os sistemas de indexação e para o WRS (Serviço de Renderização da Web) como se fosse o arquivo completo.
O WRS (Web Rendering Service) é o motor interno do Google que executa JavaScript e CSS para entender o estado final de uma página, funcionando como um navegador.
O restante (qualquer conteúdo além dos 2 MB iniciais) não é buscado, não é renderizado e não entra no índice. Outro detalhe que poucos consideram: o limite inclui o cabeçalho HTTP da requisição. Com isso, o espaço disponível para o HTML em si já começa menor.
A ordem dos elementos no HTML passou a ser decisiva
Esse detalhe muda como se pensa a estrutura de uma página, principalmente em projetos com muito HTML gerado por JavaScript ou templates pesados.
Meta tags, títulos, canonicals e dados estruturados precisam aparecer o mais cedo possível no código. Se estiverem enterrados no final do HTML, há risco real de ficarem fora do corte de 2 MB. CSS e JavaScript pesados devem ir para arquivos externos: eles têm contador de bytes separado, o que deixa o HTML principal mais enxuto.
Velocidade do servidor afeta diretamente a frequência de crawl
Outro ponto do documento que merece atenção: se o servidor demorar a responder, o Googlebot recua automaticamente para não sobrecarregar a infraestrutura.
O resultado prático é redução na frequência de rastreio. Monitorar os logs de servidor deixou de ser tarefa de operação e passou a ser parte do diagnóstico de SEO.
Esse nível de detalhe sobre crawling não costuma aparecer em documentação oficial. O fato de Gary Illyes ter publicado isso agora sugere que o tema vem causando confusão suficiente para merecer clareza formal. Vale guardar para a próxima auditoria técnica.
Se quiser discutir como isso se aplica ao seu contexto, deixa nos comentários.
Podcast. O Google também tinha um podcast sobre o assunto, aqui está:
Perguntas e respostas
O Google indexa páginas HTML acima de 2 MB? Parcialmente. O Googlebot processa os primeiros 2 MB e ignora tudo depois desse corte.
PDFs têm o mesmo limite de 2 MB? Não. O limite para PDFs é de 64 MB.
O que é o WRS? Web Rendering Service: o sistema do Google que executa JavaScript e CSS para entender o estado final de uma página, como um navegador.
Meta tags no final do HTML prejudicam o SEO? Podem prejudicar se o HTML for grande o suficiente para empurrá-las além dos 2 MB.
Como identificar se o Googlebot está reduzindo a frequência de visita? Verificando os logs de servidor. Quedas na velocidade de resposta afetam diretamente a frequência de crawl.
https://searchengineland.com/google-explains-how-crawling-works-in-2026-473110



