Google revela limites oficiais de rastreamento por tipo de arquivo

O Google atualizou sua documentação oficial para formalizar algo que poucos profissionais de SEO discutiam abertamente: o Googlebot, robô responsável por rastrear e indexar páginas da web, não processa arquivos de tamanho ilimitado. Existem tetos técnicos específicos por formato, e quando um arquivo os ultrapassa, o conteúdo excedente simplesmente não é indexado. Agora esses limites estão documentados com precisão.

Os três limites centrais são diretos. Páginas web convencionais têm teto de 15 MB: tudo que ultrapassar esse volume é ignorado durante o rastreamento. Arquivos em PDF recebem tratamento mais generoso, com limite de 64 MB. Os demais formatos suportados pelo Google, que incluem documentos Office e similares, têm restrição de apenas 2 MB. O comportamento em todos os casos é o mesmo: ao atingir o limite, o Googlebot interrompe o download e envia apenas a porção já baixada para análise de indexação. O restante é descartado sem aviso.

Por que a formalização importa além dos números

Conhecer os limites em si resolve apenas parte do problema. O detalhe técnico que muda a prática está em dois pontos que a documentação esclarece com mais precisão.

O primeiro é que cada recurso externo referenciado no HTML, como arquivos CSS, JavaScript e imagens, é rastreado separadamente e está sujeito aos mesmos limites aplicáveis ao seu tipo de arquivo. Isso significa que uma página aparentemente leve pode ter recursos individuais ultrapassando os tetos sem que o webmaster perceba. O segundo ponto é que os limites são aplicados sobre dados descompactados: arquivos comprimidos são descomprimidos primeiro, e só então o tamanho é verificado. Um PDF de 20 MB comprimido pode se expandir para além de 64 MB após descompressão e perder conteúdo na indexação.

Esse segundo detalhe é especialmente relevante para quem trabalha com documentação técnica, relatórios anuais ou materiais educacionais extensos em PDF, contextos onde arquivos grandes são norma e raramente passam por auditoria de tamanho antes da publicação.

Quem precisa se preocupar com isso na prática

A maioria dos sites não chegará perto desses limites. Uma página web de 15 MB é excepcionalmente pesada: páginas modernas bem otimizadas costumam pesar entre 1 MB e 3 MB. Para esse perfil, a notícia é apenas informação de contexto.

O cenário muda para operações específicas: portais de documentação técnica com páginas longas e muitos recursos embutidos, editoras e plataformas educacionais que publicam apostilas e relatórios extensos em PDF, repositórios de arquivos e bibliotecas digitais com documentos de múltiplos formatos, e sites que concentram grandes volumes de conteúdo em páginas únicas em vez de distribuir em estrutura paginada. Para esses casos, o risco não é hipotético. É um problema silencioso de indexação parcial que pode estar acontecendo agora sem gerar nenhum erro visível no Search Console.

O que fazer quando os limites são um problema real

A solução mais direta para páginas web que excedem 15 MB é distribuir o conteúdo em múltiplas páginas com navegação clara entre elas, em vez de concentrar tudo em uma única URL. Para PDFs próximos ao limite de 64 MB, compressão adequada do arquivo e revisão de imagens embutidas costumam resolver sem perda de qualidade perceptível. Em ambos os casos, a checagem de tamanho de arquivo antes da publicação, com as ferramentas de análise de desempenho já disponíveis no mercado, é suficiente para evitar o problema.

O princípio mais amplo que essa documentação reforça está alinhado ao que a série de artigos deste blog já explorou: conteúdo que não pode ser rastreado não pode ser indexado, e conteúdo que não é indexado não existe para o Google nem para as IAs que usam os dados do Google como fonte. Limites de rastreamento são, portanto, parte da mesma cadeia que começa na estrutura do site e termina na encontrabilidade da marca.

Perguntas e respostas

Quais são os limites oficiais de rastreamento do Googlebot por tipo de arquivo?
- Páginas web convencionais: 15 MB. Arquivos PDF: 64 MB. Outros formatos suportados (como documentos Office): 2 MB. Ao atingir o limite, o Googlebot para de baixar e envia apenas a porção já rastreada para indexação.
O limite de tamanho se aplica ao arquivo comprimido ou descomprimido?
- Ao arquivo descomprimido. O Googlebot descomprime o arquivo primeiro e só então verifica o tamanho. Um PDF aparentemente dentro do limite na forma comprimida pode ultrapassar 64 MB após descompressão e ter conteúdo descartado.
Como verificar se páginas do meu site estão próximas do limite de 15 MB?
- Ferramentas como Google PageSpeed Insights, Chrome DevTools (aba Network) e Screaming Frog permitem visualizar o tamanho total de páginas e recursos individuais. O Google Search Console também reporta problemas de rastreamento, embora não indique explicitamente se a causa é o limite de tamanho.
Recursos externos como CSS e JavaScript têm limite próprio ou compartilham o da página?
- Cada recurso externo é rastreado separadamente e está sujeito ao limite correspondente ao seu tipo de arquivo. Um arquivo JavaScript pesado pode ser truncado independentemente do tamanho da página HTML que o referencia.
A maioria dos sites precisa se preocupar com esses limites?
- Para sites comuns, não. Páginas bem otimizadas costumam pesar entre 1 MB e 3 MB, bem abaixo do teto de 15 MB. O risco é real principalmente para portais de documentação técnica, plataformas educacionais, repositórios de arquivos e qualquer operação que publique PDFs extensos regularmente.

Google revela limites oficiais de rastreamento por tipo de arquivo

Por que a formalização importa além dos números

Quem precisa se preocupar com isso na prática

O que fazer quando os limites são um problema real

Perguntas e respostas

Guia definitivo de SEO para E-commerce

S-CTS: o sistema do Google que combate conteúdo de IA em escala

LinkedIn perdeu 60% do tráfego orgânico com IA do Google?

O ChatGPT envia tráfego para o seu site ou só para o Google?

Deixe uma resposta Cancelar resposta

Início

Sobre o Blog

Equipe Editorial

Política de Privacidade

Uso de Cookies

Anuncie Aqui

ENCONTRABILIDADE

Google revela limites oficiais de rastreamento por tipo de arquivo

Por que a formalização importa além dos números

Quem precisa se preocupar com isso na prática

O que fazer quando os limites são um problema real

Perguntas e respostas

Guia definitivo de SEO para E-commerce

Você também pode curtir

S-CTS: o sistema do Google que combate conteúdo de IA em escala

LinkedIn perdeu 60% do tráfego orgânico com IA do Google?

O ChatGPT envia tráfego para o seu site ou só para o Google?

Deixe uma resposta Cancelar resposta

Início

Sobre o Blog

Equipe Editorial

Política de Privacidade

Uso de Cookies

Anuncie Aqui

ENCONTRABILIDADE