Tipos de arquivo indexados pelo Google e como pesquisar

filetype

Este post é para compor a seção curiosidades. Nos cursos e na consultoria com a Overdrive, é muito comum surgirem dúvidas como:

  • O Google indexa PDF?
  • O Google indexa sitemap XML?
  • O Google indexa arquivos do Word, Powerpoint?

A resposta é sim para todas as anteriores. E abaixo está a lista oficial de tipos de arquivos indexados pelo Google

Tipos de arquivo indexados pelo Google

  • Adobe Flash (.swf)
  • Adobe Portable Document Format (.pdf)
  • Adobe PostScript (.ps)
  • Autodesk Design Web Format (.dwf)
  • Google Earth (.kml, .kmz)
  • GPS eXchange Format (.gpx)
  • Hancom Hanword (.hwp)
  • HTML (.htm, .html, other file extensions)
  • Microsoft Excel (.xls, .xlsx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Word (.doc, .docx)
  • OpenOffice presentation (.odp)
  • OpenOffice spreadsheet (.ods)
  • OpenOffice text (.odt)
  • Rich Text Format (.rtf)
  • Scalable Vector Graphics (.svg)
  • TeX/LaTeX (.tex)
  • Text (.txt, .text, other file extensions), including source code in common programming languages:
    Basic source code (.bas), C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp), C# source code (.cs), Java source code (.java), Perl source code (.pl), Python source code (.py)
  • Wireless Markup Language (.wml, .wap)
  • XML (.xml)

Se você achar outros tipos de arquivo não listados acima, pode me enviar e eu completo a lista.

Ao mesmo tempo que é muito legal que o Google indexe esses diferentes tipos de arquivo, isso também pode representar um problema se você usa um servidor e um diretório sem restrição de acesso para hospedar os arquivos da sua empresa que não devem ficar abertos ao público.

Digamos que você tenha algumas planilhas ou regimento interno em PDF que não tem motivo para ficar disponível no Google.

Não é que o Google vá invadir o servidor do seu site em busca de arquivos. Porém, o processo dele de coleta de URLs para rastreamento e indexação é bem agressivo e, se por acidente um arquivo desses tiver a URL exposta em alguma página ou documento já coletado pelo Google, o arquivo interno pode ir parar nas buscas.

Por outro lado, para arquivos em formatos específico que você queira encontrar, você pode usar o tipo do arquivo como um filtro na busca.

Busca por tipo de arquivo no Google

O Google tem um operador especial para buscas que permite especificar o tipo de arquivo que você está buscando. O operador é o filetype e o uso é feito assim:

filetype:[tipo do arquivo]

Por exemplo:

filetype:pdf termo de busca

Você faz a pesquisa dessa forma no Google, usando “termo de busca” com o que você queira pesquisar, claro:

  • filetype:pdf google analytics
  • filetype:pdf guia de seo

E mais: essa pesquisa pode retornar arquivos que são PDF mas não tem a extensão “.pdf” – isso pode acontecer porque o Google identificou ou entendeu que o arquivo é do formato PDF.

Todo arquivo tem um cabeçalho que o identifica, que é o que realmente importa, e não a extensão dele. Assim, pouco importa a extensão, e sim esse cabeçalho.

Flash e outros tipos de mídia

Flash

Apesar do Flash ser o primeiro tipo da lista, continua não sendo recomendado fazer um site inteiro em Flash e nem mesmo colocar porções de conteúdo relevante dentro de um arquivo Flash.

Apesar de o Google ler e indexar partes desse tipo de arquivo, isso não será tão eficiente quanto um arquivo HTML tradicional.

Silverlight

Silverlight é uma tecnologia similar ao Flash, bastante apoiada na questão visual e tem uma complexidade alta para leitura. Assim, não é recomendado usar conteúdo relevante dentro dessa mídia.

Vídeo em geral

O Flash é bastante utilizado para reprodução de vídeo, mas existem várias alternativas ganhando bastante espaço.

Hoje em dia, o Google indicar vídeos nos resultados de busca e até mesmo trechos do vídeo, principalmente baseados nas marcações feitas no vídeo (capítulos, transcrição, legenda).

Para todos os casos acima, e até os tipos alternativos de arquivos indexáveis (PDF, XML, .doc etc.) é fundamental ter páginas HTML correspondentes, ou contendo os arquivos, para facilitar que o Google posicione o seu site em pesquisas relacionadas.

Conteúdo é uma parte importante para o sucesso em SEO, então você não deve “escondê-lo” em arquivos complexos. Prefira sempre ter textos em páginas HTML complementares e até mais completos do que os arquivos de mídias alternativas.

Monitoramento, estatísticas e Google Analytics

Também no quesito monitoramento, usar o Google Analytics, ou qualquer outra ferramenta, para monitorar esses arquivos ricos pode ser muito complexo, ou até impossível, então, pode não valer a pena apostar nos formatos como composição de conteúdo principal exibido no site, apenas como material complementar.

Conteúdos nesses formatos especiais, que dificultam ou não tem o monitoramento possível, vão acabar atrapalhando todo o seu plano de métricas e estratégia para evolução e crescimento do site.

E o seu site?

Para garantir que não tem nada fora do lugar no seu site, experimente fazer regularmente pesquisas por tipos de arquivo que eventualmente estejam hospedados no mesmo servidor que o seu site.

Por exemplo, se você tem PDFs armazenados nesse servidor, mas que não deveriam ser indexados pelo Google, você pode fazer uma busca como:

site:nomedoseusite.com filetype:pdf

E se existir algo indexado, você vai encontrar.

Se existem outros formatos possíveis, como o PPTX ou o DOCX, ou outros, verifique cada tipo possível para garantir que seus arquivos não estejam disponíveis no Google indevidamente.