Dúvidas Frequentes: Indexação de URLs no Google

Sempre recebemos dúvidas em relação a indexação de URLs nas pesquisas do Google. Este tópico tem o objetivo de explicar qual o papel da VTEX no auxílio à indexação das páginas nos mecanismos de busca e como você pode contornar casos de indexação indesejada.

Para explicar um pouco desse processo vamos dividir em duas partes, lojas no CMS e lojas no IO. Antes de seguir se faz necessário uma pequena introdução:

Só há duas maneiras de indexar as páginas da sua loja no Google, primeiro através do crawler do Google e segundo pelo sitemap.

O sitemap é um arquivo ou documento de texto desenvolvido para facilitar o processo de indexação de páginas nos motores de busca [1]. Na VTEX o sitemap sempre será um arquivo no formato xml.

Já o Googlebot ou crawler é o termo utilizado para nomear o rastreador do Google. “Rastreador” (às vezes também chamado de “robô” ou “indexador”) é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. Dito isso, entende-se que o Googlebot é um rastreador de sites que explora a Web regularmente para encontrar páginas a serem adicionadas ao seu índice e possui algoritmo próprio para determinar a taxa de rastreamento ideal de um site.

Isso quer dizer que o rastreamento da sua loja não necessariamente depende do sitemap, inclusive paths que não estão neste arquivo podem ser rastreados e indexados pelo Google, gerando por vezes alguns erros ou alertas no Search Console. Estes paths, por sua vez, podem ser URLs que foram “automaticamente seguidas” pelo crawler a partir de outras páginas (um exemplo são URLs de categorias com filtros).

Além disso, como explicado, a frequência no rastreamento das páginas é configurada de acordo com o algoritmo próprio desse programa, impossibilitando portanto saber a regularidade da leitura. Na última linha deste artigo há a informação de que “Não é possível solicitar um aumento na taxa de rastreamento”, com exceção a possibilidade de solicitar um novo rastreamento de URL individual pela ferramenta de inspeção de URL. No entanto, ainda assim não fica claro o momento em que o URL será lido novamente, podendo levar dias ou semanas. Para entender mais sugiro a leitura dos artigos: 1, 2 e 3.

Agora que entendemos a base seguirei explicando como funciona o sitemap em cada tipo de loja na VTEX e como você pode contornar a indexação indesejada de URLs.

CMS Legacy

Caso sua loja seja desenvolvida no CMS legado, o sitemap é automaticamente criado pela plataforma e você pode acessá-lo através do link: https://{{domínio}}/sitemap.xml. O sitemap VTEX em lojas legado possui apenas URLs de Departamentos, Categorias, Marcas e Produtos.

Por default todas as páginas ficam disponíveis para serem rastreadas e indexadas, incluindo página de busca e departamento.

A solução disponível para impedir a indexação de links com parâmetros é seguir as instruções deste artigo, redirecionando as URLs.

Store Framework

Lojas desenvolvidas no store framework (VTEX IO) por default não tem nenhuma página de busca indexada, porém páginas de categoria com filtro podem ser rastreadas pelo googlebot. O workaround que disponibilizamos é ativar a flag "URL canônico sem parâmetro de URL" nas configurações da loja.

/admin/cms/store

A criação do sitemap é diferente, a VTEX não cria e nem atualiza automaticamente o arquivo. Além disso, é possível incluir URLs customizadas como é o caso de landing page. Para mais detalhes veja essa documentação: Store Sitemap.

O objetivo deste tópico foi explicar como a VTEX auxilia na indexação de URLs. Como explicado, nós apenas disponibilizamos recursos para geração do arquivo sitemap.

Agora, qualquer outro tipo de URL indexada que esteja fora do padrão mencionado de paths do sitemap, tem alta possibilidade de terem sido “encontradas” pelos rastreadores e cabe aos lojistas seguirem as alternativas disponíveis por estes mecanismos de busca para evitar ou impossibilitar o rastreamento/indexação.

4 Likes