Google indexando formulários

14 / 04 / 2008   google, seo

Está no blog oficial o Google agora indexa formulários. O artigo está comentado no SearchEngineLand.

Primeiro vamos ao que diz o Google.

Nos últimos meses temos explorado alguns formulários HTML na tentativa de descobrir novas páginas e URLs que, de outra forma, não econtraríamos e não seriam indexadas nas buscas dos usuários no Google. Especificamente, quando encontramos um elemento <FORM> em um site de alta qualidade, podemos decidir por realizar um pequeno número de queries utilizando o formulário. Para as caixas de texto nossos computadores automaticamente escolhem palavras do site; para menus select, checkbox e radio buttons no formulários, geramos e tentamos obter URLs que correspondam a possíveis entradas feitas por usuários. Se concluirmos que uma página resultante desse formulário é válida, interessante e inclui conteúdo que não consta em nossos índices, podemos inclui-lo  tanto quanto faríamos com qualquer outra página.

In the past few months we have been exploring some HTML forms to try to discover new web pages and URLs that we otherwise couldn’t find and index for users who search on Google. Specifically, when we encounter a <FORM> element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

O texto informa ainda que apenas formulários com método GET serão indexados e que valem as diretivas econtradas no robots.txt. Ou seja, se não quiser que um formulário seja indexado basta incluir algo como

# Não permita que os sites de busca indexem uma url
User-Agent: *
Disallow: /endereco/do/formulario

Como sempre, começam as dúvidas.
-Meu site está sendo indexado dessa forma? Hoje, provavelmente não, está lá que apenas alguns sites de “alta qualidade”, seja lá o que for isso na visão do Google, estão sendo testados.
-Há algum problema nisso? Apesar de estar escrito que o resultado será apenas indexado se ainda não constar da base do Google, há muita gente de qualidade preocupada com conteúdo duplicado na busca, o que poderia gerar uma punição para o site.

Eu enviei uma pergunta para o Google sobre a melhor forma de agir, se e quando responderem, eu atualizo aqui.

enviado por Marcos V.

Digg It! Digg It! Del.icio.us

Nenhum comentário »

Nenhum comentário.

 

Enviar Comentário