Está se tornando uma tradição por aqui que eu apresente as estatísticas sobre internet, navegação, sites de busca, etc… Pois bem, para não fugir à regra, vamos aods dados da pesquisa da comScore sobre os sites de busca mais acessados da internet.
O que mais chama a atenção não é a liderança do Google, disso todo o mundo já sabe, mas que empresa californiana ampliou essa liderança, com um crescimento de 58% na comparação entre julho de 2008 e julho de 2009. Enquanto isso o mercado global de buscas aumentou em 41% e chegou à incrível marca de 113 bilhões de buscas por mês!
Outros sites que se saíram bem no período foram o Bing, a nova ofensiva da Microsoft contra o Google, o Yandex, site líder em buscas na Rússia, e o Ask.com. Entre os grandões, o único negativo continua sendo a AOL, em seu longo e derradeiro percurso rumo ao anonimato. Decepção também para os números do Yahoo!, crescimento de apenas 2% enquanto o mercado aumentou 41% é um resultado pra lá de ruim.
Abaixo, os dados da pesquisa. Ao ler, não se esqueça que as buscas estão em milhões, o que significa que o Google em julho de 2009 realizou 76,6 Bilhões de buscas…

ranking dos sites de busca
enviado por Marcos V.
Eu sempre gero sitemaps nos meus sites e nos blogs movidos a Wordpress utilizo o ótimo plugin Google XML Sitemap Generator. Faço isso por ser uma das recomendações oficiais do Google.
Pois bem, estava colocando a leitura dos feeds em dia e me deparo com um artigo no SEOmoz.org sobre Como Sitemaps afetam os robôs dos sites de busca. Segundo o autor do post, a submissão automática de um sitemap sempre que o blog for atualizado provoca um substancial aumento na velocidade com que a página é indexada. No caso relatado o tempo caiu para 1% no google, de 1300 minutos para apenas 14 minutos!, e menos de 20% no Yahoo, de 1700 para 250 minutos. É um ganho impressionante na velocidade de indexação de uma página. Note que isso não garante melhoria no pagerank, apenas faz com que a página seja indexada mais rapidamente.
Eu já notei isso com alguns comentário sobre economia e política que faço no Mavit. Muitas vezes o meu artigo ficava por horas nas primeiras posições e caia conforme os portais (melhor ranqueados) publicavam textos sobre os mesmos temas. Ou seja, ganho algumas visitas simplesmente porque instalei um plugin que faz tudo automaticamente pra mim.
Resolvi então repetir o teste aqui no Brasil, não fiz tantos casos como os relatados nos artigos, mas deu pra ter uma idéia. Um artigo publicado aqui no Webcétera sem ter o sitemap submetido levou 1087 minutos para ser lido pelo robô do Google. O artigo seguinte, já com o plugin novamente ativo, foi lido em 23 minutos!
Pra mim é razão mais que suficiente para manter o sitemap sempre atualizado e submetido aos principais sites de busca.
enviado por Marcos V.
Conteúdo duplicado: Já travei diversas discussões sobre conteúdos duplicados em forums, listas de discussão, blogs, sites, mesas de bar e o diabo-a-quatro. Primeiro vale uma explicação sobre o que é conteúdo duplicado: dá-se esse nome quando um mesmo conteúdo pode ser encontrado em duas URL (endereços de internet) diferentes. Um exemplo, imagine que esse texto aparece aqui no webcetera em http://webcetera.com.br/conteudoduplicado e no http://blogespelho.com/conteudoduplicado. O sistema do Google tentará entender se a duplicação foi intencional, ou seja, uma tática para ludibriar o site de busca e aumentar as chances do link aparecer bem colocado. Caso concluam que sim, tentaram enganar, haverá uma penalização e o site pode até não aparecer mais no Google.
A palavra do Google: Eis que aparecem os arautos do apocalipse afirmando que até mesmo paginação de comentários em blogs pode levar à penalização. Eu já gastei muito dedo e saliva tentando explicar que não, então vou aproveitar o que saiu no googleblog:
(original em inglês) A maioria dos proprietários de sites que se preocupam com conteúdo duplicado … estão pensando em situações como múltiplas URLs no mesmo domínio que apontam para o mesmo conteúdo, por exemplo: www.example.com/skates.asp?color=black&brand=riedell e www.example.com/skates.asp?brand=riedell&color=black. Possuir esse tipo de conteúdo duplicado em seu site pode potencialmente afetar o desempenho do site, mas não causará penalides.
Ainda, na mesma página sobre conteúdo duplicado, o google afirma:
Esse tipo de duplicação não maliciosa é muito comum, especialmente porque muitos CMSs não lidam bem com isso. Portanto, quando as pessoas dizem que possuir esse tipo de conteúdo duplicado pode afetar seu site, não é porque você será penalizado; é simplesmente pela forma como sites e sistemas de busca trabalham.
ainda, o google:
- Quando detectamos conteúdo duplicado, como os causados por variação de parâmetros de URL, nós os agrupamos em apenas “um”.
- Selecionamos o que julgamos ser a “melhor” URL para representar o grupo nos resultados das buscas.
- Nós então consolidamos as propriedades das URLs no grupo, como a popularidade da página, para representar todo o grupo.
Ou seja, eles entendem que sistemas escrevem de forma distintas o endereço de uma mesma página. Entendem também o conceito de paginação.
Na prática: Quando entrava em discussões sobre penalização de conteúdo duplicado por paginação de comentários, sempre terminava com o seguinte argumento: -entre na conta google de um site com paginação de comentários, por exemplo, e me mostre a penalização. Nunca ninguém tinha nada pra me mostrar, sempre ouviram falar do blog do primo do amigo do vizinho que “chutado” do google por causa disso.
Eu mesmo já acreditei que o fato do Wordpress montar a mesma página para uma tag que também seja o nome de uma categoria (blog/category/bla = blog/tag/bla) pudesse levar a uma punição. A questão é que nenhum dos meus blogs ou das redes que administro NUNCA foi punido por isso. Zero. Nada.
Portanto, monte o seu site/blog da melhor forma possível, crie sua conta no google e acompanhe os problemas.
enviado por Marcos V.
Está no blog oficial o Google agora indexa formulários. O artigo está comentado no SearchEngineLand.
Primeiro vamos ao que diz o Google.
Nos últimos meses temos explorado alguns formulários HTML na tentativa de descobrir novas páginas e URLs que, de outra forma, não econtraríamos e não seriam indexadas nas buscas dos usuários no Google. Especificamente, quando encontramos um elemento <FORM> em um site de alta qualidade, podemos decidir por realizar um pequeno número de queries utilizando o formulário. Para as caixas de texto nossos computadores automaticamente escolhem palavras do site; para menus select, checkbox e radio buttons no formulários, geramos e tentamos obter URLs que correspondam a possíveis entradas feitas por usuários. Se concluirmos que uma página resultante desse formulário é válida, interessante e inclui conteúdo que não consta em nossos índices, podemos inclui-lo tanto quanto faríamos com qualquer outra página.
In the past few months we have been exploring some HTML forms to try to discover new web pages and URLs that we otherwise couldn’t find and index for users who search on Google. Specifically, when we encounter a <FORM> element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.
O texto informa ainda que apenas formulários com método GET serão indexados e que valem as diretivas econtradas no robots.txt. Ou seja, se não quiser que um formulário seja indexado basta incluir algo como
# Não permita que os sites de busca indexem uma url
User-Agent: *
Disallow: /endereco/do/formulario
Como sempre, começam as dúvidas.
-Meu site está sendo indexado dessa forma? Hoje, provavelmente não, está lá que apenas alguns sites de “alta qualidade”, seja lá o que for isso na visão do Google, estão sendo testados.
-Há algum problema nisso? Apesar de estar escrito que o resultado será apenas indexado se ainda não constar da base do Google, há muita gente de qualidade preocupada com conteúdo duplicado na busca, o que poderia gerar uma punição para o site.
Eu enviei uma pergunta para o Google sobre a melhor forma de agir, se e quando responderem, eu atualizo aqui.
enviado por Marcos V.
A artigo a seguir contém algumas explicações matemáticas, mas ao final dele ficará claro o conceito de PageRank.
O Google, e todos os outros sites de busca baseados em contexto, utilizam um ranqueamento de páginas. É isso, entre outras coisas, que faz uma página aparecer antes de outra nos resultados de uma busca. Como pode valer um bom dinheiro a posição na buscas, existe uma legião de SEOs (Search Engine Optimizers) à solta dizendo como fazer para melhorar o PageRank (PR daqui pra frente) de uma página. Mas afinal, como é calculado o PageRank do Google? leia mais…
enviado por Marcos V.
Next Page »