Algo Sobre o Google para Animar a Blogosfera

É uma injustiça, um verdadeiro crime, que, por causa de um mísero algoritmo, toda a Internet fique isolada, sem acesso aos nossos maravilhosos blogs, cheios de conteúdo, charme intelectual, tirocínio e estilo. Mas felizmente isso está para mudar.

laptop-google
Imagem: Pexels.com

O Google anunciou ontem [18/08] que vai lançar atualizações em sua ferramenta de pesquisa nas próximas semanas, com o objetivo de facilitar o descobrimento de conteúdo de alta qualidade. Assim informa a reportagem do TechCrunch:

As novas melhorias de classificação buscam reduzir o conteúdo de baixa qualidade ou não original – que atualmente goza de uma classificação alta nos resultados de pesquisa. O Google diz que a atualização terá como alvo o conteúdo criado especificamente para melhorar a classificação nos mecanismos de pesquisa – conhecido como conteúdo “SEO-first”.

Os testes da empresa mostraram que a atualização vai melhorar os resultados que os usuários encontram ao pesquisar conteúdo, como materiais educacionais online, artes e entretenimento, compras e conteúdo relacionado à tecnologia [agradeço e coloco aqui um emoji de carinha agradavelmente surpresa].

As novas atualizações devem ajudar a reduzir o número de sites de baixa qualidade nos resultados, aqueles que aprenderam a manipular o sistema otimizando o conteúdo para ter uma classificação alta nos resultados de pesquisa. O Google diz que os usuários vão começar a ver o conteúdo realmente útil receber uma classificação mais proeminente nos resultados de pesquisa.

A empresa planeja refinar seus sistemas e desenvolver essas melhorias ao longo do tempo. “Com esta atualização, você verá mais resultados com informações exclusivas; assim é mais provável que você leia algo que nunca viu antes”, explicou a empresa em um post no seu blog.

Fica patente que a proximidade do TikTok no mercado de pesquisa está deixando os executivos do Google nervosos. Espero que isso então signifique que blogs como este, e de tantos outros bons que eu sigo, na plataforma WordPress e em outras, terão de novo um lugar ao Sol.

Obviamente deve ter ficado claro para o departamento financeiro que não haverá como vender links-lixo para os anunciantes se o público alvo se debandar pela falta de conteúdo original. De alguma forma os executivos da Alphabet entenderam que é necessário uma boa ancoragem de conteúdo nas páginas de resultados.

Um outro mundo, um outro tempo

Lembro-me daquele outro mundo, em que o AltaVista era a grande ferramenta de busca. Você conseguia exatamente o que pesquisava e sempre tinha que rolar por páginas e páginas de resultados, e refinar seus termos de pesquisa várias vezes, antes de encontrar o que queria – se é que conseguia encontrar.

É fácil criticar o Google hoje, mas se você vivesse naquela época, perceberia o quão bons são os resultados de pesquisa do Google. O algoritmo ‘Pagerank’, que é o núcleo de todo o serviço, é uma maravilha da engenharia de sistemas, e não há dissenso quanto a isso. Experimente um mecanismo de pesquisa alternativo concorrente hoje. Acesse bing.com, yahoo.com ou brave.com. Esses sites talvez vão fornecer algum resultado que você deseja – mas que você provavelmente não deseja tanto quanto eles pensam que você deseja.

As críticas ao Google, pelo menos as minhas, na verdade não são endereçadas à sua engenharia. Elas se referem a suas praticas intrusivas de coleção de dados; se referem ao domínio da privacidade, de como uma empresa brilhante se desviou ao longo do caminho.

Como era e como é

Não muitos anos atrás, era possível fazer duas coisas legais com o Google.

  • Você poderia inserir palavras-chave aproximadas e tentaria descobrir o que você realmente desejava entre todos os resultados retornados, ou
  • Você poderia colocar literalmente o que desejava encontrar, entre aspas, e isso forneceria exatamente o que você havia pedido.

Isso parece não funcionar mais. Um exemplo: ao tentar pesquisar um trecho de uma obra da literatura é comum ter a primeira página de resultados completamente tomada de ofertas comerciais para adquirir a obra, em variadas mídias, e não uma referência acadêmica – ou mesmo apenas literária – ao texto pesquisado.

Ou digite o número de uma peça, ou componente, ou chip, entre aspas, junto com a palavra ‘datasheet’ [folha de dados]. Será um milagre se você realmente conseguir um link para uma folha de dados. Você vai ter links para várias empresas não relacionadas, que tentam te vender coisas que não são relacionadas a qualquer palavra da sua consulta.

Isso não está nem no nível de “resultados ruins”. Isso só pode ser descrito como completo fracasso.


Mas nós sabemos que o fabuloso ‘Pagerank’ ainda está lá. Seria fantástico poder vê-lo funcionar de novo como em 2002. O Google certamente pode melhorar os resultados, se quiser, embora também seja fato que os caras de SEO vão sempre encontrar novas maneiras de colocar o lixo deles mais alto nas páginas de resultados.

Eu aplaudo o Google e desejo sorte a eles. O Google não tem um bom histórico em cumprir compromissos, e nem de agir em favor do usuário ou da sociedade. Sempre convém manter um olhar cético ao lidar com eles. Tomando tudo com uma pitada de sal, saúdo meus colegas bloguistas, na expectativa de bons tempos à frente. Ao sucesso!

Nota: Há muitos anos eu uso duckduckgo como ferramenta de pesquisa na web.


Post Scriptum

Eu me pergunto quanto mais os grandes meios de comunicação serão rebaixados em sua dignidade pelas ferramentas de pesquisa. Nos Estados Unidos já surgiu a expressão churnalism [de churn – agitar]. Definição da Wikipedia (inglês):

Churnalism é um termo pejorativo para uma forma de jornalismo em que press-releases, histórias fornecidas por agências de notícias e outras formas de material pré empacotado, em lugar de notícias reais buscadas no campo, são usadas para criar artigos em jornais e em outras mídias de notícias. É uma junção de “churn” e “jornalism”. Seu objetivo é reduzir custos diminuindo as despesas com coleta de notícias originais e com verificação de fontes.

O churnalismo praticamente se tornou a norma dos dias correntes. Acesse o site da UOL para ver por si mesma(o). O churnalismo é exatamente o motivo pelo qual temos problemas com as proverbiais ‘fake news’ em primeiro lugar.

Google Reloaded: Transformando Sistemas Diletantes em Especialistas

A emergência do Google em 1998 foi devida ao algoritmo PageRank, uma inovação assombrosa na época. Ele classificava a relevância dos resultados da pesquisa com base em seus links para outras páginas na web. Em cima do PageRank, o Google se tornou a porta de entrada para a internet, e Sergey Brin e Larry Page construíram uma das maiores empresas do mundo.

Agora, uma equipe de pesquisadores do Google publicou no site ArXiv, no último dia 5 de maio, uma proposta para um redesenho radical do sistema, que descarta a abordagem de classificação e a substitui por um único grande modelo de linguagem de Aprendizagem de Máquina, como o BERT ou GPT-3 – ou uma versão futura deles. A ideia é que, ao invés de buscar informações em uma vasta lista de páginas da web, os usuários façam perguntas e tenham um modelo de linguagem treinado que possa respondê-las diretamente. A abordagem pode mudar não apenas a forma como os mecanismos de pesquisa funcionam, mas o que eles fazem e como interagimos com eles.

* * *

Repensando a Busca: Transformando Diletantes em Especialistas

Resumo

Quando precisam de informação, os usuários da Internet desejam [na realidade] se envolver com um especialista, mas tudo o que podem fazer é recorrer a um sistema de recuperação de informações, como um mecanismo de busca. Os sistemas clássicos de recuperação de informação não respondem diretamente às necessidades de informação, mas fornecem referências para respostas (que os usuários tomam como fontes autoritativas). Mesmo os sistemas de resposta a perguntas mais bem-sucedidos oferecem um ‘corpus’ limitado, que não é nem oportuno nem escalonável, criado sob demanda por especialistas humanos.

Grandes modelos de linguagem pré-treinados [como os sistemas de Apredizagem de Máquina do Google], por outro lado, são capazes de gerar diretamente uma prosa que pode responder a uma necessidade de informação. No presente esses sistemas são apenas diletantes ao invés de especialistas – eles não têm uma verdadeira compreensão do mundo, eles são propensos a alucinar e, crucialmente, são incapazes de justificar suas declarações no que se refere a documentos de apoio do ‘corpus’ sobre o qual foram treinados. Este artigo examina como as ideias clássicas de recuperação de informações, bem como grandes modelos de linguagem pré-treinados, podem ser sintetizados e aprimorados, em sistemas que realmente cumprem a promessa de aconselhamento especializado.

Link para o trabalho na íntegra [em inglês].