Algo Sobre o Google para Animar a Blogosfera

É uma injustiça, um verdadeiro crime, que, por causa de um mísero algoritmo, toda a Internet fique isolada, sem acesso aos nossos maravilhosos blogs, cheios de conteúdo, charme intelectual, tirocínio e estilo. Mas felizmente isso está para mudar.

laptop-google
Imagem: Pexels.com

O Google anunciou ontem [18/08] que vai lançar atualizações em sua ferramenta de pesquisa nas próximas semanas, com o objetivo de facilitar o descobrimento de conteúdo de alta qualidade. Assim informa a reportagem do TechCrunch:

As novas melhorias de classificação buscam reduzir o conteúdo de baixa qualidade ou não original – que atualmente goza de uma classificação alta nos resultados de pesquisa. O Google diz que a atualização terá como alvo o conteúdo criado especificamente para melhorar a classificação nos mecanismos de pesquisa – conhecido como conteúdo “SEO-first”.

Os testes da empresa mostraram que a atualização vai melhorar os resultados que os usuários encontram ao pesquisar conteúdo, como materiais educacionais online, artes e entretenimento, compras e conteúdo relacionado à tecnologia [agradeço e coloco aqui um emoji de carinha agradavelmente surpresa].

As novas atualizações devem ajudar a reduzir o número de sites de baixa qualidade nos resultados, aqueles que aprenderam a manipular o sistema otimizando o conteúdo para ter uma classificação alta nos resultados de pesquisa. O Google diz que os usuários vão começar a ver o conteúdo realmente útil receber uma classificação mais proeminente nos resultados de pesquisa.

A empresa planeja refinar seus sistemas e desenvolver essas melhorias ao longo do tempo. “Com esta atualização, você verá mais resultados com informações exclusivas; assim é mais provável que você leia algo que nunca viu antes”, explicou a empresa em um post no seu blog.

Fica patente que a proximidade do TikTok no mercado de pesquisa está deixando os executivos do Google nervosos. Espero que isso então signifique que blogs como este, e de tantos outros bons que eu sigo, na plataforma WordPress e em outras, terão de novo um lugar ao Sol.

Obviamente deve ter ficado claro para o departamento financeiro que não haverá como vender links-lixo para os anunciantes se o público alvo se debandar pela falta de conteúdo original. De alguma forma os executivos da Alphabet entenderam que é necessário uma boa ancoragem de conteúdo nas páginas de resultados.

Um outro mundo, um outro tempo

Lembro-me daquele outro mundo, em que o AltaVista era a grande ferramenta de busca. Você conseguia exatamente o que pesquisava e sempre tinha que rolar por páginas e páginas de resultados, e refinar seus termos de pesquisa várias vezes, antes de encontrar o que queria – se é que conseguia encontrar.

É fácil criticar o Google hoje, mas se você vivesse naquela época, perceberia o quão bons são os resultados de pesquisa do Google. O algoritmo ‘Pagerank’, que é o núcleo de todo o serviço, é uma maravilha da engenharia de sistemas, e não há dissenso quanto a isso. Experimente um mecanismo de pesquisa alternativo concorrente hoje. Acesse bing.com, yahoo.com ou brave.com. Esses sites talvez vão fornecer algum resultado que você deseja – mas que você provavelmente não deseja tanto quanto eles pensam que você deseja.

As críticas ao Google, pelo menos as minhas, na verdade não são endereçadas à sua engenharia. Elas se referem a suas praticas intrusivas de coleção de dados; se referem ao domínio da privacidade, de como uma empresa brilhante se desviou ao longo do caminho.

Como era e como é

Não muitos anos atrás, era possível fazer duas coisas legais com o Google.

  • Você poderia inserir palavras-chave aproximadas e tentaria descobrir o que você realmente desejava entre todos os resultados retornados, ou
  • Você poderia colocar literalmente o que desejava encontrar, entre aspas, e isso forneceria exatamente o que você havia pedido.

Isso parece não funcionar mais. Um exemplo: ao tentar pesquisar um trecho de uma obra da literatura é comum ter a primeira página de resultados completamente tomada de ofertas comerciais para adquirir a obra, em variadas mídias, e não uma referência acadêmica – ou mesmo apenas literária – ao texto pesquisado.

Ou digite o número de uma peça, ou componente, ou chip, entre aspas, junto com a palavra ‘datasheet’ [folha de dados]. Será um milagre se você realmente conseguir um link para uma folha de dados. Você vai ter links para várias empresas não relacionadas, que tentam te vender coisas que não são relacionadas a qualquer palavra da sua consulta.

Isso não está nem no nível de “resultados ruins”. Isso só pode ser descrito como completo fracasso.


Mas nós sabemos que o fabuloso ‘Pagerank’ ainda está lá. Seria fantástico poder vê-lo funcionar de novo como em 2002. O Google certamente pode melhorar os resultados, se quiser, embora também seja fato que os caras de SEO vão sempre encontrar novas maneiras de colocar o lixo deles mais alto nas páginas de resultados.

Eu aplaudo o Google e desejo sorte a eles. O Google não tem um bom histórico em cumprir compromissos, e nem de agir em favor do usuário ou da sociedade. Sempre convém manter um olhar cético ao lidar com eles. Tomando tudo com uma pitada de sal, saúdo meus colegas bloguistas, na expectativa de bons tempos à frente. Ao sucesso!

Nota: Há muitos anos eu uso duckduckgo como ferramenta de pesquisa na web.


Post Scriptum

Eu me pergunto quanto mais os grandes meios de comunicação serão rebaixados em sua dignidade pelas ferramentas de pesquisa. Nos Estados Unidos já surgiu a expressão churnalism [de churn – agitar]. Definição da Wikipedia (inglês):

Churnalism é um termo pejorativo para uma forma de jornalismo em que press-releases, histórias fornecidas por agências de notícias e outras formas de material pré empacotado, em lugar de notícias reais buscadas no campo, são usadas para criar artigos em jornais e em outras mídias de notícias. É uma junção de “churn” e “jornalism”. Seu objetivo é reduzir custos diminuindo as despesas com coleta de notícias originais e com verificação de fontes.

O churnalismo praticamente se tornou a norma dos dias correntes. Acesse o site da UOL para ver por si mesma(o). O churnalismo é exatamente o motivo pelo qual temos problemas com as proverbiais ‘fake news’ em primeiro lugar.

Pros & Cons: o Novo Sistema de Classificação de Usuários do Google

Como já “discutimos” recentemente, e vamos continuar a fazê-lo, o todo-poderoso Google está para introduzir uma nova sistemática para distribuição de seus anúncios dirigidos. O sistema é chamado FLoC, sigla em inglês para Aprendizagem Federada sobre Coortes, e ele pretende substituir os notórios ‘cookies’ em nossos dispositivos. Essa sigla vai passar a fazer parte do cotidiano de todos na rede, portanto o aprendizado virá automaticamente com o tempo. O foco aqui é estimular a discussão dialética dos prós e contras entre os tecnologistas militantes e aspirantes. Assim, delineio abaixo alguns comentários sobre o assunto, tentando enquadrar as duas correntes.

Antes, algumas definições rápidas:

Cookies de site: são os cookies comuns, armazenados pelos sites em seu navegador. Eles podem ser usados para configurar preferências nos sites visitados, mas são rotineiramente abusados para rastreamento.

Cookies de terceiros: são como os cookies de site, mas usados unicamente para rastreamento. O cruzamento das informações que eles carregam revela quem você é e o que está fazendo (largamente alimentados por Smartphones).

FLoC: armazenado em seu dispositivo, rastreia a atividade no navegador e coloca o usuário em um determinado grupo, ou, digamos, um “balde”… Google alega que esse sistema é mais anônimo do que os cookies de terceiros, porque apenas o Google terá a informação sobre seu histórico. Mas mesmo assim, esses “baldes” ainda dizem tudo sobre você. Não há limite à informação que esses baldes podem conter e nem a como ela é usada. Além disso, o Google marca seu ID em todos os navegadores, de forma que é muito fácil converter esse “rastreamento anônimo” de volta à ‘persona’ identificável do usuário

O FLoC classifica os usuários em “coortes” [grupos] com base em seus interesses percebidos. A coorte, que reside em seu computador, é então passada ao site que você visita, para que ele possa segmentar anúncios para você, usando as informações que sua coorte dá a ele. Antes os sites faziam isso usando os chamados “cookies de terceiros.”

Na atribuição de coorte A, os usuários são classificados nas coortes 1 e 2 pelos sites que visitam. Na atribuição de coorte B, os usuários são classificados nas coortes 1 e 2 pelos gostos pessoais.

Basicamente, o problema para o Google é que os cookies de terceiros estão sendo mortos pelas políticas contemporâneas de privacidade dos navegadores e as tecnologias alternativas a eles dificultam o rastreamento adequado de todos. Então o Google é levado a construir o FLoC como uma alternativa fácil para contornar o bloqueio dos navegadores aos cookies de terceiros. Com o FLoC, um site qualquer não poderá usar cookies de terceiros para rastrear os usuários diretamente. Mas então, você não só ainda tem o rastreamento, mas também dá agora muito mais poder ao Google, que é o dono da tecnologia. Todos os seus gostos pessoais e comportamentos estão lá para para que eles façam com esses dados o que bem entenderem.

O Google afirma que esse esquema é melhor para a privacidade, porque todo o rastreamento que interessa é feito no navegador e mantido local [em seu computador]. O site só recebe um identificador geral de coorte, e como as coortes conterão milhares de usuários, elas serão de uso limitado para o rastreamento de indivíduos particulares.

Existem inúmeros problemas com essa tese. Para começar, a implementação é o que chamaríamos de “meia-boca”, com o sistema de atribuição de coorte não sendo suficientemente resistente à deanonimização. Um adversário poderia simular milhares de sessões de navegação e observar quais identificadores de coortes resultam delas. Adicionalmente, se um adversário controla vários sites populares, ele pode usá-los para forçar usuários a frequentar coortes selecionadas.

E há a questão dos temas “sensíveis”. O Google afirma que vai garantir que coortes sensíveis sejam bloqueadas. Portanto, não haverá nada relativo a religião, orientação sexual e semelhantes. Mais uma vez, o problema é que a listagem dos grupos sensíveis que eles vão ter é incompleta e, para piorar, baseada em tabus e problemas sociais ocidentais. De fato, é muito provável que coortes abusivas sejam criadas, colocando as minorias em perigo em regimes autoritários e ditaduras.

O FLoC também quebra o modo privado de navegação. Por padrão, o FLoC envia um valor nulo ao servidor do site quando não há dados suficientes para atribuir um usuário a uma coorte ou quando ele estiver no modo privado de navegação. Isso dá aos adversários uma maneira de detectar, por dedução, a navegação privada.

O Outro Lado

É tentador apenas dizer “sem cookies de terceiros e sem FLoC! Queremos a web privada!”. A realidade é que, se essa abordagem for algum dia adotada por navegadores, os custos seriam empurrados de volta para o usuário de alguma forma. O FLoC não é perfeito, mas é melhor que os cookies, e é, pelo menos, a ideia geral correta para uma solução que possa manter o atual sistema suportado por anúncios rolando, evitando os problemas de privacidade mais egrégios.

Se os usuários / navegadores / plataformas de conteúdo não puderem chegar a algum tipo de consenso com os anunciantes em termos do equilíbrio privacidade versus “anúncios dirigidos“, os anunciantes vão anunciar menos – o que vai prejudicar muitos sites usados por muitas pessoas – ou eles exigirão dos provedores de conteúdo que forneçam soluções de segmentação de anúncios com propriedades ainda piores: coisas como “Login com o Facebook para ver este conteúdo“. Adicionalmente, sites precisarão de mais anúncios (e anúncios mais intrusivos) para gerar o mesmo tanto de receita publicitária.

Epílogo

Pessoalmente, eu adoraria ver algum tipo de sistema de micro-pagamentos tomar o lugar da web suportada por anúncios – mas essa ideia parece ser fortemente rejeitada pela maioria dos usuários, julgando-se pela incrível quantidade de ítens “grátis” consumidos diariamente na rede. A não ser que haja uma mudança significativa no panorama, temo que certas pessoas e instituições vão, como sói acontecer, rejeitar uma solução imperfeita (FLoC) em favor de algo ainda não conhecido e muito pior.