Algo Sobre o Google para Animar a Blogosfera

É uma injustiça, um verdadeiro crime, que, por causa de um mísero algoritmo, toda a Internet fique isolada, sem acesso aos nossos maravilhosos blogs, cheios de conteúdo, charme intelectual, tirocínio e estilo. Mas felizmente isso está para mudar.

laptop-google
Imagem: Pexels.com

O Google anunciou ontem [18/08] que vai lançar atualizações em sua ferramenta de pesquisa nas próximas semanas, com o objetivo de facilitar o descobrimento de conteúdo de alta qualidade. Assim informa a reportagem do TechCrunch:

As novas melhorias de classificação buscam reduzir o conteúdo de baixa qualidade ou não original – que atualmente goza de uma classificação alta nos resultados de pesquisa. O Google diz que a atualização terá como alvo o conteúdo criado especificamente para melhorar a classificação nos mecanismos de pesquisa – conhecido como conteúdo “SEO-first”.

Os testes da empresa mostraram que a atualização vai melhorar os resultados que os usuários encontram ao pesquisar conteúdo, como materiais educacionais online, artes e entretenimento, compras e conteúdo relacionado à tecnologia [agradeço e coloco aqui um emoji de carinha agradavelmente surpresa].

As novas atualizações devem ajudar a reduzir o número de sites de baixa qualidade nos resultados, aqueles que aprenderam a manipular o sistema otimizando o conteúdo para ter uma classificação alta nos resultados de pesquisa. O Google diz que os usuários vão começar a ver o conteúdo realmente útil receber uma classificação mais proeminente nos resultados de pesquisa.

A empresa planeja refinar seus sistemas e desenvolver essas melhorias ao longo do tempo. “Com esta atualização, você verá mais resultados com informações exclusivas; assim é mais provável que você leia algo que nunca viu antes”, explicou a empresa em um post no seu blog.

Fica patente que a proximidade do TikTok no mercado de pesquisa está deixando os executivos do Google nervosos. Espero que isso então signifique que blogs como este, e de tantos outros bons que eu sigo, na plataforma WordPress e em outras, terão de novo um lugar ao Sol.

Obviamente deve ter ficado claro para o departamento financeiro que não haverá como vender links-lixo para os anunciantes se o público alvo se debandar pela falta de conteúdo original. De alguma forma os executivos da Alphabet entenderam que é necessário uma boa ancoragem de conteúdo nas páginas de resultados.

Um outro mundo, um outro tempo

Lembro-me daquele outro mundo, em que o AltaVista era a grande ferramenta de busca. Você conseguia exatamente o que pesquisava e sempre tinha que rolar por páginas e páginas de resultados, e refinar seus termos de pesquisa várias vezes, antes de encontrar o que queria – se é que conseguia encontrar.

É fácil criticar o Google hoje, mas se você vivesse naquela época, perceberia o quão bons são os resultados de pesquisa do Google. O algoritmo ‘Pagerank’, que é o núcleo de todo o serviço, é uma maravilha da engenharia de sistemas, e não há dissenso quanto a isso. Experimente um mecanismo de pesquisa alternativo concorrente hoje. Acesse bing.com, yahoo.com ou brave.com. Esses sites talvez vão fornecer algum resultado que você deseja – mas que você provavelmente não deseja tanto quanto eles pensam que você deseja.

As críticas ao Google, pelo menos as minhas, na verdade não são endereçadas à sua engenharia. Elas se referem a suas praticas intrusivas de coleção de dados; se referem ao domínio da privacidade, de como uma empresa brilhante se desviou ao longo do caminho.

Como era e como é

Não muitos anos atrás, era possível fazer duas coisas legais com o Google.

  • Você poderia inserir palavras-chave aproximadas e tentaria descobrir o que você realmente desejava entre todos os resultados retornados, ou
  • Você poderia colocar literalmente o que desejava encontrar, entre aspas, e isso forneceria exatamente o que você havia pedido.

Isso parece não funcionar mais. Um exemplo: ao tentar pesquisar um trecho de uma obra da literatura é comum ter a primeira página de resultados completamente tomada de ofertas comerciais para adquirir a obra, em variadas mídias, e não uma referência acadêmica – ou mesmo apenas literária – ao texto pesquisado.

Ou digite o número de uma peça, ou componente, ou chip, entre aspas, junto com a palavra ‘datasheet’ [folha de dados]. Será um milagre se você realmente conseguir um link para uma folha de dados. Você vai ter links para várias empresas não relacionadas, que tentam te vender coisas que não são relacionadas a qualquer palavra da sua consulta.

Isso não está nem no nível de “resultados ruins”. Isso só pode ser descrito como completo fracasso.


Mas nós sabemos que o fabuloso ‘Pagerank’ ainda está lá. Seria fantástico poder vê-lo funcionar de novo como em 2002. O Google certamente pode melhorar os resultados, se quiser, embora também seja fato que os caras de SEO vão sempre encontrar novas maneiras de colocar o lixo deles mais alto nas páginas de resultados.

Eu aplaudo o Google e desejo sorte a eles. O Google não tem um bom histórico em cumprir compromissos, e nem de agir em favor do usuário ou da sociedade. Sempre convém manter um olhar cético ao lidar com eles. Tomando tudo com uma pitada de sal, saúdo meus colegas bloguistas, na expectativa de bons tempos à frente. Ao sucesso!

Nota: Há muitos anos eu uso duckduckgo como ferramenta de pesquisa na web.


Post Scriptum

Eu me pergunto quanto mais os grandes meios de comunicação serão rebaixados em sua dignidade pelas ferramentas de pesquisa. Nos Estados Unidos já surgiu a expressão churnalism [de churn – agitar]. Definição da Wikipedia (inglês):

Churnalism é um termo pejorativo para uma forma de jornalismo em que press-releases, histórias fornecidas por agências de notícias e outras formas de material pré empacotado, em lugar de notícias reais buscadas no campo, são usadas para criar artigos em jornais e em outras mídias de notícias. É uma junção de “churn” e “jornalism”. Seu objetivo é reduzir custos diminuindo as despesas com coleta de notícias originais e com verificação de fontes.

O churnalismo praticamente se tornou a norma dos dias correntes. Acesse o site da UOL para ver por si mesma(o). O churnalismo é exatamente o motivo pelo qual temos problemas com as proverbiais ‘fake news’ em primeiro lugar.

Google Reloaded: Transformando Sistemas Diletantes em Especialistas

A emergência do Google em 1998 foi devida ao algoritmo PageRank, uma inovação assombrosa na época. Ele classificava a relevância dos resultados da pesquisa com base em seus links para outras páginas na web. Em cima do PageRank, o Google se tornou a porta de entrada para a internet, e Sergey Brin e Larry Page construíram uma das maiores empresas do mundo.

Agora, uma equipe de pesquisadores do Google publicou no site ArXiv, no último dia 5 de maio, uma proposta para um redesenho radical do sistema, que descarta a abordagem de classificação e a substitui por um único grande modelo de linguagem de Aprendizagem de Máquina, como o BERT ou GPT-3 – ou uma versão futura deles. A ideia é que, ao invés de buscar informações em uma vasta lista de páginas da web, os usuários façam perguntas e tenham um modelo de linguagem treinado que possa respondê-las diretamente. A abordagem pode mudar não apenas a forma como os mecanismos de pesquisa funcionam, mas o que eles fazem e como interagimos com eles.

* * *

Repensando a Busca: Transformando Diletantes em Especialistas

Resumo

Quando precisam de informação, os usuários da Internet desejam [na realidade] se envolver com um especialista, mas tudo o que podem fazer é recorrer a um sistema de recuperação de informações, como um mecanismo de busca. Os sistemas clássicos de recuperação de informação não respondem diretamente às necessidades de informação, mas fornecem referências para respostas (que os usuários tomam como fontes autoritativas). Mesmo os sistemas de resposta a perguntas mais bem-sucedidos oferecem um ‘corpus’ limitado, que não é nem oportuno nem escalonável, criado sob demanda por especialistas humanos.

Grandes modelos de linguagem pré-treinados [como os sistemas de Apredizagem de Máquina do Google], por outro lado, são capazes de gerar diretamente uma prosa que pode responder a uma necessidade de informação. No presente esses sistemas são apenas diletantes ao invés de especialistas – eles não têm uma verdadeira compreensão do mundo, eles são propensos a alucinar e, crucialmente, são incapazes de justificar suas declarações no que se refere a documentos de apoio do ‘corpus’ sobre o qual foram treinados. Este artigo examina como as ideias clássicas de recuperação de informações, bem como grandes modelos de linguagem pré-treinados, podem ser sintetizados e aprimorados, em sistemas que realmente cumprem a promessa de aconselhamento especializado.

Link para o trabalho na íntegra [em inglês].

Pros & Cons: o Novo Sistema de Classificação de Usuários do Google

Como já “discutimos” recentemente, e vamos continuar a fazê-lo, o todo-poderoso Google está para introduzir uma nova sistemática para distribuição de seus anúncios dirigidos. O sistema é chamado FLoC, sigla em inglês para Aprendizagem Federada sobre Coortes, e ele pretende substituir os notórios ‘cookies’ em nossos dispositivos. Essa sigla vai passar a fazer parte do cotidiano de todos na rede, portanto o aprendizado virá automaticamente com o tempo. O foco aqui é estimular a discussão dialética dos prós e contras entre os tecnologistas militantes e aspirantes. Assim, delineio abaixo alguns comentários sobre o assunto, tentando enquadrar as duas correntes.

Antes, algumas definições rápidas:

Cookies de site: são os cookies comuns, armazenados pelos sites em seu navegador. Eles podem ser usados para configurar preferências nos sites visitados, mas são rotineiramente abusados para rastreamento.

Cookies de terceiros: são como os cookies de site, mas usados unicamente para rastreamento. O cruzamento das informações que eles carregam revela quem você é e o que está fazendo (largamente alimentados por Smartphones).

FLoC: armazenado em seu dispositivo, rastreia a atividade no navegador e coloca o usuário em um determinado grupo, ou, digamos, um “balde”… Google alega que esse sistema é mais anônimo do que os cookies de terceiros, porque apenas o Google terá a informação sobre seu histórico. Mas mesmo assim, esses “baldes” ainda dizem tudo sobre você. Não há limite à informação que esses baldes podem conter e nem a como ela é usada. Além disso, o Google marca seu ID em todos os navegadores, de forma que é muito fácil converter esse “rastreamento anônimo” de volta à ‘persona’ identificável do usuário

O FLoC classifica os usuários em “coortes” [grupos] com base em seus interesses percebidos. A coorte, que reside em seu computador, é então passada ao site que você visita, para que ele possa segmentar anúncios para você, usando as informações que sua coorte dá a ele. Antes os sites faziam isso usando os chamados “cookies de terceiros.”

Na atribuição de coorte A, os usuários são classificados nas coortes 1 e 2 pelos sites que visitam. Na atribuição de coorte B, os usuários são classificados nas coortes 1 e 2 pelos gostos pessoais.

Basicamente, o problema para o Google é que os cookies de terceiros estão sendo mortos pelas políticas contemporâneas de privacidade dos navegadores e as tecnologias alternativas a eles dificultam o rastreamento adequado de todos. Então o Google é levado a construir o FLoC como uma alternativa fácil para contornar o bloqueio dos navegadores aos cookies de terceiros. Com o FLoC, um site qualquer não poderá usar cookies de terceiros para rastrear os usuários diretamente. Mas então, você não só ainda tem o rastreamento, mas também dá agora muito mais poder ao Google, que é o dono da tecnologia. Todos os seus gostos pessoais e comportamentos estão lá para para que eles façam com esses dados o que bem entenderem.

O Google afirma que esse esquema é melhor para a privacidade, porque todo o rastreamento que interessa é feito no navegador e mantido local [em seu computador]. O site só recebe um identificador geral de coorte, e como as coortes conterão milhares de usuários, elas serão de uso limitado para o rastreamento de indivíduos particulares.

Existem inúmeros problemas com essa tese. Para começar, a implementação é o que chamaríamos de “meia-boca”, com o sistema de atribuição de coorte não sendo suficientemente resistente à deanonimização. Um adversário poderia simular milhares de sessões de navegação e observar quais identificadores de coortes resultam delas. Adicionalmente, se um adversário controla vários sites populares, ele pode usá-los para forçar usuários a frequentar coortes selecionadas.

E há a questão dos temas “sensíveis”. O Google afirma que vai garantir que coortes sensíveis sejam bloqueadas. Portanto, não haverá nada relativo a religião, orientação sexual e semelhantes. Mais uma vez, o problema é que a listagem dos grupos sensíveis que eles vão ter é incompleta e, para piorar, baseada em tabus e problemas sociais ocidentais. De fato, é muito provável que coortes abusivas sejam criadas, colocando as minorias em perigo em regimes autoritários e ditaduras.

O FLoC também quebra o modo privado de navegação. Por padrão, o FLoC envia um valor nulo ao servidor do site quando não há dados suficientes para atribuir um usuário a uma coorte ou quando ele estiver no modo privado de navegação. Isso dá aos adversários uma maneira de detectar, por dedução, a navegação privada.

O Outro Lado

É tentador apenas dizer “sem cookies de terceiros e sem FLoC! Queremos a web privada!”. A realidade é que, se essa abordagem for algum dia adotada por navegadores, os custos seriam empurrados de volta para o usuário de alguma forma. O FLoC não é perfeito, mas é melhor que os cookies, e é, pelo menos, a ideia geral correta para uma solução que possa manter o atual sistema suportado por anúncios rolando, evitando os problemas de privacidade mais egrégios.

Se os usuários / navegadores / plataformas de conteúdo não puderem chegar a algum tipo de consenso com os anunciantes em termos do equilíbrio privacidade versus “anúncios dirigidos“, os anunciantes vão anunciar menos – o que vai prejudicar muitos sites usados por muitas pessoas – ou eles exigirão dos provedores de conteúdo que forneçam soluções de segmentação de anúncios com propriedades ainda piores: coisas como “Login com o Facebook para ver este conteúdo“. Adicionalmente, sites precisarão de mais anúncios (e anúncios mais intrusivos) para gerar o mesmo tanto de receita publicitária.

Epílogo

Pessoalmente, eu adoraria ver algum tipo de sistema de micro-pagamentos tomar o lugar da web suportada por anúncios – mas essa ideia parece ser fortemente rejeitada pela maioria dos usuários, julgando-se pela incrível quantidade de ítens “grátis” consumidos diariamente na rede. A não ser que haja uma mudança significativa no panorama, temo que certas pessoas e instituições vão, como sói acontecer, rejeitar uma solução imperfeita (FLoC) em favor de algo ainda não conhecido e muito pior.

FLoC: A Nova Experiência Controversa do Google

No dia 30 de março último, o Google lançou o “teste de origem” do Federated Learning of CohortsAprendizagem Federada sobre Grupos (que tem o acrônimo inglês FLoC), sua nova tecnologia experimental para segmentação de anúncios. Um comando foi dado em Mountain View, California, e um switch foi silenciosamente acionado em milhões de instâncias do Google Chrome mundo afora: esses navegadores começarão agora a classificar seus usuários em grupos (Cohorts) com base em seu comportamento pessoal, compartilhando os rótulos desses grupos com rastreadores e terceiros anunciantes. Um conjunto aleatório de usuários foi selecionado para o teste, e a eles só foi dada a opção de desativar os cookies de terceiros no navegador.

Embora o Google tivesse anunciado previamente que isso iria acontecer, a empresa até agora foi esparsa em detalhes sobre o teste. Nós bisbilhotamos posts de blogs, listas de discussão, projeto de padrões da Web e o código-fonte do Chromium para tentar descobrir exatamente o que está acontecendo.

A EFF (Electronic Frontier Foundation) já escreveu que o FLoC é uma ideia terrível. O lançamento desse teste pelo Google – sem aviso prévio aos indivíduos que farão parte, muito menos seu consentimento – é uma violação concreta da confiança do usuário, e para completar, a serviço de uma tecnologia que não deveria sequer existir.

Abaixo descrevemos como esse teste funcionará e alguns dos detalhes técnicos mais importantes que soubemos até agora.

Começamos com a decepcionante observação de que o FLoC deveria originalmente substituir os cookies. No teste, ele os complementará.

O Google projetou o FLoC para ajudar os anunciantes a dirigir ao alvo seus anúncios quando os cookies de terceiros desaparecerem no futuro. Contudo, durante este teste, os rastreadores continuarão capazes de coletar, além dos IDs dos FLoCs, os cookies de terceiros.

Isso significa que todos os rastreadores que atualmente já monitoram o comportamento do caro leitor em uma parte da Web usando os cookies, agora vão receber adicionalmete seu IDentificador de grupo gerado pelo FLoC. O ID de grupo é um reflexo direto do seu comportamento em toda a Web. Ele pode complementar os perfis comportamentais dos usuários, o que muitos rastreadores já mantêm.

Foi divulgado que o teste foi originalmente distribuído para 0,5% dos usuários do Chrome em algumas regiões – por enquanto, isso significa a Austrália, Brasil, Canadá, Índia, Indonésia, Japão, México, Nova Zelândia, Filipinas e os EUA. Os usuários nessas regiões serão escolhidos de maneira completamente aleatória, independentemente das configurações de anúncio e privacidade do navegador. Somente usuários que desativaram cookies de terceiros no Chrome serão excluídos.

Além disso, a equipe por trás do FLoC solicitou que o Google aumente a amostra de 0,5 para 5% dos usuários, para que as empresas de tecnologia possam treinar melhor os modelos de Machine Learning usando os novos dados. Se essa solicitação for acatada, dezenas ou centenas de milhões de usuários adicionais serão incluidos no teste. Os usuários foram inscritos no teste automaticamente. Ainda não há como optar por não participar.

Versões futuras do Chrome adicionarão controles dedicados para isto que o Google chama de “Sandbox de Privacidade”, que inclui o FLoC. Mas não é claro quando essas configurações serão lançadas. Assim, por ora os usuários que desejam desligar o FLoC só podem fazê-lo desativando os cookies de terceiros.

Desligar os cookies de terceiros não é uma má ideia em geral. Afinal, esses cookies estão no centro dos problemas de privacidade que o Google diz que quer resolver. Mas desligá-los completamente é uma contramedida bruta, que quebra muitas conveniências (como logon único) nas quais os usuários da Web confiam. Usuários do Chrome conscientes sobre privacidade geralmente empregam ferramentas mais direcionadas, incluindo extensões, como o Privacy Badger, para evitar o rastreamento baseado em cookies. Infelizmente, as extensões do Chrome ainda não são capazes de controlar se um usuário expõe um ID de FLoC. Os sites também não estão sendo solicitados a optar.

O FLoC computa um rótulo de grupo com base no histórico de navegação. Para o teste, o Google vai usar os sites que servem anúncios – isto é, a maioria dos sites na web. Os sites podem optar por ser incluídos em computações de FLoC enviando um cabeçalho HTTP, mas alguns provedores de hospedagem não fornecem aos clientes controle direto sobre os cabeçalhos de seus sites. Muitos proprietários de sites provavelmente não estão cientes do teste.

Isso é um problema porque significa que os sites perdem controle sobre como os dados dos visitantes serão processados. Na prática atual, um administrador de site tem que tomar uma decisão deliberada de incluir o código de um anunciante em sua página. Os sites geralmente podem, pelo menos em teoria, optar por fazer parceria com anunciantes para gerar receita, limitados pelas suas políticas de privacidade. Contudo, agora, informações sobre a visita de um usuário a um site serão embrulhadas em seu ID do FLoC, que será amplamente disponíbilizado pela web (mais sobre isso na próxima seção). Mesmo que um site tenha uma forte política de privacidade e relacionamentos com anunciantes responsáveis, uma visita pode afetar como os rastreadores o vêem em outros contextos. O ID do FLoC de cada usuário – o rótulo que reflete seu histórico de navegação da semana passada – estará disponível para qualquer site ou rastreador que o quiser.

Qualquer um pode se inscrever nesse teste de origem do Chrome. Depois de cadastrado, pode-se acessar os IDs dos FLoCs dos usuários que foram escolhidos para o teste. Isso inclui o vasto ecossistema de anunciantes sem nome ao qual seu navegador se conecta sempre que você visita a maioria dos sites. Se você faz parte do teste, dezenas de empresas podem obter o ID de FLoC de cada site que você visita. Haverá mais de 33.000 grupos possíveis.

Uma das porções mais importantes da especificação do FLoC que ficou indefinida é exatamente quantos grupos existem. O Google fez um experimento preliminar empregando IDs de grupo de 8 bits, o que significa que havia apenas 256 grupos possíveis. Isso limitava a quantidade de rastreadores que poderiam saber o ID de grupo de um determinado usuário.

No entanto, um exame mais recente do Chrome revela que a versão ao vivo do FLoC usa identificadores de grupos de 50 bits. Os grupos são então juntados em lotes de 33.872 grupos, 100 vezes mais do que no primeiro experimento do Google. O Google disse que isso vai garantir que “milhares de pessoas sejam juntadas em cada grupo, de forma a que ninguém possa ser identificado individualmente”. Mas os IDs de grupo ainda vão expor muitas informações – cerca de 15 bits – e vão dar um grande peso a ítens biométricos, como impressões digitais.

O Google prometeu adotar salvaguardas para que os grupos não estejam muito correlacionados com “categorias sensíveis” como raça, sexualidade ou condições médicas. Para monitorar isso, o Google planeja coletar dados sobre quais sites são visitados por usuários em cada grupo. O teste provavelmente durará até julho. O Google liberou um whitepaper descrevendo como será sua abordagem.

Fico feliz em ver uma proposta específica, mas o Whitepaper dá um jeito de contornar os problemas mais prementes. A questão que o Google devia perguntar é: “Podemos, eticamente, segmentar grupos vulneráveis?”; O white paper reduz isso para “Podemos segmentar as pessoas que visitaram um site específico?”. Esta é uma simplicação perigosa. Em vez de trabalhar no problema difícil, o Google escolheu se concentrar em uma versão mais fácil que acredita poder resolver. Enquanto isso, não está conseguindo endereçar os graves potenciais problemas do FLoC.

Durante o teste, qualquer usuário que tenha ativado “Chrome Sync” (deixando o Google coletar seu histórico de navegação), e que não tenha desabilitado nenhuma das várias configurações de compartilhamento padrão, compartilhará o ID de grupo ligado ao seu histórico de navegação..

Na tentativa de mitigar essa potencial intrusão, o Google irá então verificar se cada usuário visitou quaisquer sites que considere parte de uma “categoria sensível”. Por exemplo, o WebMD poderá ser rotulado na categoria “Médica”, ou o Pornhub na categoria “Adulto” (ambas sensíveis). Se muitos usuários em um grupo visitaram um tipo específico de site “sensível”, o Google obfuscará esse grupo. Quaisquer usuários que fizerem parte de grupos “sensíveis” serão colocados em um grupo “vazio” (na tentativa “proteger” esses usuários por obfuscação). É claro que os rastreadores ainda poderão ver que os referidos usuários fazem parte do grupo “vazio”, ​​revelando que, logo, eles eram originalmente classificados como do grupo “sensível”.

Para o teste de origem, o Google está recorrendo ao seu enorme tesouro personalizado de dados de navegação. No futuro, o Google planeja usar outra tecnologia (não especificada) de preservação de privacidade para fazer a mesma coisa sem acessar o histórico de navegação dos indivíduos.

Independentemente de como o Google faz isso, esse plano não resolverá os maiores problemas com FLoC: discriminação e segmentação predatória. A proposta repousa sobre a suposição de que as pessoas em “categorias sensíveis” visitarão sites específicos “sensíveis”, e que as pessoas que não estão nesses grupos não visitarão esses sites. Mas o comportamento humano se correlaciona com a demografia de maneira não intuitiva. É altamente provável que certas demografias visitem um subconjunto diferente da web do que outras demografias, e que tal comportamento não seja capturado pelo simples enquadramento de “sites sensíveis” do Google. Por exemplo, pessoas com depressão podem exibir comportamentos de navegação semelhantes, mas não necessariamente algo explícito e direto, como, por exemplo, visitar o site “depression.org”. Enquanto isso, as empresas de rastreamento são bem equipadas para reunir o tráfego de milhões de usuários, vinculá-lo a dados sobre demografia ou comportamento e decodificar quais grupos estão ligados a quais traços sensíveis. O sistema do Google, conforme proposto, não tem como parar isso.

O Google poderia fazer a escolha de desmantelar os antigos andaimes da vigilância sem substituí-los por algo novo e unicamente prejudicial. O Google não conseguiu abordar de verdade os possíveis danos do FLoC, ou mesmo nos convencer de que esses danos podem ser abordados. Em vez disso, ele está levando a cabo um teste que compartilhará novos dados sobre milhões de usuários desavisados. Este é outro passo na direção errada.

Fonte: Electronic Frontier FoundationLicença Creative Commons

Reações Mistas à ‘Nova’ Música do Nirvana

Se estivesse vivo, o vocalista do Nirvana Kurt Cobain teria de 52 anos de idade. Todos os anos, nas proximidades de seu aniversário, 20 de fevereiro, os fãs se perguntam que tipo de música ele estaria escrevendo se não tivesse morrido de suicídio há quase 30 anos. Nunca poderemos saber a resposta para essa pergunta, mas um experimento em Aprendizagem de Máquna está tentando preencher a lacuna.

Uma organização dedicada à saúde mental chamada Over The Bridge usou a “AI” Magenta do Google e uma rede neural genérica para examinar mais de duas dúzias de músicas do Nirvana, com o objetivo de criar uma faixa ‘nova’ da banda. O resultado, a faixa “Drowned in The Sun”, abre com um ‘plucking’ encharcado de reverb antes de se transformar em um ataque de ‘power-chords’ distorcidos. “I don’t care/I feel as one, drowned in the sun”, canta no refrão Eric Hogan, cantor de uma banda-tributo do Nirvana envolvida no projeto. Na execução ela não parece tão diferente de “You Know You’re Right”, uma das últimas músicas que o Nirvana registrou antes da morte de Cobain em 1994.

A voz de Hogan é o único elemento “real” na produção. Todo o resto foi gerado pelos dois programas de “AI” que a Over The Bridge usou. A organização do projeto primeiro alimentou o Magenta com as canções da banda em arquivos MIDI, para que o software pudesse aprender as notas e harmonias específicas que tornaram essas músicas tão memoráveis. Um fato engraçado é que o estilo solto e furioso de Cobain dificultou o trabalho da AI, fazendo com que o sistema inicialmente emitisse uma parede de distorção, em vez de algo realmente parecido com a assinatura de suas melodias. “Foi muita tentativa e erro para chegar ao resultado satisfatório”, diz o membro da Over The Bridge, Sean O’Connor. Uma vez obtidas as amostras musicais e líricas, a equipe criativa escolheu os melhores bits para finalizar o processo de produção. A maior parte da instrumentação que você ouve no resultado final são faixas MIDI com diferentes ajustes e efeitos em camadas sobrepostas.

Uma coisa que a AI não conseguiu captar é como exatamente Cobain teria cantado a música. Fora do tempo e do tom, Hogan teve que interpretar a música imaginando como o astro do grunge (que entre muitas dores sofria de dor de estômago crônica) teria canalizado sua angústia nas letras.

Over The Bridge não é o primeiro grupo a usar AI para imitar um artista morto. Mas a intenção aqui é diferente de projetos passados ​​semelhantes. “Drowned in the Sun” é parte da iniciativa “Fitas Perdidas do Clube dos 27“. Eles decidiram registrar músicas geradas por “AI”, simulando o trabalho dos artistas que morreram com a idade de 27 anos, para aumentar a conscientização sobre os recursos de saúde mental aos quais músicos e público geral podem recorrer quando sentirem que precisam de ajuda.

As reações foram mistas, variando de “A música tem um refrão de hino, e tem uma evocativa qualidade Cobain-esca…” até “uma perfeita ilustração da injustiça de se desenvolver Inteligência Artificial através da ingestão de trabalhos culturais sem a autorização de seu criador, e de como isso força criadores a serem escravos na produção de um futuro fora de seu controle”. Eu, pessoalmente, reservo minha opinião.

A organização sem fins lucrativos baseada em Toronto tem uma página no Facebook onde oferece suporte. Também oferece sessões online e workshops. Em https://www.facebook.com/OTBnonprofit

(*) Se você está experimentando pensamentos de suicídio ou auto-agressão, peça ajuda ao Centro de Valorização da Vida, CVV, no fone 188