Google Reloaded: Transformando Sistemas Diletantes em Especialistas

A emergência do Google em 1998 foi devida ao algoritmo PageRank, uma inovação assombrosa na época. Ele classificava a relevância dos resultados da pesquisa com base em seus links para outras páginas na web. Em cima do PageRank, o Google se tornou a porta de entrada para a internet, e Sergey Brin e Larry Page construíram uma das maiores empresas do mundo.

Agora, uma equipe de pesquisadores do Google publicou no site ArXiv, no último dia 5 de maio, uma proposta para um redesenho radical do sistema, que descarta a abordagem de classificação e a substitui por um único grande modelo de linguagem de Aprendizagem de Máquina, como o BERT ou GPT-3 – ou uma versão futura deles. A ideia é que, ao invés de buscar informações em uma vasta lista de páginas da web, os usuários façam perguntas e tenham um modelo de linguagem treinado que possa respondê-las diretamente. A abordagem pode mudar não apenas a forma como os mecanismos de pesquisa funcionam, mas o que eles fazem e como interagimos com eles.

* * *

Repensando a Busca: Transformando Diletantes em Especialistas

Resumo

Quando precisam de informação, os usuários da Internet desejam [na realidade] se envolver com um especialista, mas tudo o que podem fazer é recorrer a um sistema de recuperação de informações, como um mecanismo de busca. Os sistemas clássicos de recuperação de informação não respondem diretamente às necessidades de informação, mas fornecem referências para respostas (que os usuários tomam como fontes autoritativas). Mesmo os sistemas de resposta a perguntas mais bem-sucedidos oferecem um ‘corpus’ limitado, que não é nem oportuno nem escalonável, criado sob demanda por especialistas humanos.

Grandes modelos de linguagem pré-treinados [como os sistemas de Apredizagem de Máquina do Google], por outro lado, são capazes de gerar diretamente uma prosa que pode responder a uma necessidade de informação. No presente esses sistemas são apenas diletantes ao invés de especialistas – eles não têm uma verdadeira compreensão do mundo, eles são propensos a alucinar e, crucialmente, são incapazes de justificar suas declarações no que se refere a documentos de apoio do ‘corpus’ sobre o qual foram treinados. Este artigo examina como as ideias clássicas de recuperação de informações, bem como grandes modelos de linguagem pré-treinados, podem ser sintetizados e aprimorados, em sistemas que realmente cumprem a promessa de aconselhamento especializado.

Link para o trabalho na íntegra [em inglês].

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s