O Futuro da AI é Luminoso (e analógico)

Para concluir a Rápida Introdução à ‘Inteligência Artificial’, publico o post complementar, para apresentar o inovador chip ótico [ainda sem nome comercial] da start-up Lightmatter, contendo o chamado interferômetro Mach-Zehnderque, que promete elevar a computação de sistemas de aprendizagem de máquinas a um novo patamar.

Imagem: iStock

O aprendizado de máquina profundo, ou seja, redes neurais artificiais com muitas camadas ocultas, sempre nos fascina com soluções inovadoras para problemas do mundo real, cada vez em mais áreas, incluindo processamento de linguagem natural, detecção de fraude, reconhecimento de imagem e direção autônoma. As redes neurais ficam melhores a cada dia.

Mas esses avanços têm um preço enorme nos recursos de computação e no consumo de energia. Portanto, não é de se admirar que engenheiros e cientistas da computação estejam fazendo grandes esforços para descobrir maneiras de treinar e operar redes neurais profundas com mais eficiência.

Uma nova e ambiciosa estratégia que está fazendo o ‘début’ este ano é executar a computação de redes neurais usando fótons em vez de elétrons. A Lightmatter começará a comercializar no final deste ano seu chip acelerador de rede neural que calcula com luz. Será um refinamento do protótipo do chip Mars que a empresa exibiu em agosto passado.

O protótipo MARS, instalado em uma placa

Embora o desenvolvimento de um acelerador ótico comercial para aprendizado profundo seja uma conquista notável, a ideia geral de ‘computação com luz’ não é nova. Os engenheiros empregavam regularmente essa tática nas décadas de 1960 e 1970, quando os computadores digitais eletrônicos ainda não tinham capacidade para realizar cálculos complexos. Assim, os dados eram processados no domínio analógico, usando luz.

Em virtude dos ganhos da Lei de Moore na eletrônica digital, a computação óptica nunca realmente pegou, apesar da ascensão da luz [fibras óticas] como veículo para comunicação de dados. Mas tudo isso pode estar prestes a mudar: a Lei de Moore, que durante décadas proporcionou aumentos exponenciais na capacidade dos chips eletrônicos, mostra sinais de estar chegando ao fim, ao mesmo tempo em que as demandas da computação de aprendizado profundo estão explodindo.

Não há muitas escolhas para lidar com esse problema. Pesquisadores de aprendizagem profunda podem até desenvolver algoritmos mais eficientes, mas é difícil prever se esses ganhos serão suficientes. Essa é a razão da Lightmatter estar empenhada em “desenvolver uma nova tecnologia de computação que não dependa do transistor”.

Fundamentos

O componente fundamental no chip Lightmatter é um interferômetro Mach-Zehnder. Esse dispositivo ótico foi inventado em conjunto por Ludwig Mach e Ludwig Zehnder na década de 1890. Mas só recentemente esses dispositivos óticos foram miniaturizados a ponto de um grande número deles poder ser integrado em um chip e usado para realizar as multiplicações de matrizes envolvidas nos cálculos de rede neural.

O interferômetro Mach-Zehnder é um dispositivo usado para determinar as variações relativas de deslocamento de fase entre dois feixes colimados derivados da divisão da luz de uma única fonte. É um dispositivo particularmente simples para demonstrar interferência por divisão de amplitude. Um feixe de luz é primeiro dividido em duas partes por um divisor de feixe e, em seguida, recombinado por um segundo divisor de feixe. Dependendo da fase relativa adquirida pelo feixe ao longo dos dois caminhos, o segundo divisor de feixe refletirá o feixe com eficiência entre 0 e 100%. – Gráfico: Vox Leone – Uso Permitido

Esses feitos só se tornaram possíveis nos últimos anos devido ao amadurecimento do ecossistema de manufatura de fotônica integrada, necessário para fazer chips fotônicos para comunicações.

O processamento de sinais analógicos transportados pela luz reduz os custos de energia e aumenta a velocidade dos cálculos, mas a precisão pode não corresponder ao que é possível no domínio digital. O sistema é 8-bits-equivalente. Isso por enquanto mantém o chip restrito a cálculos de inferência de rede neural – aqueles que são realizados depois que a rede foi treinada.

Os desenvolvedores do sistema esperam que sua tecnologia possa um dia ser aplicada também ao treinamento de redes neurais. O treinamento exige mais precisão do que o processador ótico pode fornecer nesta etapa.

A Lightmatter não está sozinha em busca da luz para cálculos de redes neurais. Outras startups que trabalham nesta linha são Fathom Computing, LightIntelligence, LightOn, Luminous e Optalysis.

A Luminous espera desenvolver sistemas práticos em algum momento entre 2022 e 2025. Portanto, ainda teremos que esperar alguns anos para ver como essa abordagem vai evoluir. Mas muitos estão entusiasmados com as perspectivas, incluindo Bill Gates, um dos maiores investidores da empresa.

Uma coisa é clara: os recursos de computação dedicados aos sistemas de inteligência artificial não podem continuar a crescer sustentavelmente na taxa atual, dobrando a cada três ou quatro meses. Os engenheiros estão ansiosos para utilizar a fotônica integrada para enfrentar esse desafio de construir uma nova classe de máquinas de computação drasticamente diferentes daquelas baseadas nos chips eletrônicos convencionais, que agora se tornam viáveis para fabricação. São dispositivos que no passado recente só podiam ser imaginados.

Uma (muito) Rápida Introdução à ‘Inteligência Artificial’

O poder de computação ao alcance das pessoas começou a crescer rapidamente, aos trancos e barrancos, na virada do milênio, quando as unidades de processamento gráfico (GPUs) começaram a ser aproveitadas para cálculos não gráficos, uma tendência que se tornou cada vez mais difundida na última década. Mas as demandas da computação de “Aprendizado Profundo” [Deep Learning] têm aumentado ainda mais rápido. Essa dinâmica estimulou os engenheiros a desenvolver aceleradores de hardware voltados especificamente para o aprendizado profundo [o que se conhece popularmente como ‘Inteligência Artificial’], sendo a Unidade de Processamento de Tensor (TPU) do Google um excelente exemplo.

Ainda não temos uma Teoria da Mente, que possa nos dar uma base para a construção de uma verdadeira inteligência senciente. Aqui a distinção entre as disciplinas que formam o campo da Inteligência Artificial

Aqui, descreverei resumidamente o processo geral do aprendizado de máquina, introduzindo uma abordagem muito diferente para este problema – o uso de processadores óticos para realizar a computação de uma rede neural com fótons em vez de elétrons, que será objeto do próximo post. Para entender como a ótica pode impulsionar este campo, precisamos saber um pouco sobre como os computadores executam cálculos de redes neurais.

Visão geral

Quase invariavelmente, os neurônios artificiais são ‘construídos’ [na verdade eles são virtuais] usando um software especial executado em algum tipo de computador eletrônico digital.

Esse software fornece a um determinado neurônio da rede várias entradas e uma saída. O estado de cada neurônio depende da soma ponderada de suas entradas, à qual uma função não linear, chamada função de ativação, é aplicada. O resultado, a saída desse neurônio, torna-se então uma entrada para vários outros neurônios, em um processo em cascata.

As camadas de neurônios interagem entre si. Cada círculo representa um neurônio, em uma visão muito esquemática. À esquerda (em amarelo) a camada de entrada. Ao centro, em azul e verde, as camadas ocultas, que refinam os dados, aplicando pesos variados a cada neurônio. À direita, em vermelho, a camada de saída, com o resultado final.

Por questões de eficiência computacional, esses neurônios são agrupados em camadas, com neurônios conectados apenas a neurônios em camadas adjacentes. A vantagem de organizar as coisas dessa maneira, ao invés de permitir conexões entre quaisquer dois neurônios, é que isso permite que certos truques matemáticos de álgebra linear sejam usados ​​para acelerar os cálculos.

Embora os cálculos de álgebra linear não sejam toda a história, eles são a parte mais exigente do aprendizado profundo em termos de computação, principalmente à medida que o tamanho das redes aumenta. Isso é verdadeiro para ambas as fases do aprendizado de máquina:

  • O treinamento – processo de determinar quais pesos aplicar às entradas de cada neurônio.
  • A inferência – processo deflagrado quando a rede neural está fornecendo os resultados desejados.
Concepção do processo de treinamento de máquina, dos dados brutos, à esquerda, ao modelo completo.

Matrizes

O que são esses misteriosos cálculos de álgebra linear? Na verdade eles não são tão complicados. Eles envolvem operações com matrizes, que são apenas arranjos retangulares de números – planilhas, se preferir, menos os cabeçalhos de coluna descritivos que você encontra em um arquivo Excel típico.

É bom que as coisas sejam assim, porque o hardware de um computador moderno é otimizado exatamente para operações com matriz, que sempre foram o pão com manteiga da computação de alto desempenho – muito antes de o aprendizado de máquina se tornar popular. Os cálculos matriciais relevantes para o aprendizado profundo se resumem essencialmente a um grande número de operações de multiplicação e acumulação, em que pares de números são multiplicados entre si e seus produtos somados.

Ao longo dos anos, o aprendizado profundo foi exigindo um número cada vez maior dessas operações de multiplicação e acumulação. Considere LeNet, uma rede neural pioneira, projetada para fazer classificação de imagens. Em 1998, demonstrou superar o desempenho de outras técnicas de máquina para reconhecer letras e numerais manuscritos. Mas em 2012 o AlexNet, uma rede neural que processava cerca de 1.600 vezes mais operações de multiplicação e acumulação do que o LeNet, foi capaz de reconhecer milhares de diferentes tipos de objetos em imagens.

Gráfico tridimensional ilustrando o processo de inferência, partindo de dados brutos dispersos (embaixo à direita) até o refinamento final (após muitas iterações de inferência), onde o resultado (ou predição) é obtido.

Aliviar a pegada de CO2

Avançar do sucesso inicial do LeNet para o AlexNet exigiu quase 11 duplicações do desempenho de computação. Durante os 14 anos que se passaram, a lei de Moore ditava grande parte desse aumento. O desafio tem sido manter essa tendência agora que a lei de Moore dá sinais de que está perdendo força. A solução de sempre é simplesmente injetar mais recursos – tempo, dinheiro e energia – no problema.

Como resultado, o treinamento das grandes redes neurais tem deixado uma pegada ambiental significativa. Um estudo de 2019 descobriu, por exemplo, que o treinamento de um determinado tipo de rede neural profunda para o processamento de linguagem natural emite cinco vezes mais CO2 do que um automóvel durante toda a sua vida útil.

Os aprimoramentos nos computadores eletrônicos digitais com certeza permitiram que o aprendizado profundo florescesse. Mas isso não significa que a única maneira de realizar cálculos de redes neurais seja necessariamente através dessas máquinas. Décadas atrás, quando os computadores digitais ainda eram relativamente primitivos, os engenheiros lidavam com cálculos difíceis como esses usando computadores analógicos.

À medida que a eletrônica digital evoluiu, esses computadores analógicos foram sendo deixados de lado. Mas pode ser hora de seguir essa estratégia mais uma vez, em particular nestes tempos em que cálculos analógicos podem ser feitos oticamente de forma natural.

No próximo post vou trazer o mais recente desenvolvimento em fotônica aplicada ao aprendizado de máquina – em uma arquitetura analógica! Estamos, sem dúvida, vivendo tempos interessantes neste campo promissor.

Fonte de pesquisa: spectrum.ieee.org

Algo Prático: Um Provador Virtual para o Varejo de Confecções

Hoje vou me despir [trocadilho intencional] da pretensão intelectual- acadêmica para enfocar um assunto prático sobre desenvolvimento de sistemas.

Eu tenho grande interesse no mercado de confecções e moda, em geral. Talvez pelo fato de ter uma clientela no setor, além de amigos e familiares envolvidos no negócio. Nosso estúdio de software já teve a oportunidade de criar inovações importantes para nossos clientes do setor de confecções, sempre com foco na interação e responsividade. Por essa razão, achei que seria interessante falar neste post sobre o sistema Revery AI. Queremos nos colocar como fornecedores dessa classe de tecnologia para o mercado brasileiro, empregando nossa expertise em manipulação de imagens, sistemas de aprendizado de máquina (AI) e soluções 3D.

Imagem: iStock

O aumento repentino das compras online por conta da pandemia de Covid-19 impôs desafios significativos aos varejistas de confecções. A incapacidade física de experimentar e visualizar as roupas tornou as compras menos interativas, contribuindo para baixas taxas de conversão e altas taxas de devolução, em comparação com as compras tradicionais. Os provadores virtuais como o que discutimos aqui tornam-se alternativas viáveis, nestes tempos infecciosos, para recriar, em certa medida, a experiência perdida de provar roupas pessoalmente. Existem muitas empresas desenvolvendo um provador virtual [inclusive a nossa]. O grande problema para sua implementação é a escalabilidade.

Os sites de comércio eletrônico de confecções têm milhares, senão milhões de items em estoque – que chamaremos de Unidade(s) de Manutenção de Estoque (UME). Atualmente, o fluxo de trabalho para edição de conteúdo dos sites que vendem para esse segmento geralmente requer trabalho gráfico personalizado em software como o Photoshop e/ou software modelador em 3D, que são caros e requerem mão-de-obra especializada. Em contraste, o Revery AI aproveita a pesquisa de aprendizado de máquina [Machine Learning] para automatizar todo esse processo, resultando no primeiro provador virtual escalável que pode ser facilmente integrado a qualquer grande plataforma de e-commerce com milhões de UMEs.

Aprendizado de Máquina

Em vez de uma produção gráfica elaborada, em 3D, o sistema trabalha com imagens básicas. O objetivo é produzir visualizações precisas e realistas de roupas vestindo pessoas. Uma solução comum [e ingênua] para atualizar o conteúdo do site com novos items seria simplesmente copiar e colar a peça no modelo. Mas isso apresenta dois problemas.

1) Se as poses e maneirismos do modelo-roupa forem incompatíveis, o copiar-colar não funcionará.

2) Mesmo com poses ideais, copiar e colar não leva em consideração as interações peça-peça, peça-peça-modelo e também ignora a iluminação, as sombras, etc.

Este sistema usa o aprendizado de máquina profundo [deep learning] para superar esses problemas. Para o problema 1), o Revery AI usa uma série de distorções, para deformar a imagem da roupa em uma forma aproximada à do corpo fazendo a pose apropriada. Isso difere das abordagens comuns de baixa tecnologia, que normalmente usam apenas uma única e limitada deformação/transformação de imagem.

Para o problema 2), o sistema se baseia em um gerador de imagem que recebe as entradas relevantes (a imagem do modelo, imagem da roupa, pose, etc.) e retorna uma imagem realista de uma figura humana vestindo a roupa. O sistema produz melhorias significativas no tamanho, ajuste e caimento, em comparação com as técnicas costumeiras de baixa tecnologia, permitindo criar imagens realistas de qualquer modelo usando qualquer combinação de roupas. Para os interessados em detalhes técnicos adicionais, este link leva ao artigo original da pesquisa no site de pré-impressões Arxiv >> https://arxiv.org/abs/2003.10817

Tela do Revery AI. O usuário seleciona a peça à direita e o software a renderiza no modelo virtual à esquerda. Note que o software faz os ajustes e transformações na peça para se adaptar realisticamente ao modelo. A peça foi fotografada normalmente em superfície plana.

A abordagem de exibição de produtos e venda online adotada pelo Revery AI torna a integração com os varejistas muito mais fácil, porque requer apenas uma única imagem da peça de roupa em um fundo de cor uniforme. Todo o resto é integrado e resolvido pelo software. A equipe do Revery processa em torno de um milhão de imagens por semana. Em seguida, trabalha com o varejista para criar um ‘widget’ que possa ser facilmente integrado ao site da loja. A simplicidade desta solução significa que os clientes podem ter um provador virtual montado em poucos dias.

O sistema já se integra com sucesso a vários varejistas de alto perfil no e-commerce de moda. Pesquisas com os clientes mostram que o provador virtual melhorou o engajamento médio dos usuários em 500% e, mais importante, proporcionou um aumento na taxa de conversão da venda também de 500%. Além disso, os resultados mostram aumentos no valor médio dos pedidos e diminuições nas taxas de devolução. Essa solução também atende vários casos de uso que vão além do provador virtual. Como a geração e manipulação de imagens está no centro do negócio, os clientes também têm interesse em usar o sistema para gerar imagens de sessões de fotos “in store”, para economizar nas despesas com os vários tipos de serviços fotográficos que utilizam.

Embora a experimentação virtual baseada em imagens seja um campo de pesquisa ativo na academia, a transição da pesquisa para o produto não é trivial. Gerar imagens realistas e precisas de pessoas e roupas em alta fidelidade é mais difícil do que parece. Quaisquer imprecisões são simplesmente inaceitáveis ​​para os clientes. A start-up demorou um ano para obter resultados satisfatórios.

Neste ponto, percebemos que esse exercício aparentemente acadêmico pode realmente ser uma ferramenta que usuários reais desejam usar. É uma grande inovação, capaz de trazer movimento para esse mercado tão significativo para a economia brasileira, especialmente neste momento de crescimento das compras online.

Nosso estúdio [Vox Leone] se mantém sempre atualizado sobre essa linha de pesquisa, que acompanhamos de perto há quase duas décadas. Se você quiser saber mais sobre o sistema, ou experimentar a tecnologia em seu site ou plataforma, entre em contato. Esta é uma das nossas linhas de trabalho favoritas.

Uma demonstração ao vivo pode ser vista e experimentada [em inglês] neste link: https://revery.ai/demo.html

Google Reloaded: Transformando Sistemas Diletantes em Especialistas

A emergência do Google em 1998 foi devida ao algoritmo PageRank, uma inovação assombrosa na época. Ele classificava a relevância dos resultados da pesquisa com base em seus links para outras páginas na web. Em cima do PageRank, o Google se tornou a porta de entrada para a internet, e Sergey Brin e Larry Page construíram uma das maiores empresas do mundo.

Agora, uma equipe de pesquisadores do Google publicou no site ArXiv, no último dia 5 de maio, uma proposta para um redesenho radical do sistema, que descarta a abordagem de classificação e a substitui por um único grande modelo de linguagem de Aprendizagem de Máquina, como o BERT ou GPT-3 – ou uma versão futura deles. A ideia é que, ao invés de buscar informações em uma vasta lista de páginas da web, os usuários façam perguntas e tenham um modelo de linguagem treinado que possa respondê-las diretamente. A abordagem pode mudar não apenas a forma como os mecanismos de pesquisa funcionam, mas o que eles fazem e como interagimos com eles.

* * *

Repensando a Busca: Transformando Diletantes em Especialistas

Resumo

Quando precisam de informação, os usuários da Internet desejam [na realidade] se envolver com um especialista, mas tudo o que podem fazer é recorrer a um sistema de recuperação de informações, como um mecanismo de busca. Os sistemas clássicos de recuperação de informação não respondem diretamente às necessidades de informação, mas fornecem referências para respostas (que os usuários tomam como fontes autoritativas). Mesmo os sistemas de resposta a perguntas mais bem-sucedidos oferecem um ‘corpus’ limitado, que não é nem oportuno nem escalonável, criado sob demanda por especialistas humanos.

Grandes modelos de linguagem pré-treinados [como os sistemas de Apredizagem de Máquina do Google], por outro lado, são capazes de gerar diretamente uma prosa que pode responder a uma necessidade de informação. No presente esses sistemas são apenas diletantes ao invés de especialistas – eles não têm uma verdadeira compreensão do mundo, eles são propensos a alucinar e, crucialmente, são incapazes de justificar suas declarações no que se refere a documentos de apoio do ‘corpus’ sobre o qual foram treinados. Este artigo examina como as ideias clássicas de recuperação de informações, bem como grandes modelos de linguagem pré-treinados, podem ser sintetizados e aprimorados, em sistemas que realmente cumprem a promessa de aconselhamento especializado.

Link para o trabalho na íntegra [em inglês].

Reações Mistas à ‘Nova’ Música do Nirvana

Se estivesse vivo, o vocalista do Nirvana Kurt Cobain teria de 52 anos de idade. Todos os anos, nas proximidades de seu aniversário, 20 de fevereiro, os fãs se perguntam que tipo de música ele estaria escrevendo se não tivesse morrido de suicídio há quase 30 anos. Nunca poderemos saber a resposta para essa pergunta, mas um experimento em Aprendizagem de Máquna está tentando preencher a lacuna.

Uma organização dedicada à saúde mental chamada Over The Bridge usou a “AI” Magenta do Google e uma rede neural genérica para examinar mais de duas dúzias de músicas do Nirvana, com o objetivo de criar uma faixa ‘nova’ da banda. O resultado, a faixa “Drowned in The Sun”, abre com um ‘plucking’ encharcado de reverb antes de se transformar em um ataque de ‘power-chords’ distorcidos. “I don’t care/I feel as one, drowned in the sun”, canta no refrão Eric Hogan, cantor de uma banda-tributo do Nirvana envolvida no projeto. Na execução ela não parece tão diferente de “You Know You’re Right”, uma das últimas músicas que o Nirvana registrou antes da morte de Cobain em 1994.

A voz de Hogan é o único elemento “real” na produção. Todo o resto foi gerado pelos dois programas de “AI” que a Over The Bridge usou. A organização do projeto primeiro alimentou o Magenta com as canções da banda em arquivos MIDI, para que o software pudesse aprender as notas e harmonias específicas que tornaram essas músicas tão memoráveis. Um fato engraçado é que o estilo solto e furioso de Cobain dificultou o trabalho da AI, fazendo com que o sistema inicialmente emitisse uma parede de distorção, em vez de algo realmente parecido com a assinatura de suas melodias. “Foi muita tentativa e erro para chegar ao resultado satisfatório”, diz o membro da Over The Bridge, Sean O’Connor. Uma vez obtidas as amostras musicais e líricas, a equipe criativa escolheu os melhores bits para finalizar o processo de produção. A maior parte da instrumentação que você ouve no resultado final são faixas MIDI com diferentes ajustes e efeitos em camadas sobrepostas.

Uma coisa que a AI não conseguiu captar é como exatamente Cobain teria cantado a música. Fora do tempo e do tom, Hogan teve que interpretar a música imaginando como o astro do grunge (que entre muitas dores sofria de dor de estômago crônica) teria canalizado sua angústia nas letras.

Over The Bridge não é o primeiro grupo a usar AI para imitar um artista morto. Mas a intenção aqui é diferente de projetos passados ​​semelhantes. “Drowned in the Sun” é parte da iniciativa “Fitas Perdidas do Clube dos 27“. Eles decidiram registrar músicas geradas por “AI”, simulando o trabalho dos artistas que morreram com a idade de 27 anos, para aumentar a conscientização sobre os recursos de saúde mental aos quais músicos e público geral podem recorrer quando sentirem que precisam de ajuda.

As reações foram mistas, variando de “A música tem um refrão de hino, e tem uma evocativa qualidade Cobain-esca…” até “uma perfeita ilustração da injustiça de se desenvolver Inteligência Artificial através da ingestão de trabalhos culturais sem a autorização de seu criador, e de como isso força criadores a serem escravos na produção de um futuro fora de seu controle”. Eu, pessoalmente, reservo minha opinião.

A organização sem fins lucrativos baseada em Toronto tem uma página no Facebook onde oferece suporte. Também oferece sessões online e workshops. Em https://www.facebook.com/OTBnonprofit

(*) Se você está experimentando pensamentos de suicídio ou auto-agressão, peça ajuda ao Centro de Valorização da Vida, CVV, no fone 188