A.I. Art – Meus Experimentos com o Incrível ‘Stable Diffusion’

Se você não está prestando atenção ao que está acontecendo com o súbito aparecimento da Difusão Estável, você está perdendo um momento realmente interessante na história da tecnologia.

Imagem: Pexels.com

Tudo começou quando há dez dias, em 22 de agosto, a start-up Stability.ai abriu o código-fonte de sua plataforma de síntese de imagem chamada Stable Diffusion – uma arquitetura de difusão latente semelhante ao DALL-E 2 do OpenAI e ao Imagen do Google, treinada com milhões de imagens extraídas da web. Desde então a tecnologia tem desfrutado uma contínua explosão de interesse.

Ao contrário do conteúdo deepfake baseado em autoencoder, ou das recriações da figura humana que podem ser alcançadas por Neural Radiance Fields (NeRF) e Generative Adversarial Networks (GANs), os sistemas baseados em difusão aprendem a gerar novas imagens adicionando ruído às imagens usadas como fontes. A reiteração desse processo ensina o sistema como fazer imagens plausíveis – e até foto-realistas – a partir apenas desse ruído.

Modelos baseados em difusão aprendem a reconstruir fotos adicionando ruído a imagens “não contaminadas” e observando a relação elas e a imagem “contaminada” à medida que mais ruído é adicionado. Imagem: Google

Com a repetição do processo, o modelo começa a entender as “relações latentes” entre fontes altamente difusas e suas versões nítidas e de maior resolução. Depois de bem treinado, um modelo de difusão latente do tipo “texto-para-imagem” pode então “recuperar” imagens, separando-as do ruído de base usando prompts de texto como guias para quais elementos recuperar.

Em apenas alguns dias, houve uma explosão de inovação em torno deste processo. As coisas que as pessoas estão criando são absolutamente surpreendentes.

Tenho acompanhado o subreddit r/StableDiffusion e seguido o fundador da Stability, Emad Mostaque, no Twitter.

Minhas experiências

No início desta semana eu comecei a fazer experimentos com a tecnologia. O mínimo que posso dizer é que gerar imagens a partir de texto é um jogo totalmente novo.

Com os modelos “texto-para-imagem”, as habilidades linguísticas adquirem muita importância, à medida que a precisão conceitual na composição do chamado “prompt” vai determinar o resultado final do trabalho. No estágio atual da tecnologia, o prompt deve ser composto em inglês. Eu suponho que uma interface em português vai surgir em algum momento – farei minha contribuição na medida do possível.

Minhas explorações mostradas aqui foram feitas na plataforma online beta.dreamstudio.ai (atualmente grátis). A conta no site permite a geração de 200 imagens, antes de começar a monetizar. Já existem muitos outros sites parecidos, e novos aparecem todo dia.

Canalizei meu Roger Dean interior e comecei a esboçar algumas coisas. Depois de uma manhã eu já tinha uma pequena coleção para curtir e mostrar:

  • Um Sonho de São Paulo

Eu gosto do estilo matte paint, e minha primeira ideia foi investigar como São Paulo apareceria como um cenário a la Blade Runner.

Um sonho de São Paulo
Prompt usado: A dream of Sao Paulo city, Caspar David Friedrich, matte painting, artstation HQ

No prompt eu estabeleço alguns parâmetros/atributos que eu gostaria que a imagem tivesse:

Dream, indicando uma atmosfera onírica; São Paulo city, o objeto central, Caspar Friedrich, replicando o estilo do artista homólogo, Matte painting, para dar a textura, Artstation HQ, para invocar o estilo do studio Artstation [games, mídia].

  • São Paulo Dream

Neste ponto o leitor já percebeu que eu gosto de São Paulo e curto uma atmosfera onírica, com elementos pós-apocalípticos.

    Prompt Usado: A dream of Sao Paulo, a distant galaxy, Caspar David Friedrich, matte painting, trending on artstation HQ
    • Nave Alien Gigante
    Prompt usado: gigantic extraterrestrial futuristic alien ship in brand new condition, not ruins, hyper-detailed, artstation trending, world renowned artists, antique renewal, good contrast, realistic color, cgsociety, greg rutkowski, gustave dore, Deviantart
    • Roma Alienígena
    Prompt usado: Julius Caesar, alien roman historic works, ruins, hyper-detailed, world renowned artists, historic artworks society, good contrast, realistic color, cgsociety, Greg Rutkowski, Deviantart
    • Um Rio de Janeiro de Sonho
    Prompt usado: Rio de Janeiro, fuzzy, dreamy, world renowned artists, good contrast, pastel color, Greg Rutkowski, Deviantart
    • Rio Hipgnosis

    Aqui eu tentei replicar o estilo do já citado Roger Dean, e do estúdio Hipgnosis, famoso pelas capas de discos das grande bandas de rock nos anos setenta, como Yes, Pink Floyd, Led Zeppelin, e muitos outros. Note a silhueta do Pão de Açúcar, quase imperceptível. Definitivamente Lisérgico.

    Prompt usado: Rio de Janeiro, sketchy, dreamy, world renowned artists, good contrast, pastel color, Roger Dean, Hipgnosis
    • Transilvania

    Aqui eu recebi o valoroso input de minha mulher, ligada ao mundo das bruxas e das brumas, que sempre me apoia em minhas desventuras digitais. A ideia era fazer Drácula aparecer no cenário, mas vejo que será preciso maior empenho na engenharia do prompt.

    Prompt usado (composto por Marília Gião): Dracula castle on a mountain, at dusk, matte paint, Transylvania dream, David Friedrich, chariots with horses, hyper detailed, deviantart

    É mesmo uma coisa incrível. Imagine ter um artista conceitual multi habilidoso ao seu dispor, cujo único propósito na existência é interagir com você e materializar suas fantasias visuais mais loucas. Tudo a um custo muito baixo.

    Você pode executar a difusão estável em seu próprio computador, em um ambiente virtual python, se tiver as inclinações técnicas para configurá-lo [é preciso placa gráfica compatível com CUDA – tipicamente Nvidia] . Posso dar algumas indicações nos comentários, se alguém tiver interesse. Em serviços online como Replicate ou Hugging Face você pode ainda usar a biblioteca “imagem-para-imagem” – que está chegando também à interface do DreamStudio que usamos aqui.

    Há muito mais acontecendo. A melhor descrição que vi até agora de um processo iterativo para construir uma imagem usando Stable Diffusion vem de Andy Salerno: 4.2 Gigabytes, ou: Como desenhar qualquer coisa. Nestes experimentos eu usei partes dos prompts de Andy.

    E há muito mais por vir.

    As inescapáveis questões éticas

    As questões éticas levantadas por esses sistemas precisam ser enfrentadas e resolvidas. São questões difíceis.

    A difusão estável foi treinada com milhões de imagens extraídas da web. Essas imagens são protegidas por direitos autorais. Não estou qualificado para falar sobre a legalidade disso. Pessoalmente, estou mais preocupado com a moralidade.

    O Stable Diffusion v1 Model Card tem todos os detalhes de especificação, mas para resumir, ele usa um conjunto de dados LAION-5B (5,85 bilhões de pares de imagem-texto) e seu subconjunto Laion-aesthetics v2 5+ (um conjunto de aproximadamente 600 Milhões de pares). Essas imagens foram retiradas da web.

    O modelo final tem cerca de 4,2 GB de dados – um blob binário de “floating points”. O fato de se poder comprimir uma quantidade tão grande de informação visual em um volume tão pequeno é, em si, um feito fascinante. Contudo, de novo, as pessoas que criaram essas imagens não foram consultadas sobre seu consentimento.

    Para além disso, como já como discutimos no blog em outra postagem [link], o modelo pode ser visto como uma ameaça direta ao meio de subsistência de milhões de profissionais pelo mundo afora. Eu mesmo fui um desenhista ilustrador em meu primeiro emprego. Hoje eu não teria chance de começar. O vídeo e o áudio seguirão o mesmo caminho. Ninguém esperava que as IAs criativas viessem tão rapidamente para ceifar os empregos dos artistas, mas aqui estamos!

    Há também implicações [negativas] para o mercado de arte — e, em breve, do fonográfico, além do cinema.

    Nasce uma Nova profissão: a Engenharia de Prompt

    Como tentei mostrar, e como você mesma(o) pode verificar se resolver praticar a técnica no link que forneci, o background pessoal influenciará muito no sucesso. As pessoas que vão exercer essa atividade em um nível profissional elevado nas agências de criação terão que se aprofundar na observação e no estudo da linguagem.

    Além da precisão linguística, os parâmetros envolvidos na composição do prompt, para um resultado artístico perfeitamente controlado, exigem conhecimento técnico, senso de estilo e conhecimento histórico. Quanto mais palavras-chave relacionadas estiverem envolvidas na composição maior será o controle do artista sobre o resultado final. Exemplo: o prompt

    Uma cidade futurista distante, cheia de prédios altos dentro de uma enorme cúpula de vidro transparente, No meio de um deserto árido cheio de grandes dunas, Raios de sol, Artstation, Céu escuro cheio de estrelas com um sol brilhante, Escala maciça, Neblina, Muito detalhado, Cinematográfico, Colorido

    é mais sofisticado do que simplesmente

    Uma cidade cheia de prédios altos dentro de uma enorme cúpula de vidro transparente

    Note que a densidade conceitual, portanto a qualidade, do prompt depende muito do background cultural e linguístico da pessoa que faz a composição. De fato, um prompt de qualidade se assemelha muito a uma cena de cinema descrita em um roteiro/storyboard [a propósito, lá se vão os Production Designers, junto com os concept artists, graphic designers, set designers, costume designers, lighting designers…].

    Na tentativa de monetizar os frutos da nova tecnologia, os empreendedores da Internet serão forçados pela mão invisível do mercado de trabalho a se aprofundar nos conhecimentos linguísticos. Será um efeito colateral benigno, penso eu, considerando estado atual da Internet. Talvez isso leve a uma melhor articulação das ideias no ambiente da rede.

    Assim como influenciadores do YouTube têm talento para lidar com os aspectos visuais das interações humanas, os aspirantes à engenharia de prompt terão que se destacar em farejar as nuances da expressão humana. Eles têm grande potencial para ser os novos profissionais descolados da economia digital, assim como foram os web designers, e depois os influencers — que, com o fim das redes sociais, agora tendem a perder relevância.

    Para se diferenciar, os engenheiros de prompt terão que ser ávidos leitores e praticantes de semiótica/semiologia.

    Umberto Eco e os estruturalistas poderão voltar à moda.

    Indistinguível da magia

    Apenas alguns meses atrás, se eu tivesse visto alguém criar essas imagens em um programa de TV, ou em um vídeo do YouTube, eu teria resmungado sobre essas mistificações, grosseiras mesmo para padrões da TV e da Internet (sorry).

    A ficção científica é real agora. Modelos generativos de aprendizagem de máquina estão aqui, e a taxa com que eles estão melhorando é absolutamente irreal. Eu digo isso tendo um histórico de ceticismo quanto ao “hype” e às possibilidades dessa modalidade de AI. Vale a pena prestar atenção ao que eles são capazes de fazer, como estão se desenvolvendo, e ao impacto que eles terão na sociedade.

    Leitura recomendada

    https://arxiv.org/abs/2112.10752

    https://github.com/CompVis/stable-diffusion


    Reativei minha conta para twitar sobre essas coisas para o meu único seguidor. Siga @VoxLeone no Twitter e me ajude a conquistar o Brasil!

    Também fiz conta no Reddit, onde meu Karma é exatamente = 1. Siga u/VoxLeone!

    ‘Inteligência Artificial’ e o Futuro das Artes Digitais

    Eu leio os jornais. Eu vejo o ritmo do ‘progresso’. Eu entendo como esses novos modelos de aprendizado de máquina funcionam em um nível técnico e estou impressionado com a rapidez com que eles estão se desenvolvendo.

    artista-digital
    Imagem: Pexels.com

    Francamente, eu não espero que a arte digital feita por humanos (imagens, vídeos, filmes, música, texto) sobreviva mais uma década. O que espero é que pouca ou nenhuma arte digital seja vendida com lucro por artistas humanos daqui a dez anos, e a única razão pela qual não estendo esse raciocínio para mídias físicas como escultura ou arte de rua é que eu não sei se teremos robôs hábeis o suficiente para fazê-las – embora seja inevitável que robôs habilidosos surjam em algum momento, na duvidosa hipótese de que a civilização sobreviva.

    As pessoas frequentemente vão buscar o exemplo da pintura e da fotografia para defender a ideia de que inteligência artificial (IA) não vai realmente acabar com o mercado de arte, mas eu simplesmente não vejo esse exemplo como válido. A fotografia e a pintura sobreviveram porque são fundamentalmente diferentes e podem ser facilmente distinguidas, desde que seus respectivos criadores optem por se diferenciar.

    A arte da IA é diferente, porque seu propósito específico é replicar. Não importa o que os artistas humanos façam com a mídia digital, a IA sempre vai estar lá para engolir as mudanças de qualquer nova onda e aprender a replicá-las.

    O advento da fotografia nunca teve a intenção de matar a indústria da pintura. Contrariamente, esses algoritmos de IA, gestados nas grandes corporações de tecnologia, têm como objetivo manifesto matar a indústria da imagem.

    Sobre a Excelência na técnica

    Leonardo da Vinci não apenas pegou um pincel, compôs a Mona Lisa e se proclamou mestre. Ele construiu suas habilidades como aprendiz em oficinas, fazendo obras acessórias, figuras de fundo e encomendas menores. É esse trabalho que cria a oportunidade para que obras-primas aconteçam. Se esse ambiente desaparecer, o topo da elite artística será afetado. Existe algo único no equilíbrio entre ser ousado o suficiente para se destacar da multidão, mas ao mesmo tempo acessível o suficiente para um apelo mais amplo.

    No momento, os modelos de aprendizado de máquina ainda são fracos, mas já são fortes o suficiente para tirar 90% dos artistas digitais do mercado. Com o custo próximo de zero, as pessoas não vão mais reutilizar nada. Vão gerar algo novo para cada coisa que fizerem. Não tenho certeza se há algo que possa ser feito para evitar esse futuro. Penso que devemos começar reconhecer que muita coisa vai se perder nessa revolução. Também duvido que artifícios sociais como bolsas de estudo e programas de residência possam deter o avanço das máquinas simplesmente jogando dinheiro no problema.

    Otimistas

    Há um lado otimista nesta questão. Seus lugares-tenentes sustentam que não precisamos temer a arte da IA. Na verdade, os artistas podem até querer agradecer.

    Segundo os otimistas, há muito tempo os artistas sentem uma espécie de tédio por causa da falta de um caminho claro para a inovação ou para criação de algo “novo” e inspirador. As coisas tornaram-se obsoletas e excessivamente mercantilizadas, com músicos, fotógrafos, pintores, etc. muitas vezes confessando que o que eles criam não passa de recauchutagem de ideias desgastadas – admito que qualquer artista ligado na cena vai mesmo dizer que não há mais muita arte inspiradora.

    A IA essencialmente reorganiza motivos antigos de novas maneiras. É um dispositivo de permutação que mostra o estado da arte atual (na qual é baseado o treinamento dos modelos) aplicado a situações arbitrárias. Os artistas podem usá-lo como ferramenta para encontrar um espaço onde uma nova exploração seja possível e, finalmente, começar a criar arte inspiradora novamente.

    este-cara-nao-existe
    Imagem gerada no popular serviço Esta Pessoa Não Existe. É uma imagem criada com o uso de redes GAN – Generational Adversarial Network.

    Os otimistas ainda consideram que o que está sendo banalizado agora é apenas a transformação das obras mesmas em espaços de ideias digitalmente definíveis: crie uma nova ideia em arte, dê a uma máquina representações suficientes e ela pode gerar infinitamente novos trabalhos dentro desse espaço.

    A corrente otimista argumenta que certas coisas vão escapar à banalização. O que ainda não pode ser banalizado seria:

    1) Novos espaços de ideias. A IA é incapaz de gerar algo que possa ser definido como um novo movimento artístico.

    2) Novas mídias. Algo como Dall-E [ver nota no final] vai aparecer, mais cedo ou mais tarde, para gerar arquivos CAD. Contudo, há muitas expressões artísticas que não serão fisicamente reproduzíveis por um computador. As obras nessas mídias permanecerão valiosas ou até aumentarão de valor. E embora a IA possa gerar novas ideias nesses espaços, será necessário que haja pessoas que decidam se esforçar para executá-las.

    3) Curadoria. Decidir quais ideias (geradas por IA ou não) merecem atenção.

    Take final

    Comecei a investigar este assunto na década passada, e as evidências me sugerem que começaremos a ver todas as atividades humanas enfrentando um declínio salarial anual de 6 a 12% a partir de agora. Uma máquina já pode fazer trabalho humano bem o suficiente para substituí-lo ou substituir mais de 90% das pessoas no trabalho que elas fazem, deixando o resto brigando por migalhas.

    A parte criativa e sensível do seu trabalho, que uma máquina não pode fazer, pode parecer muito importante para você, mas o chefe do chefe do seu chefe provavelmente não se importa com isso, já que a mediocridade escalável é mais lucrativa do que qualquer “extra” que um humano possa oferecer.

    Na verdade, a já envelhecida queixa das empresas de que “existe-trabalho-mas-ninguém-está-qualificado” é uma grande balela. Os mesmos executivos que dizem isso estão espremendo seus gerentes de linha, ao não deixá-los contratar auxílio e forçá-los ao trabalho cada vez mais pesado.

    A tendência de longo prazo dos salários é de queda. Os mercados de trabalho não parecem mais se comportar como o da oferta e procura de bens. Nesse mercado as curvas não mais encontram equilíbrio. Elas divergem.

    Não se trata apenas de AI Art, e outras macaquices digitais. Estamos muito provavelmente caminhando para um colapso salarial generalizado e de base ampla em todo o mundo, e esse tipo de situação provavelmente resultará em um conflito global entre pessoas e capital, no qual a) todo um sistema socioeconômico é derrubado, ou b) a humanidade é lançada na escravidão da qual é improvável que se recupere.


    Nota: DALL·E é uma versão do GPT-3 [Generative Pre-trained Transformer – Transformador Generativo Pré- treinado] com bilhões de parâmetros, treinada para gerar imagens a partir de descrições de texto [ex: “ovelha a tocar piano em um navio”], usando um conjunto de dados de pares de texto-imagem. Ele tem um conjunto diversificado de recursos, incluindo a criação de versões antropomorfizadas de animais e objetos, combinando conceitos não relacionados de maneiras plausíveis, renderizando texto e aplicando transformações a imagens existentes.

    Leitura recomendadada

    https://arxiv.org/abs/2005.14165

    https://openai.com/blog/dall-e/

    Tirando a Adivinhação do Cuidado Bucal – com Inteligência Artificial

    Overjet – fundada por alunos do MIT – analisa e anota radiografias bucais para ajudar dentistas a oferecer cuidado mais abrangente

    Zach Winn | MIT News Office

    A Overjet, fundada por alunos do MIT, usa inteligência artificial para anotar radiografias para dentistas – Imagem: Cortesia de Overjet

    Quando você imagina um radiologista em um hospital, pode ser que você pense em um especialista que se senta em uma câmara escura e passa horas examinando raios-X para fazer diagnósticos.

    Compare essa imagem mental com seu dentista, que além de interpretar raios-X também tem que fazer cirurgias, gerenciar equipe, comunicar-se com pacientes e administrar seus negócios. Quando os dentistas analisam raios-X, eles o fazem em salas iluminadas e em computadores que não são especializados em radiologia, e geralmente com o paciente sentado ao lado deles.

    Portanto não é surpresa que dentistas que analisam um mesmo raio X possam propor tratamentos diferentes. “Os dentistas fazem um ótimo trabalho, considerando todas as suas ocupações”, diz Wardah Inam SM, PhD. Inam é cofundadora da Overjet, uma empresa que usa inteligência artificial para analisar e anotar raios-X para dentistas e seguradoras.

    A Overjet busca tirar a subjetividade das interpretações de raios-X para melhorar o atendimento ao paciente. “Trata-se de avançar para uma medicina mais precisa, onde temos os tratamentos certos na hora certa”, diz Inam, que cofundou a empresa com Alexander Jelicich. “É aí que a tecnologia pode ajudar. Uma vez que quantificamos a doença, podemos facilitar a recomendação do tratamento correto.”

    Overjet foi aprovado pela Food and Drug Administration [EUA] para detectar e delinear cáries e quantificar os níveis ósseos como auxílio no diagnóstico da doença periodontal, uma infecção gengival comum, mas evitável, que causa a deterioração do maxilar e de outros tecidos que suportam os dentes. Além de ajudar os dentistas a detectar e tratar doenças, o software da Overjet também foi projetado para ajudar os dentistas a mostrar aos pacientes os problemas que estão vendo e explicar por que estão recomendando determinados tratamentos.

    A empresa, que já analisou dezenas de milhões de raios-X, é usada por clínicas odontológicas em todos os Estados Unidos e atualmente está trabalhando com seguradoras que representam mais de 75 milhões de pacientes nos EUA. Inam espera que os dados que a Overjet está analisando possam ser usados para agilizar as operações e melhorar o atendimento aos pacientes. “Nossa missão na Overjet é melhorar a saúde bucal criando um futuro clinicamente preciso, eficiente e centrado no paciente”, diz Inam.

    Foi uma jornada relâmpago para Inam, que não sabia nada sobre a indústria odontológica até que uma experiência desconcertante despertou seu interesse em 2018.

    Chegando à raiz do problema

    Inam veio para o MIT em 2010, primeiro para seu mestrado e depois seu doutorado em engenharia elétrica e ciência da computação, e diz que pegou o vírus do empreendedorismo desde cedo. “Para mim, o MIT era uma área livre à experimentação, onde você podia aprender coisas diferentes e descobrir o que você gosta e o que você não gosta”, diz Inam. “Além disso, se você está curioso sobre um problema, pode realmente mergulhar nele.”

    Enquanto fazia aulas de empreendedorismo na Sloan School of Management, Inam acabou iniciando uma série de novos empreendimentos com colegas de classe. “Eu não sabia que queria começar uma empresa quando vim para o MIT”, diz Inam. “Eu sabia que queria resolver problemas importantes. Passei por essa jornada de decidir entre a academia e a indústria, mas gosto de ver as coisas acontecerem mais rápido e gosto de causar impacto na minha vida, e foi isso que me atraiu para o empreendedorismo.”

    Durante seu pós-doutorado no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), Inam e um grupo de pesquisadores aplicaram aprendizado de máquina a sinais wireless para criar sensores biomédicos que pudessem rastrear os movimentos de uma pessoa, detectar quedas e monitorar a frequência respiratória.

    Ela não tinha interesse pela odontologia até depois de deixar o MIT, quando teve que mudar de dentista e recebeu um plano de tratamento totalmente novo. Confusa com a mudança, ela pegou seus raios-X e pediu a outros dentistas para dar uma olhada, apenas para receber mais variações nas recomendações de diagnóstico e tratamento.

    Nesse ponto, Inam decidiu mergulhar na odontologia por conta própria, lendo livros sobre o assunto, assistindo a vídeos no YouTube e, eventualmente, entrevistando dentistas. Antes que ela percebesse ela estava gastando mais tempo estudando sobre odontologia do que em seu trabalho.

    Na mesma semana em que Inam deixou o emprego, ela soube da competição Hacking Medicine do MIT e decidiu participar. Foi aí que ela começou a construir sua equipe e a fazer conexões. O primeiro financiamento da Overjet veio do grupo de investimentos afiliado ao Media Lab, o E14 Fund.

    “O fundo E14 fez o primeiro cheque, e acho que não teríamos chegado a existir se não fosse por eles nos dando uma chance”, diz ela. Inam aprendeu que um grande motivo para a variação nas recomendações de tratamento entre os dentistas é o grande número de opções potenciais de tratamento para cada doença. Uma cárie, por exemplo, pode ser tratada com uma restauração, uma coroa, um canal radicular, uma ponte, e assim por diante.

    Quando se trata de doença periodontal, os dentistas devem fazer avaliações milimétricas para determinar a gravidade e a progressão da doença. A extensão e progressão da doença determina o melhor tratamento. “Eu senti que a tecnologia poderia desempenhar um grande papel não apenas para melhorar o diagnóstico, mas também para comunicar com os pacientes de forma mais eficaz, para que eles entendam e não precisem passar pelo processo confuso que fiz de me perguntar quem está com a razão”, diz Inam.

    A Overjet começou como uma ferramenta para ajudar as seguradoras a otimizar os sinistros odontológicos antes de começar a integrar sua ferramenta diretamente nas clínicas odontológicas. Todos os dias, algumas das maiores organizações odontológicas do país estão usando Overjet, incluindo Guardian Insurance, Delta Dental, Dental Care Alliance e Jefferson Dental and Orthodontics.

    Hoje, à medida que um raio-X odontológico é importado para um computador, o software da Overjet analisa e anota as imagens automaticamente. No momento em que a imagem aparece na tela o sistema tem informações sobre o tipo de raio-X tirado, como os dentes podem ser afetados, o nível exato de perda óssea, anotando com sobreposições de cores, indicando a localização e gravidade das cáries e muito mais. A análise efetuada fornece aos dentistas mais informações para informar os pacientes sobre as opções de tratamento.

    O software da Overjet analisa e anota radiografias bucais automaticamente em tempo quase real, oferecendo informações sobre o tipo de radiografia tirada, como um dente pode ser afetado, o nível exato de perda óssea, com sobreposições de cores, a localização e gravidade das cáries, e mais. (clique para abrir a imagem no tamanho original) – Imagem: Cortesia de Overjet

    “Agora, o dentista ou higienista só precisa sintetizar essas informações e usar as ferramentas incluídas no software para se comunicar com você”, diz Inam. “Aí então, ele vai te mostrar as radiografias com as anotações do Overjet e dizer: ‘Você tem 4 milímetros de perda óssea e está no vermelho; isso é mais do que os 3 milímetros que você tinha da última vez, então vou recomendar o tratamento x, y, z.” O Overjet também incorpora informações históricas sobre cada paciente, rastreando a perda óssea em cada dente e ajudando os dentistas a detectar casos em que a doença está progredindo mais rapidamente.

    “Vimos casos em que um paciente com câncer com xerostomia pode ir do nada para algo extremamente ruim nos seis meses entre as visitas. Esses pacientes devem ir ao dentista com mais frequência”, diz Inam. “Trata-se de usar dados para mudar a forma como praticamos o atendimento, planejamos o tratamento e oferecemos serviços para diferentes tipos de pacientes.”

    O sistema operacional da odontologia

    A FDA autorizou a Overjet a operar em duas doenças altamente prevalentes. A autorização também coloca a empresa em posição de conduzir análises em nível de setor e ajudar as clínicas a se compararem com seus pares. “Usamos a mesma tecnologia para ajudar as clínicas a entender o seu desempenho e melhorar as operações”, diz Inam. “Podemos olhar para cada paciente em cada clínica e identificar como elas podem usar o software para melhorar os cuidados que estão fornecendo.”

    Seguindo em frente, Inam vê a Overjet desempenhando um papel fundamental em praticamente todos os aspectos das operações odontológicas. “Estas radiografias foram digitalizadas há bastante tempo, mas nunca foram usadas porque os computadores não conseguiam lê-las”, diz Inam. “A Overjet está transformando dados não estruturados em dados que se pode analisar.

    No momento, estamos construindo a infraestrutura básica. Eventualmente, queremos expandir a plataforma para melhorar qualquer serviço que uma clínica possa fornecer, basicamente nos tornando o sistema operacional da clínica para ajudá-las a fazer seu trabalho de forma mais eficaz.”

    Republicado com a permissão de MIT Newshttps://news.mit.edu/

    Tradução: Eraldo. B. Marques

    ~ o ~

    Nota de VoxL: Tenho uma longa história de colaboração com odontólogos e radiologistas, em vários projetos. Nos últimos anos tenho me capacitado no campo do Aprendizado de Máquina (AI) e me preparo para oferecer serviços como o descrito no artigo — começando ainda em 2022, espero. Estamos trabalhando nos detalhes do fluxo de trabalho.

    Alguns meses atrás eu fiz um post explorando o tema da visão de computador (VC) [link], enfocando de forma prática a análise facial.

    Desejamos boa sorte à Overjet no marcado brasileiro, mas aviso que seremos concorrentes [Hey, há um lugar para todos sob o Sol!].

    O Smartwatch e o Autoconhecimento

    Na filosofia, ainda não é uma questão decidida que o ‘mandamento’ “conhece a ti mesmo” possa ser realmente seguido, uma vez que não está claro que haja algo para conhecer.

    Imagem: Pexels

    No final de tudo, o “eu” [link] pode muito bem ser o pote de ouro no fim do arco-íris: pode simplesmente não existir. O eu pode ser uma ilusão, como sustentava a maioria das correntes da filosofia budista clássica; ou pode ser um “buraco de ser no coração do Ser”, como sugeriu Jean-Paul Sartre um tanto desconsoladamente; ou pode ser perfeitamente real, mas, por definição, além dos limites da cognoscibilidade.

    A religião do corpo

    Se você se convencer de que o mundo é complexo demais para a razão humana – como querem os adeptos da terra plana e outros milhões de infelizes sem luz que vagam pela redes, e que para você ele é definitivamente opaco ao conhecimento, sujeito aos desígnios de um Deus irascível, existem várias maneiras diferentes de reagir para superar o sentimento de frustração. Você pode decidir “seguir o fluxo”; viver seus dias na feliz ignorância de sua “verdadeira” natureza, mas em harmonia sentimental com o mundo ao seu redor.

    Ou você pode voltar sua atenção para o seu corpo, como a coisa mais próxima que você vai chegar do próprio eu, e tentar aprender tudo o que puder sobre ele. Tentar encontrar seu equilíbrio e livrá-lo da decadência e da impermanência. Ao fazer isso, com o tempo você e seus pares podem vir a acreditar que as informações derivadas desse tipo de investigação podem ser consideradas realmente como autoconhecimento no sentido mais amplo.

    Essa impressão de que o conhecimento das “estatísticas vitais” do corpo (velocidade, resistência, elasticidade, etc.) é um bem em si mesmo se torna particularmente atraente quando é apresentada não apenas como algo útil, mas como algo agradável. E não há maneira mais eficaz de tornar o aprendizado agradável do que transformá-lo em um game; fazê-lo depender da intermediação de algum dispositivo novo, prático e elegante, uma mistura de tecnologia e novidade – um gadget que não existia apenas alguns anos antes.

    Em um mundo inundado com esses novos dispositivos, não é de todo surpreendente descobrir que o autoconhecimento que muitas pessoas buscam agora não é nada mais do que pode ser revelado pelo AppleWatch ou pelo Fitbit.

    Anexar alguma recompensa tangível – como o progresso nas etapas de um videogame – a atividades cotidianas, como caminhar ou correr, parece estar muito de acordo com os interesses das empresas de tecnologia – com a benção de todos os governos – que querem a todo custo que você integre completamente o produto deles à sua vida e interaja com esse produto o tanto quanto possível.

    Na China já se atribui “créditos sociais” (ou os deduz, no caso daqueles corajosos o suficiente para se opor ao governo) a tarefas mundanas, como participar de sessões de ioga, ou visitar um parente idoso. Esse crédito é instrumental na hora de adquirir uma casa ou usufruir certos privilégios. Nada se transaciona sem uma consulta a esse banco de dados.

    Aplicando o manual aperfeiçoado pela China, governos e corporações de todo o mundo usam a psicologia comportamental e a neurociência para manipular as pessoas das mais variadas maneiras. Os algoritmos subtraem a liberdade de nossas mentes misteriosas e insondáveis, mantendo-as cativas e firmemente focadas na torrente de informação que sai das pequenas telas dos smartphones, simulacro da realidade do mundo exterior.

    Neste ponto, devo anotar, confesso que eu não tenho certeza de que devamos abandonar totalmente a psicologia comportamental. Alguma “gameficação” na vida pode ser divertida e útil. Por exemplo, quando faço um curso online [como é usual nestes tempos pandêmicos], não posso negar que gosto muito de ganhar pontos, de subir de nível e das medalhas, e acho que isso de alguma forma ajuda a aprender melhor, mais rápido e com mais prazer. Mas minha posição é a de que a neurociência não deve ser praticada à custa do nosso mundo íntimo, misterioso e invisível ao de fora.

    Conhece a ti mesmo

    A opinião de Nietzsche sobre “conhece ti mesmo” é interessante: “Uma coisa conhecida é uma coisa que não é mais preocupante.” Assim, na visão nietzscheana, a expressão “conhece a ti mesmo” pode ser interpretada como uma injunção para se tornar objetivo e direcionar a atenção quase inteiramente para o mundo exterior, para a realidade crua dos fatos.

    Mas tenho para mim que essa Máxima Délfica, tal como usada por Sócrates, tem um cunho mais literal. Ele era um filósofo e, como tal, praticava o que talvez seja o único método confiável para ter sucesso em um empreendimento: um mergulho profundo no perigoso inconsciente. Um empreendimento que, ao mesmo tempo em que envolve uma transformação interior, também traz o Céu à Terra.

    Infelizmente, essa parece ser uma tarefa quase impossível na era das redes sociais, de emoções fáceis induzidas pelos torpes algoritmos e quase completa incapacidade de foco e raciocínio. Alguns sustentam que Napoleão chegou a sentir um chamado para a filosofia – notadamente de Maquiavel, mas mesmo naquela época amigável à introspecção pareceu mais fácil para ele partir para conquistar o mundo, em vez de enfrentar o reino interior.

    Portanto, um mergulho profundo no inconsciente – hoje negligenciado – não é para todos, a menos que se esteja a procura de alívio para aflições mentais ou fazendo um balanço da vida na hora da morte (ou coisa pior). Se o seu Fitbit está a dizer que você precisa de uma corrida na praia [e dos consequentes likes dos seus seguidores], não há tempo a perder em aventuras introspectivas.

    A pulsão coletiva de mergulhar no materialismo digital das redes destrói qualquer capacidade de apreciação da consciência fenomenológica, arriscada e cheia de nuances. Especialmente nestes momentos históricos em que os grandes do mundo se preparam para guiar as massas em direção a gloriosos planaltos.

    O Futuro da AI é Luminoso (e analógico)

    Para concluir a Rápida Introdução à ‘Inteligência Artificial’, publico o post complementar, para apresentar o inovador chip ótico [ainda sem nome comercial] da start-up Lightmatter, contendo o chamado interferômetro Mach-Zehnderque, que promete elevar a computação de sistemas de aprendizagem de máquinas a um novo patamar.

    Imagem: iStock

    O aprendizado de máquina profundo, ou seja, redes neurais artificiais com muitas camadas ocultas, sempre nos fascina com soluções inovadoras para problemas do mundo real, cada vez em mais áreas, incluindo processamento de linguagem natural, detecção de fraude, reconhecimento de imagem e direção autônoma. As redes neurais ficam melhores a cada dia.

    Mas esses avanços têm um preço enorme nos recursos de computação e no consumo de energia. Portanto, não é de se admirar que engenheiros e cientistas da computação estejam fazendo grandes esforços para descobrir maneiras de treinar e operar redes neurais profundas com mais eficiência.

    Uma nova e ambiciosa estratégia que está fazendo o ‘début’ este ano é executar a computação de redes neurais usando fótons em vez de elétrons. A Lightmatter começará a comercializar no final deste ano seu chip acelerador de rede neural que calcula com luz. Será um refinamento do protótipo do chip Mars que a empresa exibiu em agosto passado.

    O protótipo MARS, instalado em uma placa

    Embora o desenvolvimento de um acelerador ótico comercial para aprendizado profundo seja uma conquista notável, a ideia geral de ‘computação com luz’ não é nova. Os engenheiros empregavam regularmente essa tática nas décadas de 1960 e 1970, quando os computadores digitais eletrônicos ainda não tinham capacidade para realizar cálculos complexos. Assim, os dados eram processados no domínio analógico, usando luz.

    Em virtude dos ganhos da Lei de Moore na eletrônica digital, a computação óptica nunca realmente pegou, apesar da ascensão da luz [fibras óticas] como veículo para comunicação de dados. Mas tudo isso pode estar prestes a mudar: a Lei de Moore, que durante décadas proporcionou aumentos exponenciais na capacidade dos chips eletrônicos, mostra sinais de estar chegando ao fim, ao mesmo tempo em que as demandas da computação de aprendizado profundo estão explodindo.

    Não há muitas escolhas para lidar com esse problema. Pesquisadores de aprendizagem profunda podem até desenvolver algoritmos mais eficientes, mas é difícil prever se esses ganhos serão suficientes. Essa é a razão da Lightmatter estar empenhada em “desenvolver uma nova tecnologia de computação que não dependa do transistor”.

    Fundamentos

    O componente fundamental no chip Lightmatter é um interferômetro Mach-Zehnder. Esse dispositivo ótico foi inventado em conjunto por Ludwig Mach e Ludwig Zehnder na década de 1890. Mas só recentemente esses dispositivos óticos foram miniaturizados a ponto de um grande número deles poder ser integrado em um chip e usado para realizar as multiplicações de matrizes envolvidas nos cálculos de rede neural.

    O interferômetro Mach-Zehnder é um dispositivo usado para determinar as variações relativas de deslocamento de fase entre dois feixes colimados derivados da divisão da luz de uma única fonte. É um dispositivo particularmente simples para demonstrar interferência por divisão de amplitude. Um feixe de luz é primeiro dividido em duas partes por um divisor de feixe e, em seguida, recombinado por um segundo divisor de feixe. Dependendo da fase relativa adquirida pelo feixe ao longo dos dois caminhos, o segundo divisor de feixe refletirá o feixe com eficiência entre 0 e 100%. – Gráfico: Vox Leone – Uso Permitido

    Esses feitos só se tornaram possíveis nos últimos anos devido ao amadurecimento do ecossistema de manufatura de fotônica integrada, necessário para fazer chips fotônicos para comunicações.

    O processamento de sinais analógicos transportados pela luz reduz os custos de energia e aumenta a velocidade dos cálculos, mas a precisão pode não corresponder ao que é possível no domínio digital. O sistema é 8-bits-equivalente. Isso por enquanto mantém o chip restrito a cálculos de inferência de rede neural – aqueles que são realizados depois que a rede foi treinada.

    Os desenvolvedores do sistema esperam que sua tecnologia possa um dia ser aplicada também ao treinamento de redes neurais. O treinamento exige mais precisão do que o processador ótico pode fornecer nesta etapa.

    A Lightmatter não está sozinha em busca da luz para cálculos de redes neurais. Outras startups que trabalham nesta linha são Fathom Computing, LightIntelligence, LightOn, Luminous e Optalysis.

    A Luminous espera desenvolver sistemas práticos em algum momento entre 2022 e 2025. Portanto, ainda teremos que esperar alguns anos para ver como essa abordagem vai evoluir. Mas muitos estão entusiasmados com as perspectivas, incluindo Bill Gates, um dos maiores investidores da empresa.

    Uma coisa é clara: os recursos de computação dedicados aos sistemas de inteligência artificial não podem continuar a crescer sustentavelmente na taxa atual, dobrando a cada três ou quatro meses. Os engenheiros estão ansiosos para utilizar a fotônica integrada para enfrentar esse desafio de construir uma nova classe de máquinas de computação drasticamente diferentes daquelas baseadas nos chips eletrônicos convencionais, que agora se tornam viáveis para fabricação. São dispositivos que no passado recente só podiam ser imaginados.