A.I. Art – Meus Experimentos com o Incrível ‘Stable Diffusion’

Se você não está prestando atenção ao que está acontecendo com o súbito aparecimento da Difusão Estável, você está perdendo um momento realmente interessante na história da tecnologia.

Imagem: Pexels.com

Tudo começou quando há dez dias, em 22 de agosto, a start-up Stability.ai abriu o código-fonte de sua plataforma de síntese de imagem chamada Stable Diffusion – uma arquitetura de difusão latente semelhante ao DALL-E 2 do OpenAI e ao Imagen do Google, treinada com milhões de imagens extraídas da web. Desde então a tecnologia tem desfrutado uma contínua explosão de interesse.

Ao contrário do conteúdo deepfake baseado em autoencoder, ou das recriações da figura humana que podem ser alcançadas por Neural Radiance Fields (NeRF) e Generative Adversarial Networks (GANs), os sistemas baseados em difusão aprendem a gerar novas imagens adicionando ruído às imagens usadas como fontes. A reiteração desse processo ensina o sistema como fazer imagens plausíveis – e até foto-realistas – a partir apenas desse ruído.

Modelos baseados em difusão aprendem a reconstruir fotos adicionando ruído a imagens “não contaminadas” e observando a relação elas e a imagem “contaminada” à medida que mais ruído é adicionado. Imagem: Google

Com a repetição do processo, o modelo começa a entender as “relações latentes” entre fontes altamente difusas e suas versões nítidas e de maior resolução. Depois de bem treinado, um modelo de difusão latente do tipo “texto-para-imagem” pode então “recuperar” imagens, separando-as do ruído de base usando prompts de texto como guias para quais elementos recuperar.

Em apenas alguns dias, houve uma explosão de inovação em torno deste processo. As coisas que as pessoas estão criando são absolutamente surpreendentes.

Tenho acompanhado o subreddit r/StableDiffusion e seguido o fundador da Stability, Emad Mostaque, no Twitter.

Minhas experiências

No início desta semana eu comecei a fazer experimentos com a tecnologia. O mínimo que posso dizer é que gerar imagens a partir de texto é um jogo totalmente novo.

Com os modelos “texto-para-imagem”, as habilidades linguísticas adquirem muita importância, à medida que a precisão conceitual na composição do chamado “prompt” vai determinar o resultado final do trabalho. No estágio atual da tecnologia, o prompt deve ser composto em inglês. Eu suponho que uma interface em português vai surgir em algum momento – farei minha contribuição na medida do possível.

Minhas explorações mostradas aqui foram feitas na plataforma online beta.dreamstudio.ai (atualmente grátis). A conta no site permite a geração de 200 imagens, antes de começar a monetizar. Já existem muitos outros sites parecidos, e novos aparecem todo dia.

Canalizei meu Roger Dean interior e comecei a esboçar algumas coisas. Depois de uma manhã eu já tinha uma pequena coleção para curtir e mostrar:

  • Um Sonho de São Paulo

Eu gosto do estilo matte paint, e minha primeira ideia foi investigar como São Paulo apareceria como um cenário a la Blade Runner.

Um sonho de São Paulo
Prompt usado: A dream of Sao Paulo city, Caspar David Friedrich, matte painting, artstation HQ

No prompt eu estabeleço alguns parâmetros/atributos que eu gostaria que a imagem tivesse:

Dream, indicando uma atmosfera onírica; São Paulo city, o objeto central, Caspar Friedrich, replicando o estilo do artista homólogo, Matte painting, para dar a textura, Artstation HQ, para invocar o estilo do studio Artstation [games, mídia].

  • São Paulo Dream

Neste ponto o leitor já percebeu que eu gosto de São Paulo e curto uma atmosfera onírica, com elementos pós-apocalípticos.

    Prompt Usado: A dream of Sao Paulo, a distant galaxy, Caspar David Friedrich, matte painting, trending on artstation HQ
    • Nave Alien Gigante
    Prompt usado: gigantic extraterrestrial futuristic alien ship in brand new condition, not ruins, hyper-detailed, artstation trending, world renowned artists, antique renewal, good contrast, realistic color, cgsociety, greg rutkowski, gustave dore, Deviantart
    • Roma Alienígena
    Prompt usado: Julius Caesar, alien roman historic works, ruins, hyper-detailed, world renowned artists, historic artworks society, good contrast, realistic color, cgsociety, Greg Rutkowski, Deviantart
    • Um Rio de Janeiro de Sonho
    Prompt usado: Rio de Janeiro, fuzzy, dreamy, world renowned artists, good contrast, pastel color, Greg Rutkowski, Deviantart
    • Rio Hipgnosis

    Aqui eu tentei replicar o estilo do já citado Roger Dean, e do estúdio Hipgnosis, famoso pelas capas de discos das grande bandas de rock nos anos setenta, como Yes, Pink Floyd, Led Zeppelin, e muitos outros. Note a silhueta do Pão de Açúcar, quase imperceptível. Definitivamente Lisérgico.

    Prompt usado: Rio de Janeiro, sketchy, dreamy, world renowned artists, good contrast, pastel color, Roger Dean, Hipgnosis
    • Transilvania

    Aqui eu recebi o valoroso input de minha mulher, ligada ao mundo das bruxas e das brumas, que sempre me apoia em minhas desventuras digitais. A ideia era fazer Drácula aparecer no cenário, mas vejo que será preciso maior empenho na engenharia do prompt.

    Prompt usado (composto por Marília Gião): Dracula castle on a mountain, at dusk, matte paint, Transylvania dream, David Friedrich, chariots with horses, hyper detailed, deviantart

    É mesmo uma coisa incrível. Imagine ter um artista conceitual multi habilidoso ao seu dispor, cujo único propósito na existência é interagir com você e materializar suas fantasias visuais mais loucas. Tudo a um custo muito baixo.

    Você pode executar a difusão estável em seu próprio computador, em um ambiente virtual python, se tiver as inclinações técnicas para configurá-lo [é preciso placa gráfica compatível com CUDA – tipicamente Nvidia] . Posso dar algumas indicações nos comentários, se alguém tiver interesse. Em serviços online como Replicate ou Hugging Face você pode ainda usar a biblioteca “imagem-para-imagem” – que está chegando também à interface do DreamStudio que usamos aqui.

    Há muito mais acontecendo. A melhor descrição que vi até agora de um processo iterativo para construir uma imagem usando Stable Diffusion vem de Andy Salerno: 4.2 Gigabytes, ou: Como desenhar qualquer coisa. Nestes experimentos eu usei partes dos prompts de Andy.

    E há muito mais por vir.

    As inescapáveis questões éticas

    As questões éticas levantadas por esses sistemas precisam ser enfrentadas e resolvidas. São questões difíceis.

    A difusão estável foi treinada com milhões de imagens extraídas da web. Essas imagens são protegidas por direitos autorais. Não estou qualificado para falar sobre a legalidade disso. Pessoalmente, estou mais preocupado com a moralidade.

    O Stable Diffusion v1 Model Card tem todos os detalhes de especificação, mas para resumir, ele usa um conjunto de dados LAION-5B (5,85 bilhões de pares de imagem-texto) e seu subconjunto Laion-aesthetics v2 5+ (um conjunto de aproximadamente 600 Milhões de pares). Essas imagens foram retiradas da web.

    O modelo final tem cerca de 4,2 GB de dados – um blob binário de “floating points”. O fato de se poder comprimir uma quantidade tão grande de informação visual em um volume tão pequeno é, em si, um feito fascinante. Contudo, de novo, as pessoas que criaram essas imagens não foram consultadas sobre seu consentimento.

    Para além disso, como já como discutimos no blog em outra postagem [link], o modelo pode ser visto como uma ameaça direta ao meio de subsistência de milhões de profissionais pelo mundo afora. Eu mesmo fui um desenhista ilustrador em meu primeiro emprego. Hoje eu não teria chance de começar. O vídeo e o áudio seguirão o mesmo caminho. Ninguém esperava que as IAs criativas viessem tão rapidamente para ceifar os empregos dos artistas, mas aqui estamos!

    Há também implicações [negativas] para o mercado de arte — e, em breve, do fonográfico, além do cinema.

    Nasce uma Nova profissão: a Engenharia de Prompt

    Como tentei mostrar, e como você mesma(o) pode verificar se resolver praticar a técnica no link que forneci, o background pessoal influenciará muito no sucesso. As pessoas que vão exercer essa atividade em um nível profissional elevado nas agências de criação terão que se aprofundar na observação e no estudo da linguagem.

    Além da precisão linguística, os parâmetros envolvidos na composição do prompt, para um resultado artístico perfeitamente controlado, exigem conhecimento técnico, senso de estilo e conhecimento histórico. Quanto mais palavras-chave relacionadas estiverem envolvidas na composição maior será o controle do artista sobre o resultado final. Exemplo: o prompt

    Uma cidade futurista distante, cheia de prédios altos dentro de uma enorme cúpula de vidro transparente, No meio de um deserto árido cheio de grandes dunas, Raios de sol, Artstation, Céu escuro cheio de estrelas com um sol brilhante, Escala maciça, Neblina, Muito detalhado, Cinematográfico, Colorido

    é mais sofisticado do que simplesmente

    Uma cidade cheia de prédios altos dentro de uma enorme cúpula de vidro transparente

    Note que a densidade conceitual, portanto a qualidade, do prompt depende muito do background cultural e linguístico da pessoa que faz a composição. De fato, um prompt de qualidade se assemelha muito a uma cena de cinema descrita em um roteiro/storyboard [a propósito, lá se vão os Production Designers, junto com os concept artists, graphic designers, set designers, costume designers, lighting designers…].

    Na tentativa de monetizar os frutos da nova tecnologia, os empreendedores da Internet serão forçados pela mão invisível do mercado de trabalho a se aprofundar nos conhecimentos linguísticos. Será um efeito colateral benigno, penso eu, considerando estado atual da Internet. Talvez isso leve a uma melhor articulação das ideias no ambiente da rede.

    Assim como influenciadores do YouTube têm talento para lidar com os aspectos visuais das interações humanas, os aspirantes à engenharia de prompt terão que se destacar em farejar as nuances da expressão humana. Eles têm grande potencial para ser os novos profissionais descolados da economia digital, assim como foram os web designers, e depois os influencers — que, com o fim das redes sociais, agora tendem a perder relevância.

    Para se diferenciar, os engenheiros de prompt terão que ser ávidos leitores e praticantes de semiótica/semiologia.

    Umberto Eco e os estruturalistas poderão voltar à moda.

    Indistinguível da magia

    Apenas alguns meses atrás, se eu tivesse visto alguém criar essas imagens em um programa de TV, ou em um vídeo do YouTube, eu teria resmungado sobre essas mistificações, grosseiras mesmo para padrões da TV e da Internet (sorry).

    A ficção científica é real agora. Modelos generativos de aprendizagem de máquina estão aqui, e a taxa com que eles estão melhorando é absolutamente irreal. Eu digo isso tendo um histórico de ceticismo quanto ao “hype” e às possibilidades dessa modalidade de AI. Vale a pena prestar atenção ao que eles são capazes de fazer, como estão se desenvolvendo, e ao impacto que eles terão na sociedade.

    Leitura recomendada

    https://arxiv.org/abs/2112.10752

    https://github.com/CompVis/stable-diffusion


    Reativei minha conta para twitar sobre essas coisas para o meu único seguidor. Siga @VoxLeone no Twitter e me ajude a conquistar o Brasil!

    Também fiz conta no Reddit, onde meu Karma é exatamente = 1. Siga u/VoxLeone!

    Reféns pelo Smartphone

    Há mais de 25 anos, o CEO da Sun Microsystems, Scott McNeally, anunciou: “A privacidade está morta. É melhor se conformar!”

    Smartphone addicts
    Imagem: Pexels.com

    Tudo o que ocorreu desde a vasta expansão dos poderes de vigilância, primeiro na mobilização mundial na Guerra contra o Terror, depois com a ascensão do capitalismo de vigilância, facilitado pelos avanços na tecnologia de telefonia móvel, transformou qualquer noção razoável de privacidade em um anacronismo pitoresco.

    Somos cada vez mais obrigados a carregar um smartphone. Nem sabemos porque, mas precisamos que eles participem conosco de eventos esportivos, da exibição de filmes, de festas, destranquem portas, chamem o táxi, ou nos liberem a catraca do metrô. A ascensão da autenticação de dois fatores torna o smartphone ainda mais necessário.

    Sem meu telefone eu nem consigo mais pedir comida no restaurante cheio de garçons onde estou sentado(!) – nem consigo acessar minhas contas de trabalho. Por que diabos eu tenho que carregar uma pequena lápide de plástico e vidro de seis mil reais só para pedir uma pizza? Por que tenho que carregar um rastreador apenas para fazer login na minha conta de trabalho?

    Amazon, Google, Facebook, Apple — e o resto da matilha — há muito perceberam que estão sentados em um tesouro de informações sobre quais sites visitamos, em que gastamos dinheiro, com quem conversamos, onde vamos e quais são nossos interesses. Além disso, por meio de Alexa, Siri, Roomba e outras ferramentas semelhantes, eles mapeiam nosso ambiente há anos. Conhecem a fundo nossa intimidade.

    Reféns

    Valentões nas redes sociais da extrema direita vivem a proclamar suas visões de liberdade de expressão absoluta. Há uma ironia cósmica no fato de eles usarem smartphones para suas diatribes.

    A degradação do ambiente de negócios, em que empresas fornecedoras de bens e serviços se transformam rapidamente em esquemas rentistas, somada à corrosão dos valores éticos tradicionais sob os quais o próprio capitalismo floresceu, tornam possível imaginar uma situação-limite em que, à medida que procuram continuamente novos fluxos de receita, as corporações acabarão por decidir nos cobrar para NÃO divulgar o conhecimento que acumularam sobre nós. Uma “taxa de proteção”, por assim dizer. Afinal, eles dirão, custa dinheiro manter em sigilo tudo o que eles sabem sobre nós – o que explica em parte por que eles já vendem nossas informações para empresas de marketing e grupos políticos.

    Por que essas corporações deveriam se contentar com a venda de nossos dados a apenas algumas centenas ou alguns milhares de empresas clientes, quando centenas de milhões de indivíduos podem [e talvez queiram muito] pagar para manter certas informações fora do alcance dos outros e do domínio público?

    O problema fundamental é que a eletrônica e o software hoje são projetados para servir aos interesses de seus desenvolvedores acima dos interesses de seus usuários. Não são apenas telefones. Corporações de todos os tipos nos rastreiam, nos medem, nos classificam. O mesmo acontece com nossas informações de cartão de crédito – todas as compras, registradas por hora e local.

    A questão não deve ser se e quanto rastreamento ou coleta de dados pessoais por fabricantes de dispositivos é aceitável. O debate deve ser sobre o que é do melhor interesse do usuário e o que o usuário realmente deseja que os serviços digitais façam com seus dados.

    É preciso criar consciência de consumo – assim como fizemos com o cigarro – e uma atitude crítica, de sistemática desconfiança com relação aos fornecedores de bens e serviços eletrônicos/digitais. É preciso criar salvaguardas legais e éticas para que software e dispositivos eletrônicos sejam obrigados a agir sempre como agentes do usuário [um exemplo clássico de como seriam tais salvaguardas – embora um pouco deslocado neste contexto – são as Três Leis da Robótica, de Isaac Asimov]

    O que me assusta é a falta de preocupação com a privacidade por parte dos “millenials”. A atitude dos jovens ao meu redor, dos filhos dos meus amigos, etc., é a de que, se eles não estão fazendo nada de errado, por que então se preocupar? Tento explicar a eles o que pode acontecer se um dia de repente alguém decidir que o que eles sempre fizeram se tornou ilegal, ou imoral. E o que acontece se alguém plantar falsas evidências de crimes em seus ambientes virtuais, ou dispositivos eletrônicos? Eles simplesmente não parecem entender a gravidade. Isso realmente me assusta e me faz perguntar a razão pela qual a privacidade foi permitida a se deteriorar a esse nível.

    Visão de uma Distopia

    Na Índia, carregar um smartphone se tornou absolutamente obrigatório [o que, por si só, configura cerceamento à liberdade]. Você não pode realizar nenhuma transação online sem um smartphone, porque por padrão os códigos das transações (OTP) são enviados para ele. Seu número de telefone se tornou sua identidade, e é usado como credencial de login na maioria dos sites.

    O pagamento por telefone tornou-se tão difundido que muitas empresas não mais aceitam dinheiro – elas não querem o incômodo de devolver troco, por exemplo. Os idosos e pessoas portadoras de deficiência lutam com as idiossincrasias de um smartphone: o wi-fi de repente desliga no meio da transação; golpistas pedindo para você repassar códigos OTP; robocalls te infernizando a cada cinco minutos; pop-ups aleatórios pedindo para você baixar coisas…. O horror, o horror.

    Nós brasileiros estamos caminhando rapidamente para uma situação de pesadelo como a vivida na Índia, considerando a falta de conhecimento tecnológico de nossas legislaturas e tribunais, combinada com a fraqueza e inação de nossas agências de regulamentação. Aqui no Brasil até mesmo a venerável e muy tecnológica Receita Federal nos obriga ao uso de software JAVA, escrito em código semi proprietário, na entrega da declaração de renda (o quão louco é isso?). E nem vou me dignar a comentar essa coisa gosmenta que é o Pix.

    Visão de outra Distopia

    Nos EUA, grupos antiaborto já estão usando as informações coletadas nas plataformas digitais – publicadas voluntariamente pelos usuários via smartphones – para espionar as pessoas, desde os aplicativos de fertilidade que rastreiam os ciclos menstruais das mulheres até o uso de tecnologia móvel de geo-fencing [perímetro virtual estabelecido por GPS] para bombardear com mensagens anti aborto as pacientes em, ou a caminho de, clínicas de aborto. Essa prática também tem sido cada vez mais adotada pelos órgãos de aplicação da lei através dos chamados “mandados para geo-fencing reverso”.

    Através do geo fence reverso em torno de clínicas de aborto a polícia pode, por exemplo, pedir ao Google informação sobre todos os que estiveram dentro de em certo raio a partir de um local específico, em um horário específico, com base nas informações em seus telefones. Então eles cruzam as informações para gerar possíveis pistas a partir disso.


    Vivemos na era da tirania do capitalismo de vigilância, é certo. A menos que muitas coisas mudem drasticamente, o que não prevejo, a privacidade não voltará.

    Por meu turno, só espero que um dia, depois que a neblina dessa época insana se dissipar, as pessoas – se ainda houver pessoas – tenham clareza mental para compreender – e lamentar – a dimensão do tesouro que foi perdido.

    Algo Sobre o Google para Animar a Blogosfera

    É uma injustiça, um verdadeiro crime, que, por causa de um mísero algoritmo, toda a Internet fique isolada, sem acesso aos nossos maravilhosos blogs, cheios de conteúdo, charme intelectual, tirocínio e estilo. Mas felizmente isso está para mudar.

    laptop-google
    Imagem: Pexels.com

    O Google anunciou ontem [18/08] que vai lançar atualizações em sua ferramenta de pesquisa nas próximas semanas, com o objetivo de facilitar o descobrimento de conteúdo de alta qualidade. Assim informa a reportagem do TechCrunch:

    As novas melhorias de classificação buscam reduzir o conteúdo de baixa qualidade ou não original – que atualmente goza de uma classificação alta nos resultados de pesquisa. O Google diz que a atualização terá como alvo o conteúdo criado especificamente para melhorar a classificação nos mecanismos de pesquisa – conhecido como conteúdo “SEO-first”.

    Os testes da empresa mostraram que a atualização vai melhorar os resultados que os usuários encontram ao pesquisar conteúdo, como materiais educacionais online, artes e entretenimento, compras e conteúdo relacionado à tecnologia [agradeço e coloco aqui um emoji de carinha agradavelmente surpresa].

    As novas atualizações devem ajudar a reduzir o número de sites de baixa qualidade nos resultados, aqueles que aprenderam a manipular o sistema otimizando o conteúdo para ter uma classificação alta nos resultados de pesquisa. O Google diz que os usuários vão começar a ver o conteúdo realmente útil receber uma classificação mais proeminente nos resultados de pesquisa.

    A empresa planeja refinar seus sistemas e desenvolver essas melhorias ao longo do tempo. “Com esta atualização, você verá mais resultados com informações exclusivas; assim é mais provável que você leia algo que nunca viu antes”, explicou a empresa em um post no seu blog.

    Fica patente que a proximidade do TikTok no mercado de pesquisa está deixando os executivos do Google nervosos. Espero que isso então signifique que blogs como este, e de tantos outros bons que eu sigo, na plataforma WordPress e em outras, terão de novo um lugar ao Sol.

    Obviamente deve ter ficado claro para o departamento financeiro que não haverá como vender links-lixo para os anunciantes se o público alvo se debandar pela falta de conteúdo original. De alguma forma os executivos da Alphabet entenderam que é necessário uma boa ancoragem de conteúdo nas páginas de resultados.

    Um outro mundo, um outro tempo

    Lembro-me daquele outro mundo, em que o AltaVista era a grande ferramenta de busca. Você conseguia exatamente o que pesquisava e sempre tinha que rolar por páginas e páginas de resultados, e refinar seus termos de pesquisa várias vezes, antes de encontrar o que queria – se é que conseguia encontrar.

    É fácil criticar o Google hoje, mas se você vivesse naquela época, perceberia o quão bons são os resultados de pesquisa do Google. O algoritmo ‘Pagerank’, que é o núcleo de todo o serviço, é uma maravilha da engenharia de sistemas, e não há dissenso quanto a isso. Experimente um mecanismo de pesquisa alternativo concorrente hoje. Acesse bing.com, yahoo.com ou brave.com. Esses sites talvez vão fornecer algum resultado que você deseja – mas que você provavelmente não deseja tanto quanto eles pensam que você deseja.

    As críticas ao Google, pelo menos as minhas, na verdade não são endereçadas à sua engenharia. Elas se referem a suas praticas intrusivas de coleção de dados; se referem ao domínio da privacidade, de como uma empresa brilhante se desviou ao longo do caminho.

    Como era e como é

    Não muitos anos atrás, era possível fazer duas coisas legais com o Google.

    • Você poderia inserir palavras-chave aproximadas e tentaria descobrir o que você realmente desejava entre todos os resultados retornados, ou
    • Você poderia colocar literalmente o que desejava encontrar, entre aspas, e isso forneceria exatamente o que você havia pedido.

    Isso parece não funcionar mais. Um exemplo: ao tentar pesquisar um trecho de uma obra da literatura é comum ter a primeira página de resultados completamente tomada de ofertas comerciais para adquirir a obra, em variadas mídias, e não uma referência acadêmica – ou mesmo apenas literária – ao texto pesquisado.

    Ou digite o número de uma peça, ou componente, ou chip, entre aspas, junto com a palavra ‘datasheet’ [folha de dados]. Será um milagre se você realmente conseguir um link para uma folha de dados. Você vai ter links para várias empresas não relacionadas, que tentam te vender coisas que não são relacionadas a qualquer palavra da sua consulta.

    Isso não está nem no nível de “resultados ruins”. Isso só pode ser descrito como completo fracasso.


    Mas nós sabemos que o fabuloso ‘Pagerank’ ainda está lá. Seria fantástico poder vê-lo funcionar de novo como em 2002. O Google certamente pode melhorar os resultados, se quiser, embora também seja fato que os caras de SEO vão sempre encontrar novas maneiras de colocar o lixo deles mais alto nas páginas de resultados.

    Eu aplaudo o Google e desejo sorte a eles. O Google não tem um bom histórico em cumprir compromissos, e nem de agir em favor do usuário ou da sociedade. Sempre convém manter um olhar cético ao lidar com eles. Tomando tudo com uma pitada de sal, saúdo meus colegas bloguistas, na expectativa de bons tempos à frente. Ao sucesso!

    Nota: Há muitos anos eu uso duckduckgo como ferramenta de pesquisa na web.


    Post Scriptum

    Eu me pergunto quanto mais os grandes meios de comunicação serão rebaixados em sua dignidade pelas ferramentas de pesquisa. Nos Estados Unidos já surgiu a expressão churnalism [de churn – agitar]. Definição da Wikipedia (inglês):

    Churnalism é um termo pejorativo para uma forma de jornalismo em que press-releases, histórias fornecidas por agências de notícias e outras formas de material pré empacotado, em lugar de notícias reais buscadas no campo, são usadas para criar artigos em jornais e em outras mídias de notícias. É uma junção de “churn” e “jornalism”. Seu objetivo é reduzir custos diminuindo as despesas com coleta de notícias originais e com verificação de fontes.

    O churnalismo praticamente se tornou a norma dos dias correntes. Acesse o site da UOL para ver por si mesma(o). O churnalismo é exatamente o motivo pelo qual temos problemas com as proverbiais ‘fake news’ em primeiro lugar.

    ‘Inteligência Artificial’ e o Futuro das Artes Digitais

    Eu leio os jornais. Eu vejo o ritmo do ‘progresso’. Eu entendo como esses novos modelos de aprendizado de máquina funcionam em um nível técnico e estou impressionado com a rapidez com que eles estão se desenvolvendo.

    artista-digital
    Imagem: Pexels.com

    Francamente, eu não espero que a arte digital feita por humanos (imagens, vídeos, filmes, música, texto) sobreviva mais uma década. O que espero é que pouca ou nenhuma arte digital seja vendida com lucro por artistas humanos daqui a dez anos, e a única razão pela qual não estendo esse raciocínio para mídias físicas como escultura ou arte de rua é que eu não sei se teremos robôs hábeis o suficiente para fazê-las – embora seja inevitável que robôs habilidosos surjam em algum momento, na duvidosa hipótese de que a civilização sobreviva.

    As pessoas frequentemente vão buscar o exemplo da pintura e da fotografia para defender a ideia de que inteligência artificial (IA) não vai realmente acabar com o mercado de arte, mas eu simplesmente não vejo esse exemplo como válido. A fotografia e a pintura sobreviveram porque são fundamentalmente diferentes e podem ser facilmente distinguidas, desde que seus respectivos criadores optem por se diferenciar.

    A arte da IA é diferente, porque seu propósito específico é replicar. Não importa o que os artistas humanos façam com a mídia digital, a IA sempre vai estar lá para engolir as mudanças de qualquer nova onda e aprender a replicá-las.

    O advento da fotografia nunca teve a intenção de matar a indústria da pintura. Contrariamente, esses algoritmos de IA, gestados nas grandes corporações de tecnologia, têm como objetivo manifesto matar a indústria da imagem.

    Sobre a Excelência na técnica

    Leonardo da Vinci não apenas pegou um pincel, compôs a Mona Lisa e se proclamou mestre. Ele construiu suas habilidades como aprendiz em oficinas, fazendo obras acessórias, figuras de fundo e encomendas menores. É esse trabalho que cria a oportunidade para que obras-primas aconteçam. Se esse ambiente desaparecer, o topo da elite artística será afetado. Existe algo único no equilíbrio entre ser ousado o suficiente para se destacar da multidão, mas ao mesmo tempo acessível o suficiente para um apelo mais amplo.

    No momento, os modelos de aprendizado de máquina ainda são fracos, mas já são fortes o suficiente para tirar 90% dos artistas digitais do mercado. Com o custo próximo de zero, as pessoas não vão mais reutilizar nada. Vão gerar algo novo para cada coisa que fizerem. Não tenho certeza se há algo que possa ser feito para evitar esse futuro. Penso que devemos começar reconhecer que muita coisa vai se perder nessa revolução. Também duvido que artifícios sociais como bolsas de estudo e programas de residência possam deter o avanço das máquinas simplesmente jogando dinheiro no problema.

    Otimistas

    Há um lado otimista nesta questão. Seus lugares-tenentes sustentam que não precisamos temer a arte da IA. Na verdade, os artistas podem até querer agradecer.

    Segundo os otimistas, há muito tempo os artistas sentem uma espécie de tédio por causa da falta de um caminho claro para a inovação ou para criação de algo “novo” e inspirador. As coisas tornaram-se obsoletas e excessivamente mercantilizadas, com músicos, fotógrafos, pintores, etc. muitas vezes confessando que o que eles criam não passa de recauchutagem de ideias desgastadas – admito que qualquer artista ligado na cena vai mesmo dizer que não há mais muita arte inspiradora.

    A IA essencialmente reorganiza motivos antigos de novas maneiras. É um dispositivo de permutação que mostra o estado da arte atual (na qual é baseado o treinamento dos modelos) aplicado a situações arbitrárias. Os artistas podem usá-lo como ferramenta para encontrar um espaço onde uma nova exploração seja possível e, finalmente, começar a criar arte inspiradora novamente.

    este-cara-nao-existe
    Imagem gerada no popular serviço Esta Pessoa Não Existe. É uma imagem criada com o uso de redes GAN – Generational Adversarial Network.

    Os otimistas ainda consideram que o que está sendo banalizado agora é apenas a transformação das obras mesmas em espaços de ideias digitalmente definíveis: crie uma nova ideia em arte, dê a uma máquina representações suficientes e ela pode gerar infinitamente novos trabalhos dentro desse espaço.

    A corrente otimista argumenta que certas coisas vão escapar à banalização. O que ainda não pode ser banalizado seria:

    1) Novos espaços de ideias. A IA é incapaz de gerar algo que possa ser definido como um novo movimento artístico.

    2) Novas mídias. Algo como Dall-E [ver nota no final] vai aparecer, mais cedo ou mais tarde, para gerar arquivos CAD. Contudo, há muitas expressões artísticas que não serão fisicamente reproduzíveis por um computador. As obras nessas mídias permanecerão valiosas ou até aumentarão de valor. E embora a IA possa gerar novas ideias nesses espaços, será necessário que haja pessoas que decidam se esforçar para executá-las.

    3) Curadoria. Decidir quais ideias (geradas por IA ou não) merecem atenção.

    Take final

    Comecei a investigar este assunto na década passada, e as evidências me sugerem que começaremos a ver todas as atividades humanas enfrentando um declínio salarial anual de 6 a 12% a partir de agora. Uma máquina já pode fazer trabalho humano bem o suficiente para substituí-lo ou substituir mais de 90% das pessoas no trabalho que elas fazem, deixando o resto brigando por migalhas.

    A parte criativa e sensível do seu trabalho, que uma máquina não pode fazer, pode parecer muito importante para você, mas o chefe do chefe do seu chefe provavelmente não se importa com isso, já que a mediocridade escalável é mais lucrativa do que qualquer “extra” que um humano possa oferecer.

    Na verdade, a já envelhecida queixa das empresas de que “existe-trabalho-mas-ninguém-está-qualificado” é uma grande balela. Os mesmos executivos que dizem isso estão espremendo seus gerentes de linha, ao não deixá-los contratar auxílio e forçá-los ao trabalho cada vez mais pesado.

    A tendência de longo prazo dos salários é de queda. Os mercados de trabalho não parecem mais se comportar como o da oferta e procura de bens. Nesse mercado as curvas não mais encontram equilíbrio. Elas divergem.

    Não se trata apenas de AI Art, e outras macaquices digitais. Estamos muito provavelmente caminhando para um colapso salarial generalizado e de base ampla em todo o mundo, e esse tipo de situação provavelmente resultará em um conflito global entre pessoas e capital, no qual a) todo um sistema socioeconômico é derrubado, ou b) a humanidade é lançada na escravidão da qual é improvável que se recupere.


    Nota: DALL·E é uma versão do GPT-3 [Generative Pre-trained Transformer – Transformador Generativo Pré- treinado] com bilhões de parâmetros, treinada para gerar imagens a partir de descrições de texto [ex: “ovelha a tocar piano em um navio”], usando um conjunto de dados de pares de texto-imagem. Ele tem um conjunto diversificado de recursos, incluindo a criação de versões antropomorfizadas de animais e objetos, combinando conceitos não relacionados de maneiras plausíveis, renderizando texto e aplicando transformações a imagens existentes.

    Leitura recomendadada

    https://arxiv.org/abs/2005.14165

    https://openai.com/blog/dall-e/

    Só no Brasil: O Primeiro Território Não-fungível do Mundo

    Um projeto chamado Nemus Earth surgiu em março, oferecendo a venda de um NFT Ethereum para quem quiser se tornar um “Guardião” da floresta amazônica brasileira.

    Imagem: Pexels.com

    Eu detesto dar moral para estelionatários internéticos, mas aqui está o link. O projeto tem planos grandiosos para criar um “cinturão de proteção” na Amazônia brasileira para concentrar os esforços de combate ao desmatamento. O material de divulgação do projeto se esforça para explicar que “a atividade econômica é necessária” na terra que eles vão comprar e traça um plano para empregar os indígenas da área na extração da castanha-do-pará em uma plantação abandonada — que o projeto pretende “revitalizar”.

    Os autores descrevem a “cooperação” com a população local, que irá “desbloquear a riqueza geracional para essas comunidades”, embora não haja nenhum plano concreto para que essas pessoas realmente se juntem à comunidade de “Guardiões” ou encaminhem alguma opinião sobre a governança do projeto.

    Outras atividades econômicas planejadas pelo projeto envolvem “silvicultura sustentável”, “capacitação das autoridades policiais locais”, atividades envolvendo drones e, claro, geração de compensações de carbono para outros projetos.

    Poluir para proteger

    O prospecto da entidade informa que a iniciativa será implementada na blockchain Ethereum. O projeto, cujo objetivo declarado é a conservação ambiental, aparentemente decidiu esconder dos potenciais guardiões o enorme consumo de energia, emissões de poluentes e resíduos eletrônicos decorrentes do processamento de qualquer blockchain, incluindo a do Ethereum.

    O projeto abriu sua segunda rodada de “cunhagem” em 3 de março e está oferecendo seus NFTs por preços entre 0,06 ETH e 19,44 ETH (US$ 150 a US$ 50.000).

    Em 20 de julho, eles emitiram um comunicado à imprensa alegando que “o primeiro território não fungível do mundo foi oficialmente nomeado por indígenas no Brasil em conjunto com a Nemus” [nota de VL: tsc, tsc, tsc]. A empresa afirma possuir 41.000 hectares de terra na Amazônia.

    Entra a Cavalaria

    Em 25 de julho, o Ministério Público Federal (MPF) divulgou um comunicado dando conta que havia exigido da Nemus comprovação de propriedade das áreas que reivindica, esclarecimentos sobre os projetos on-line que prometeram realizar e a comprovação de que receberam autorização da Fundação Nacional do Índio (FUNAI) ou de qualquer outro órgão público que lhes permita atuar na área e se engajar com os diversos grupos indígenas.

    De acordo com o MPF, integrantes de grupos indígenas da região denunciam que a empresa violou seus direitos. Eles também relataram que a Nemus havia manifestado planos de usar máquinas pesadas para abrir uma pista de pouso e construir uma estrada para acessar os castanhais da região.

    As lideranças dos Apurinã alegaram que os representantes da empresa pressionaram os indígenas – que não lêem bem – a assinar os documentos (dos quais não forneceram cópias).

    http://www.mpf.mp.br/am/sala-de-imprensa/noticias-am/mpf-aciona-empresa-que-vende-ativos-digitais-nfts-de-areas-da-amazonia

    Essa empresa não é a única a se aventurar na hiléia. Outras, como SuperWorld, Moss, etc., estão trabalhando a todo vapor para vir buscar sua fatia nesse comércio. Assim, a farra dos NFT’s encontra o caos administrativo da Amazônia. O que poderia dar errado?

    Post Scriptum

    Ao escrever este post eu descubro, com tristeza mas não surpresa, que não há na Internet em português nenhum tópico (semi) autoritativo que seja [ex: Wikipédia] que contemple o termo hiléia [aqui um link relacionado ao tema]. Isso é inaceitável no maior país Amazônico e suposto líder mundial da biodiversidade. O que duzentos milhões de brasileiros fazem o dia todo? Será que alguém poderia dar um tempo no Facebook para fazer um mísero texto sobre a Amazônia? Eu já tenho meu tempo ocupado aqui com os problemas da computação, segurança e privacidade, e não posso fazer tudo, ok? Me ajude aí!

    Outro problema típico – e recorrente – da incúria [ou da proverbial preguiça] do Patropi é o total desleixo com a administração de muitos sites dos vários níveis de governo. O site governamental que vinculei neste texto, nada menos que o site do Ministério Público Federal, está com o certificado de segurança vencido. Cuidado ao visitar [ou simplesmente não visite]. Assim realmente não dá!

    Ps do Ps

    Para terminar em alto astral, informo aos leitores que estou produzindo um conteúdo muito bom – e um tanto longo – sobre a Libra Esterlina, que pretendo publicar na semana que entra. O post vai trazer um infográfico inédito que concebemos para facilitar o entendimento de quais e como eram as denominações e frações da Libra antes da decimalização, em 1971. Ele é o resultado de minhas pesquisas para desenvolver um módulo universal de conversão de moedas.

    Fiquei muito satisfeito com o trabalho – do qual não encontrei equivalentes na Internet – e estou ansioso para publicá-lo. Será muito interessante para os anglófilos, estudantes e curiosos em geral [inclusive os ingleses, que poderão se perguntar porque nunca houve um material visual oficial para explicar a Sterling aos povos bárbaros]. Com esse material poderá vir o tão esperado salto de audiência para este blog. Fingers crossed.

    https://twitter.com/VoxLeone