Reflexões sobre ‘AI Art’ no Início de um Ano

O aparecimento de ferramentas muito sofisticadas de redes neurais no fim do ano passado, inaugurou uma crise existencial nas artes e na tecnologia. Proponho começar o ano do blog com esse assunto.

Quadros em uma parede
Imagem: Pexels

Estivemos atentos ao notável desfile de novas ferramentas de Inteligência Artificial apresentadas durante o ano passado.

As novas tecnologias de fato apresentam desafios aos artistas, o que sempre aconteceu. Mas não tenho certeza se o desafio da arte feita com inteligência artificial é tão diferente do desafio da arte feita por primatas ou elefantes. Ambos os casos revelam o problema subjacente de definir a arte em nosso tempo.

Historicamente e transculturalmente, a arte sempre teve muitas definições e serviu a muitas funções. Me parece necessário oferecer um contexto mais amplo para esta discussão, que até agora tem sido um tanto estreita e árida – mas isso é verdade para quase todas as discussões sobre arte em nosso tempo, não apenas para as deste assunto.

A noção atual de arte surgiu após o advento de duas novas tecnologias:

  • (a) fotografia,

que levantou questões sobre continuar a usar métodos mais antigos de imitar a natureza, e

  • b) fotografia reproduzida em massa (incluindo cinematografia),

que levantou questões sobre a singularidade – entendida como convergência de tecnologias – e da inovação como características definidora da arte. Mas é preciso observar que a arte é uma característica universal do gênero humano. Nem toda pessoa produz arte ou se interessa por ela, mas toda sociedade humana se preocupa com ela. Nem todas as sociedades, no entanto, definiram a arte da mesma forma ou atribuíram-lhe as mesmas funções.

O propósito da arte às vezes tem sido codificar simbolicamente e, assim, preservar o conhecimento prático, como quais plantas são comestíveis e quais não são. Ou para sinalizar o status e o poder de potentados. Ou para celebrar os ancestrais (como os totens da América do Norte). Ou, como objetos sacramentais, para mediar o sagrado. Ou para ajudar na meditação. Ou para promover a apreciação da beleza.

A arte segundo diversos povos

Ao contrário dos gregos, os egípcios não valorizavam nem a singularidade nem a inovação em si. Pelo contrário, valorizavam a fidelidade à tradição. Seus estilos artísticos mudaram, lentamente, mas não porque eles sentiram qualquer necessidade de experimentar ou melhorar paradigmas antigos.

Os chineses seguiram esse padrão. Eles também não valorizavam a inovação. Os artistas podiam pintar o mesmo ramo de bambu repetidamente, durante anos, antes de encontrar sua essência. Eles queriam que os artistas descobrissem o eterno Tao na natureza e o transmitissem em termos visuais.

Da mesma forma, os japoneses não restauravam seus templos. Em vez disso, eles continuavam a reconstruir essas estruturas – isto é, a reproduzir os protótipos exatamente da mesma maneira, de novo e de novo.

No Ocidente, os artistas medievais raramente assinavam suas próprias obras. Tampouco estabeleceram a iconografia – tarefa que a Igreja realizou por eles. Até hoje, os cristãos ortodoxos orientais recriam ícones antigos. Eles valorizam artistas que demonstram piedade pessoal acima da ambição pessoal.

No momento, como eu já disse, a arte é definida quase exclusivamente em conexão com a singularidade e a inovação. Os artistas não passam mais fome nos proverbiais sótãos na margem esquerda do Sena, mas tentam conquistar uma imagem pública de figuras de vanguarda na luta contra os “valores burgueses”.

Muitos artistas descrevem seu trabalho em conexão com a reforma ou revolução social e política. Outros artistas, seguindo a tendência contemporânea ao individualismo, usam seu trabalho para se expressar psicologicamente.

Outros tantos artistas usam linguagem científica para descrever seu trabalho, como se estivessem fazendo experimentos para aprender sobre a física da luz ou dos fenômenos ópticos. Nesse contexto, faz sentido questionar se uma obra de arte é original (com valor artístico e financeiro) ou cópia (com pouco ou nenhum valor).

Concluo

Um crescente número de pessoas ligadas à arte parece rejeitar qualquer linha dura de separação entre arte e mero artifício – me ocorre que alguns dos mais hábeis pintores de cavernas também poderiam considerar uma tela de tecido trapaça.

Na minha opinião, as tecnologias emergentes devem ser rotuladas como tal, para que possamos ver o que ela realmente tem ou não, e chegar mais perto de uma avaliação honesta assim que nossa indignação diminuir. Duvido que alguma inteligência artificial possa produzir algo que rivalize com as grandes e eternas obras de arte. Mas se chegar a tanto, que se mantenha-o rotulado como “Produzido por IA” [por favor].

A máquina mais sofisticada em existência não se pode comparar nem remotamente, no sentido verdadeiro, ao ser humano. Há uma diferença categórica. Uma inteligência projetada não cria verdadeiramente seu output, pelo menos não ainda. E se consideramos elementos como “musas”, “inspiração” e coisas do gênero, talvez os grandes artistas também não criem todas as suas obras espontaneamente.

Mas uma pessoa não se safaria levando o crédito pela beleza de uma paisagem selvagem. E um zircônio não pode reivindicar legalmente ser um diamante (mesmo que tenha personalidade). A distinção entre beleza natural, humana e a simulada por máquina permanece significativa – pelo menos por enquanto.

Parece improvável que isso mude completamente, mas se estamos indo em direção a uma completa indistinção entre homem e máquina, eu “exijo” que mantenhamos o controle e coloquemos carimbos de identificação em nossos Senhores Robôs.

ChatGPT, o Grande Ceifador de Carreiras

Eu ainda não experimentei o aterrorizante ChatGPT, que dominou a pauta da mídia tecnológica nos últimos dias – e por um bom motivo.

Imagem: pexels.com

Tenho comentado sobre outros desenvolvimentos igualmente notáveis no campo da pesquisa de redes neurais, tentando acompanhar a sucessão de anúncios de implementações cada vez mais sofisticadas. Contudo, o ChaGPT supera qualquer tecnologia de inteligência artificial discutida aqui por uma ampla margem, com seu enorme potencial para desagregar a sociedade como a conhecemos.

Experimentos

Talvez do interesse de alguns leitores do blog. Um amigo que trabalha em um grupo de desenvolvedores de software excepcionalmente brilhantes e talentosos (chamarei de “Grupo”), me contou que passou algum tempo fazendo experimentos com o ChatGPT (chamarei de “Bot”).

Caso A

Eles pré-selecionaram um determinado grupo de candidatos a emprego em sua empresa com uma série de desafios de programação. Isso é procedimento padrão em empresas de tecnologia nos EUA, onde os experimentos aconteceram.

Bot passou nos testes com honras. Concluíram que a menos que haja um temporizador de digitação no sistema, não é possível distinguir os candidatos humanos dos bots.

Claro, alguém já deve ter um simulador de digitação humana para camuflar o copiar-colar do Bot.

Caso B

O empregador do Grupo tem uma equipe de desenvolvedores dedicada à manutenção de software legado, ou mesmo “morto”. O Grupo alimentou o Bot com módulos reais de algumas aplicações da empresa, configurando os prompts para certas ações literais (“modificar para…”) a serem executadas nos códigos de baixo desempenho.

O Bot executou atualizações do software e fez correções nas falhas.

Caso C

Alguém do Grupo solicitou ao Bot o código de uma função para realizar uma determinada computação. Embora a função necessária não seja muito complexa, ela requer um conhecimento altamente específico do domínio.

Depois de várias tentativas, o Grupo conseguiu que o Bot escrevesse a função correta, usando prompts apenas para orientação, sem revelar à máquina o necessário saber para escrever a função.


A opinião do meu amigo é que, para muitas tarefas básicas na codificação de software, pedir ao Bot para escrever uma função para um humano depois corrigi-la ou ampliá-la conforme necessário vai, em breve, fazer parte de qualquer processo eficiente de desenvolvimento de software — e será inevitavelmente incorporada ao fluxo de trabalho de praticamente todas as atividades do setor de serviços.

Separadamente, meu amigo gosta de escrever ficção. Ele deu ao Bot uma passagem, pedindo-lhe que a reescrevesse “no estilo de” vários autores publicados.

Depois de completada a tarefa, ele olhou para as versões e julgou que algumas das mudanças melhoraram o fluxo ou a expressividade do texto de uma forma que ele mesmo não havia considerado.

Ele descreve o Bot como “uma tecnologia altamente disruptiva”. “Se pensarmos que isso não vai mudar – ou até extinguir – nossas carreiras, podemos nos surpreender.”

Se você pode ler isto, você é a Resistência

De agora em diante, temos que tratar tudo o que vemos na Internet como potencial lixo de IA. A galeria de fotos de um artista? A resposta que parece perfeita no StackOverflow? Aquele artigo inspirador no jornal? Aquele videozinho viral? O livro na Amazon? Eles são todos lixo de IA em potencial. Lixo fascinante, mas lixo mesmo assim.

A invasão dos robôs começou há 15 anos, na maior parte despercebida. Estávamos esperando robôs assassinos, mas não percebemos que lentamente afogávamos em lixo midiático gerado por IA. Nunca lutaremos contra Exterminadores usando laser. Em vez disso, nos sujeitamos diariamente a algoritmos que nos tornam estúpidos o suficiente para lutar uns contra os outros.

Talvez seja a hora de entrar para a resistência; de ser e agir como seres humanos decentes. Desconectar. Ir para fora. Iniciar discussões humanas. Recusar a tomar como certo “o que foi postado na Internet”. Encontrar pessoas. Toque. Cheiro. Construir negócios locais. Fugir dos monopólios. Recusar-se a compartilhar por impulso. Parar de chamar perfis de desconhecidos “comunidade”. Juntar-se a web rings e à blogosfera humana – enquanto ainda se pode distinguir. Acho.

Como reconhecer verdadeiras comunidades humanas livres de interferências algorítmicas?

Não sei. Eu nem sei se sobrou alguma. Isso é assustador. Mas, enquanto pudermos desligar o plugue, podemos resistir. Desconectar!

Stable Diffusion: Variações Sobre um Leão

Uma postagem visual para suavizar o mais vital de todos os fins de semana da história brasileira. Minha exploração da arte digital baseada em Difusão Latente continua.

Meu pequeno logotipo é uma linda obra de arte, que chegou às minhas mãos na adolescência e que tenho até hoje. É uma charge de jornal – estrangeiro – do início do século 19, cujo o autor eu ainda não identifiquei, mas sigo procurando.

A arte, sobre a qual ainda falarei mais, mostra um leão exibindo seu perfil direito, em atitude heráldica “couchant”, habilidosamente inscrito no contorno da América do Sul. Um autêntico achado geométrico. É uma imagem evocativa de um Brasil grande e forte, estendendo seu olhar sobre o Atlântico sul.

É uma imagem que resume as aspirações da nação quando eu era jovem. É também uma imagem austera, que se pretende heráldica ao invés de fruto de design; vai contra o pós modernismo vigente, mas aqui no blog essa é exatamente a ideia.

Este blog existe por causa desta imagem; foi olhando para ela em pensamento profundo que me inspirei. “A voz do leão”, para tentar falar de tecnologia e ciência para a lusofonia, com um ‘modicum’ de profundidade – sem dar muita bola para o estilo superficial preferido nas redes sociais — como as pessoas fazem nos centros avançados do mundo. O Brasil é o Leão.

Eu quis fazer variações para poder usar a imagem em outros contextos que exijam um ‘look’ mais contemporâneo — com resultados medianamente animadores. Lancei mão da Stable Diffusion e, abusando da engenharia de prompt, passei algumas horas agradáveis tentando fazer arte. Aproveitei para usar o gadget ‘galeria de slides’ do WordPress pela primeira vez.


Não sei se verei esse Brasil grande, que faz tecnologia, que lança foguetes e satélites e junta à elite material do mundo. Se depender da classe política que aí está eu duvido muito que cheguemos lá. Foi sob a batuta do Ministro da Tecnologia, um aviador e astronauta formado por um instituto de tecnologia, que eu testemunhei o maior [talvez o único] desmonte deliberado de políticas tecnológicas do estado brasileiro em toda história [a começar do programa espacial, que se encontra desativado desde 2003].

Que o Brasil possa se reencontrar a partir das eleições de amanhã. Boa sorte a todos.

O Fantasma na Máquina Inteligente

O mundo moderno usa o termo “robô” para se referir a dispositivos eletromecânicos que executam trabalhos anteriormente realizados por humanos; a origem do termo é a palavra checa robotnik.

Imagem: Pexels

Segundo o site etymonline.com robotnik significa, “pessoa mecânica”; também “pessoa cujo trabalho ou atividades são inteiramente mecânicos”, da tradução inglesa da peça “R.U.R.” de 1920 (“Robôs Universais da Rossum”) de Karel Capek (1890-1938); “trabalhador forçado”, de robota “trabalho forçado, serviço obrigatório, labuta”.

Há um certo consenso acadêmico de que a abolição do trabalho servil foi o que deu início à mecanização; que o principal efeito da emancipação do campesinato foi possibilitar a industrialização da lavoura: “Os grandes latifúndios, livres do servo ineficiente, poderiam ser conduzidos de forma mais econômica. Os arados a vapor da Hungria, uma característica marcante do final do século XIX na Europa continental, foram o resultado da emancipação camponesa”[0].

E essas inovações eram todas subprodutos do mesmo frenesi de criatividade. Em 1745 de Vaucanson inventou, entre outras coisas, o primeiro tear automatizado: um desenvolvimento que mais tarde desempenharia um papel crucial na mecanização das formas de trabalho que antes eram exclusivas de humanos.

Trabalho, trabalho e trabalho

E o que deveria nos preocupar é menos se as máquinas se tornarão sencientes, mas quais serão os efeitos de uma mecanização cada vez maior sobre os humanos.

Marx [é impossível falar de trabalho sem citar Marx, sorry] observa em O Capital (1867) que “A história não revela nenhuma tragédia mais horrível do que a extinção gradual dos tecelões artesanais ingleses”. No mesmo espírito, para termos um vislumbre do que os avanços na robótica humanoide prometem para nossas vidas, considere “Quinn“.

Quinn é um conceito [ainda primitivo] de um robô de atendimento ao cliente: em vez de pagar salários a vários humanos, um hoteleiro, por exemplo, pode instalar um Quinn nos balcões de toda sua cadeia, supervisionado por apenas um par de operadores remotos, capazes de intervir se uma consulta se tornar muito complexa para a máquina.

Mais abaixo na escala, as onipresentes máquinas de self-checkout são efetivamente dispositivos como o Quinn, só que mais insuspeitos, que transferem o fardo de fazer sentido para o cliente e a solução dos problemas operacionais para uma equipe de supervisores. E esse deslocamento da habilidade e da inteligência humana, por sua vez, reorganiza o trabalho humano para atender as prioridades da máquina.

Marx [sorry, again] descreveu a maneira como as linhas de montagem das fábricas obrigavam os trabalhadores humanos a adaptar seus movimentos, velocidade de trabalho e comportamento às demandas da máquina, em vez de empregar as ferramentas de trabalho de acordo com um padrão de movimento humano. O mesmo vale para todas as ondas de automação subsequentes, incluindo a atual.

O Turco Mecânico

Em 1770, a Imperatriz Habsburgo Maria Teresa e sua corte ficaram maravilhados com um verdadeiro prodígio da engenharia moderna: uma máquina humanoide capaz de derrotar um oponente humano no xadrez.

O dispositivo consistia em uma figura em tamanho natural, vestida no estilo “oriental” e sentada em frente a um tabuleiro de xadrez. Quando derrotou vários adversários na corte, foi uma sensação: amplamente conhecido como o “Turco Mecânico”, percorreu a França, a Grã-Bretanha e os Estados Unidos, durante os quais disputou muitos jogos, inclusive contra Napoleão e Benjamin Franklin.

O Turco Mecânico – Imagem: Domínio Público

O único problema: o Turco Mecânico era falso. Embora a complexidade da farsa fosse em si um feito de engenharia notável, a inteligência do jogo de xadrez era fornecida por um humano habilmente escondido dentro da “máquina”.

No século 21, o Turco Mecânico dá nome a uma plataforma online [“Mechanical Turk” ] cujo produto é tornar o trabalho repetitivo e monótono de rotulação de dados no treinamento de sistemas inteligentes acessível para qualquer pequeno negócio, através da terceirização da atividade para trabalhadores remotos, que recebem tão pouco quanto US$ 0,97 por hora. Cortesia da Amazon.

Encontramos muitos desses “fantasmas humanos na Máquina Inteligente”: por exemplo, os trabalhadores de atendimento da Amazon, ‘otimizados’ pela vigilância algorítmica até o ponto de ruptura (e fazendo xixi em garrafas, como se tornou notório); ou os moderadores de conteúdo das redes sociais, se virando na gig-economy e lutando com o trauma provocado pelas coisas horríveis com as quais eles lidam em seu trabalho.

E existem até mesmo humanos, escondidos na IA tão desconfortavelmente quanto o operador oculto do Turco Mecânico, cujo papel é compensar o deficit na “inteligência” muda das máquinas. Veja, por exemplo, as pessoas contratadas para se passar por chatbots em empresas que querem parecer ultrassofisticadas.

Quero falar com um humano

A convergência entre humano e máquina, por sua vez, torna a humanidade real um luxo. Assim como a tecelagem mecânica tornou os tecidos baratos, os tecidos feitos à mão agora são extremamente caros – assim como qualquer coisa criada à mão com habilidade artesanal genuína. Da mesma forma, como o setor de hospitalidade se automatizou e despersonalizou durante a epidemia da Covid, as viagens “sem contato” tornaram o contato humano um extra premium – porque o que as pessoas realmente querem é conversar com um humano. Um canal da indústria hoteleira descreve a assistência humana hoje como um diferencial, “a marca registrada de uma viagem de luxo”.

Portanto, não importa se existem autômatos capazes de reproduzir fielmente o aspecto humano. Os que são lançados na economia de escala não se preocupam em buscar a verossimilhança, e são estes os que estão a transformar mais radicalmente nossas vidas.

Enquanto nos maravilhamos (ou estremecemos) com os simulacros quase perfeitos que chegam quase a convencer [ver uncanny valley] e toleramos entorpecidos os que não convencem, cada avanço na robótica reordena outra onda de trabalho humano às prioridades da máquina. E cada vez que o fazem, outra faceta do calor humano, inteligência e habilidade torna-se um extra premium, para os poucos sortudos.

Penso, logo existo

E o que deveria nos preocupar é menos se as máquinas se tornarão sencientes, mas quais serão os efeitos de uma mecanização cada vez maior sobre os humanos.

O avô do argumento de que a senciência humana é gerada a partir de processos fundamentalmente diferentes dos algorítmicos, ou mesmo de qualquer física atualmente compreendida, é nosso mais eminente matemático/físico e vencedor do Prêmio Nobel, Sir Roger Penrose. Noto aqui que os contra-argumentos penrosianos exigem um mergulho nos teoremas da incompletude de Gödel e na natureza do Problema da Parada na computação.

E nesta área não há lugar melhor para se pesquisar do que nos livros sedutoramente bem escritos de Roger Penrose, ‘The Emperor’s New Mind’ e ‘Shadows of the Mind’. Em resumo, Penrose implica uma distinção entre consciência e inteligência. Ele afirma que a consciência não é algoritmicamente explicável — embora ele não se refira propriamente à ‘inteligência’ neste contexto.

Pessoalmente falando, pensei por décadas que a senciência humana sempre seria inatingível pela inteligência de máquina gerada por algoritmos, mas não tenho mais certezas a esse respeito. Não acho que tenhamos uma maneira real de distinguir entre a inteligência humana e a inteligência da máquina e, por extensão, não temos como afirmar que a inteligência da máquina não exibirá algumas características da senciência. .

Chomsky argumentou que os humanos nascem com um senso inerente às estruturas da linguagem. E se isso for verdade, que implicações isso tem para a capacidade das máquinas de replicar habilidades linguísticas? E como os humanos diferem das máquinas nesse aspecto? O maior problema que temos é aquele com o qual Wittgenstein também lutou – o uso e as limitações da linguagem. Como saberemos se estamos todos discutindo o mesmo assunto?


[0] – The Habsburg Monarchy 1809–1918 – AJP Taylor

A.I. Art – Meus Experimentos com o Incrível ‘Stable Diffusion’

Se você não está prestando atenção ao que está acontecendo com o súbito aparecimento da Difusão Estável, você está perdendo um momento realmente interessante na história da tecnologia.

Imagem: Pexels.com

Tudo começou quando há dez dias, em 22 de agosto, a start-up Stability.ai abriu o código-fonte de sua plataforma de síntese de imagem chamada Stable Diffusion – uma arquitetura de difusão latente semelhante ao DALL-E 2 do OpenAI e ao Imagen do Google, treinada com milhões de imagens extraídas da web. Desde então a tecnologia tem desfrutado uma contínua explosão de interesse.

Ao contrário do conteúdo deepfake baseado em autoencoder, ou das recriações da figura humana que podem ser alcançadas por Neural Radiance Fields (NeRF) e Generative Adversarial Networks (GANs), os sistemas baseados em difusão aprendem a gerar novas imagens adicionando ruído às imagens usadas como fontes. A reiteração desse processo ensina o sistema como fazer imagens plausíveis – e até foto-realistas – a partir apenas desse ruído.

Modelos baseados em difusão aprendem a reconstruir fotos adicionando ruído a imagens “não contaminadas” e observando a relação elas e a imagem “contaminada” à medida que mais ruído é adicionado. Imagem: Google

Com a repetição do processo, o modelo começa a entender as “relações latentes” entre fontes altamente difusas e suas versões nítidas e de maior resolução. Depois de bem treinado, um modelo de difusão latente do tipo “texto-para-imagem” pode então “recuperar” imagens, separando-as do ruído de base usando prompts de texto como guias para quais elementos recuperar.

Em apenas alguns dias, houve uma explosão de inovação em torno deste processo. As coisas que as pessoas estão criando são absolutamente surpreendentes.

Tenho acompanhado o subreddit r/StableDiffusion e seguido o fundador da Stability, Emad Mostaque, no Twitter.

Minhas experiências

No início desta semana eu comecei a fazer experimentos com a tecnologia. O mínimo que posso dizer é que gerar imagens a partir de texto é um jogo totalmente novo.

Com os modelos “texto-para-imagem”, as habilidades linguísticas adquirem muita importância, à medida que a precisão conceitual na composição do chamado “prompt” vai determinar o resultado final do trabalho. No estágio atual da tecnologia, o prompt deve ser composto em inglês. Eu suponho que uma interface em português vai surgir em algum momento – farei minha contribuição na medida do possível.

Minhas explorações mostradas aqui foram feitas na plataforma online beta.dreamstudio.ai (atualmente grátis). A conta no site permite a geração de 200 imagens, antes de começar a monetizar. Já existem muitos outros sites parecidos, e novos aparecem todo dia.

Canalizei meu Roger Dean interior e comecei a esboçar algumas coisas. Depois de uma manhã eu já tinha uma pequena coleção para curtir e mostrar:

  • Um Sonho de São Paulo

Eu gosto do estilo matte paint, e minha primeira ideia foi investigar como São Paulo apareceria como um cenário a la Blade Runner.

Um sonho de São Paulo
Prompt usado: A dream of Sao Paulo city, Caspar David Friedrich, matte painting, artstation HQ

No prompt eu estabeleço alguns parâmetros/atributos que eu gostaria que a imagem tivesse:

Dream, indicando uma atmosfera onírica; São Paulo city, o objeto central, Caspar Friedrich, replicando o estilo do artista homólogo, Matte painting, para dar a textura, Artstation HQ, para invocar o estilo do studio Artstation [games, mídia].

  • São Paulo Dream

Neste ponto o leitor já percebeu que eu gosto de São Paulo e curto uma atmosfera onírica, com elementos pós-apocalípticos.

    Prompt Usado: A dream of Sao Paulo, a distant galaxy, Caspar David Friedrich, matte painting, trending on artstation HQ
    • Nave Alien Gigante
    Prompt usado: gigantic extraterrestrial futuristic alien ship in brand new condition, not ruins, hyper-detailed, artstation trending, world renowned artists, antique renewal, good contrast, realistic color, cgsociety, greg rutkowski, gustave dore, Deviantart
    • Roma Alienígena
    Prompt usado: Julius Caesar, alien roman historic works, ruins, hyper-detailed, world renowned artists, historic artworks society, good contrast, realistic color, cgsociety, Greg Rutkowski, Deviantart
    • Um Rio de Janeiro de Sonho
    Prompt usado: Rio de Janeiro, fuzzy, dreamy, world renowned artists, good contrast, pastel color, Greg Rutkowski, Deviantart
    • Rio Hipgnosis

    Aqui eu tentei replicar o estilo do já citado Roger Dean, e do estúdio Hipgnosis, famoso pelas capas de discos das grande bandas de rock nos anos setenta, como Yes, Pink Floyd, Led Zeppelin, e muitos outros. Note a silhueta do Pão de Açúcar, quase imperceptível. Definitivamente Lisérgico.

    Prompt usado: Rio de Janeiro, sketchy, dreamy, world renowned artists, good contrast, pastel color, Roger Dean, Hipgnosis
    • Transilvania

    Aqui eu recebi o valoroso input de minha mulher, ligada ao mundo das bruxas e das brumas, que sempre me apoia em minhas desventuras digitais. A ideia era fazer Drácula aparecer no cenário, mas vejo que será preciso maior empenho na engenharia do prompt.

    Prompt usado (composto por Marília Gião): Dracula castle on a mountain, at dusk, matte paint, Transylvania dream, David Friedrich, chariots with horses, hyper detailed, deviantart

    É mesmo uma coisa incrível. Imagine ter um artista conceitual multi habilidoso ao seu dispor, cujo único propósito na existência é interagir com você e materializar suas fantasias visuais mais loucas. Tudo a um custo muito baixo.

    Você pode executar a difusão estável em seu próprio computador, em um ambiente virtual python, se tiver as inclinações técnicas para configurá-lo [é preciso placa gráfica compatível com CUDA – tipicamente Nvidia] . Posso dar algumas indicações nos comentários, se alguém tiver interesse. Em serviços online como Replicate ou Hugging Face você pode ainda usar a biblioteca “imagem-para-imagem” – que está chegando também à interface do DreamStudio que usamos aqui.

    Há muito mais acontecendo. A melhor descrição que vi até agora de um processo iterativo para construir uma imagem usando Stable Diffusion vem de Andy Salerno: 4.2 Gigabytes, ou: Como desenhar qualquer coisa. Nestes experimentos eu usei partes dos prompts de Andy.

    E há muito mais por vir.

    As inescapáveis questões éticas

    As questões éticas levantadas por esses sistemas precisam ser enfrentadas e resolvidas. São questões difíceis.

    A difusão estável foi treinada com milhões de imagens extraídas da web. Essas imagens são protegidas por direitos autorais. Não estou qualificado para falar sobre a legalidade disso. Pessoalmente, estou mais preocupado com a moralidade.

    O Stable Diffusion v1 Model Card tem todos os detalhes de especificação, mas para resumir, ele usa um conjunto de dados LAION-5B (5,85 bilhões de pares de imagem-texto) e seu subconjunto Laion-aesthetics v2 5+ (um conjunto de aproximadamente 600 Milhões de pares). Essas imagens foram retiradas da web.

    O modelo final tem cerca de 4,2 GB de dados – um blob binário de “floating points”. O fato de se poder comprimir uma quantidade tão grande de informação visual em um volume tão pequeno é, em si, um feito fascinante. Contudo, de novo, as pessoas que criaram essas imagens não foram consultadas sobre seu consentimento.

    Para além disso, como já como discutimos no blog em outra postagem [link], o modelo pode ser visto como uma ameaça direta ao meio de subsistência de milhões de profissionais pelo mundo afora. Eu mesmo fui um desenhista ilustrador em meu primeiro emprego. Hoje eu não teria chance de começar. O vídeo e o áudio seguirão o mesmo caminho. Ninguém esperava que as IAs criativas viessem tão rapidamente para ceifar os empregos dos artistas, mas aqui estamos!

    Há também implicações [negativas] para o mercado de arte — e, em breve, do fonográfico, além do cinema.

    Nasce uma Nova profissão: a Engenharia de Prompt

    Como tentei mostrar, e como você mesma(o) pode verificar se resolver praticar a técnica no link que forneci, o background pessoal influenciará muito no sucesso. As pessoas que vão exercer essa atividade em um nível profissional elevado nas agências de criação terão que se aprofundar na observação e no estudo da linguagem.

    Além da precisão linguística, os parâmetros envolvidos na composição do prompt, para um resultado artístico perfeitamente controlado, exigem conhecimento técnico, senso de estilo e conhecimento histórico. Quanto mais palavras-chave relacionadas estiverem envolvidas na composição maior será o controle do artista sobre o resultado final. Exemplo: o prompt

    Uma cidade futurista distante, cheia de prédios altos dentro de uma enorme cúpula de vidro transparente, No meio de um deserto árido cheio de grandes dunas, Raios de sol, Artstation, Céu escuro cheio de estrelas com um sol brilhante, Escala maciça, Neblina, Muito detalhado, Cinematográfico, Colorido

    é mais sofisticado do que simplesmente

    Uma cidade cheia de prédios altos dentro de uma enorme cúpula de vidro transparente

    Note que a densidade conceitual, portanto a qualidade, do prompt depende muito do background cultural e linguístico da pessoa que faz a composição. De fato, um prompt de qualidade se assemelha muito a uma cena de cinema descrita em um roteiro/storyboard [a propósito, lá se vão os Production Designers, junto com os concept artists, graphic designers, set designers, costume designers, lighting designers…].

    Na tentativa de monetizar os frutos da nova tecnologia, os empreendedores da Internet serão forçados pela mão invisível do mercado de trabalho a se aprofundar nos conhecimentos linguísticos. Será um efeito colateral benigno, penso eu, considerando estado atual da Internet. Talvez isso leve a uma melhor articulação das ideias no ambiente da rede.

    Assim como influenciadores do YouTube têm talento para lidar com os aspectos visuais das interações humanas, os aspirantes à engenharia de prompt terão que se destacar em farejar as nuances da expressão humana. Eles têm grande potencial para ser os novos profissionais descolados da economia digital, assim como foram os web designers, e depois os influencers — que, com o fim das redes sociais, agora tendem a perder relevância.

    Para se diferenciar, os engenheiros de prompt terão que ser ávidos leitores e praticantes de semiótica/semiologia.

    Umberto Eco e os estruturalistas poderão voltar à moda.

    Indistinguível da magia

    Apenas alguns meses atrás, se eu tivesse visto alguém criar essas imagens em um programa de TV, ou em um vídeo do YouTube, eu teria resmungado sobre essas mistificações, grosseiras mesmo para padrões da TV e da Internet (sorry).

    A ficção científica é real agora. Modelos generativos de aprendizagem de máquina estão aqui, e a taxa com que eles estão melhorando é absolutamente irreal. Eu digo isso tendo um histórico de ceticismo quanto ao “hype” e às possibilidades dessa modalidade de AI. Vale a pena prestar atenção ao que eles são capazes de fazer, como estão se desenvolvendo, e ao impacto que eles terão na sociedade.

    Leitura recomendada

    https://arxiv.org/abs/2112.10752

    https://github.com/CompVis/stable-diffusion


    Reativei minha conta para twitar sobre essas coisas para o meu único seguidor. Siga @VoxLeone no Twitter e me ajude a conquistar o Brasil!

    Também fiz conta no Reddit, onde meu Karma é exatamente = 1. Siga u/VoxLeone!