Tutorial e comparação de criação de imagem AI: Dall-e VS Stable Diffusion VS Canva (texto para imagem)

Com a atual popularidade da mídia de ChatGPT esta é uma oportunidade para também falar sobre DALL-E, outra inteligência artificial também desenhada por IA aberta ! E, de forma mais geral, IAs geradoras de imagens. Onde o ChatGPT é capaz de gerar texto escrito com uma facilidade desconcertante, o DALL-E e seus semelhantes foram treinados para criar imagens a partir de uma simples solicitação por escrito do usuário.

Vamos dar uma olhada em como eles funcionam, suas capacidades, mas também seus limites com este artigo comparativo de IAs de criação de imagens.

Mas, a propósito, como funciona uma IA?

Uma pergunta muito boa à qual pode ser interessante voltar rapidamente, especialmente porque não a abordamos em nosso artigo anterior sobre o ChatGPT. Quando você ouve “Inteligência Artificial” é difícil não ter em mente esses tipos de robôs humanóides como os vimos no cinema. É isso que os próprios AIs geram quando são solicitados a fornecer uma imagem correspondente à busca por essas palavras-chave, como a imagem introdutória deste artigo.

*Essa paisagem não existe, é 100% artificial gerada por uma IA*

No entanto, na realidade, muitos dos AIs existentes não têm envelope físico. De fato, na maioria das vezes, são programas de computador baseados em algoritmos específicos que foram treinados por humanos para realizar determinadas tarefas mais ou menos complexas.

A geração de imagens é uma tarefa que pode ser atribuída a um (ou mais) AIs! Para saber mais sobre os métodos de criação de imagens por IA, não hesite em assistir ao seguinte vídeo:

Vamos gerar nossas primeiras imagens com inteligência artificial

Para fazer isso, nada poderia ser mais simples à primeira vista, pois tudo o que você precisa fazer é descrever textualmente para a IA a imagem que deseja obter. Para este artigo, decidimos comparar as imagens fornecidas por três geradores de IA:

DALL-E
Difusão Estável
Canva (texto para imagem)

Claro, existem outros que você não deve hesitar em testar também. Aqui está um lista não exaustiva.

Se você for um pouco criativo, temos certeza de que encontrará muitas ideias de imagens para gerar. Mas para aqueles para quem seria um pouco mais complexo é possível pedir uma ajudinha ao ChatGPT. Sim, usamos uma IA para usar outra IA…

*Resposta do ChatGPT para a pergunta: Tenho que escrever um artigo no dall.e, você tem alguma ideia de imagens que podem ser geradas com este modelo de IA?*

Obviamente, como modelo de geração de imagens, o DALL-E pode criar uma ampla variedade de imagens. Aqui estão algumas ideias de imagens que você pode gerar com o DALL-E:

Animais de fantasia: Peça a DALL-E para gerar imagens de animais imaginários, como um dragão com asas de borboleta ou uma cobra com pernas.

Alimentos estranhos: peça ao DALL-E para gerar imagens de alimentos incomuns, como uma pizza de chocolate ou um hambúrguer com fatias de melancia.

Roupas incomuns: peça a DALL-E para gerar imagens de roupas estranhas, como um chapéu em forma de Torre Eiffel ou sapatos com asas.

Paisagens imaginárias: peça ao DALL-E para gerar imagens de paisagens fantásticas, como uma cidade flutuando nas nuvens ou uma floresta de cogumelos gigantes.

Objetos híbridos: peça ao DALL-E para gerar imagens de objetos que são uma mistura de duas coisas diferentes, como uma cama que parece uma rede ou um carro com asas de pássaro.

Retratos de celebridades: peça ao DALL-E para gerar imagens de retratos de celebridades que não existem, como uma versão alternativa de Marilyn Monroe com tatuagens.

Carros futuristas: peça ao DALL-E para gerar imagens de carros futuristas, como um carro que pode se transformar em um avião ou um carro que pode voar.

Arquitetura de fantasia: peça a DALL-E para gerar imagens de arquitetura de fantasia, como um arranha-céu em forma de dragão ou uma casa que se parece com uma árvore.

Essas ideias são apenas sugestões para dar uma ideia do que o DALL-E pode fazer. Existem milhares de outras ideias de imagens que você pode gerar com este modelo de IA.

Cada IA tem seu próprio estilo

Com esta lista, veremos juntos como gerar nossas imagens e qual dos diferentes softwares escolhidos faz melhor.

Para nossa primeira imagem escolhemos representar o dragão com asas de borboleta. Para adicionar algum contexto, também pedimos que isso seja retratado em "uma floresta de fantasia de conto de fadas". Dependendo dos IAs, o idioma da solicitação pode impactar no resultado. Então descobrimos rapidamente que para DALL-E e difusão estável O inglês foi a língua que apresentou os melhores resultados. Por outro lado, o aplicativo de texto para imagem do Canva geralmente funciona melhor em francês.

1. DALL-E gerou imagens de um dragão com asas de borboleta

2. Dragões gerados por difusão estável

3. E finalmente o que escolhemos manter para a ferramenta Canva

A primeira coisa que podemos ver rapidamente: para o mesmo pedido, cada IA tem seu próprio estilo!

DALL-E tem um lado "imaginativo", embora a floresta "conto de fadas" seja um pouco escura para fada, as asas de borboleta são bem representadas e arrumadas. está na moda Arte Digital.
Na Stable Diffusion o estilo é mais "alegre", um pouco infantil. Imaginamos muito bem essas imagens ilustrando uma história para crianças. Aqui os dragões são bem visíveis e lembram a China, da qual é o emblema. Por outro lado, a IA obscureceu completamente as asas da borboleta e escolheu a solução mais fácil, fazendo com que borboletas reais aparecessem ao lado de nossos dragões.
Por fim, para a ferramenta Canva, selecionamos da seleção a única imagem correspondente ao nosso pedido. No entanto, os dois elementos (dragão e asas estão presentes aqui). Embora todas as imagens estejam no tema e sejam acionáveis, o Canva se sai melhor ao executar fielmente a solicitação e, portanto, ganha um primeiro ponto aqui.

Quais são as possibilidades de estilo artístico da imagem solicitada?

Se nenhum detalhe sobre o estilo de arte for solicitado, os AIs os escolherão para você, como no exemplo dos dragões.

No entanto, no Dall-e por exemplo, é possível definir os seguintes estilos:

Pintura a óleo : Dall-e pode gerar pinturas a óleo a partir de uma descrição das cores e texturas que você deseja ver na pintura.
Fotografia : Dall-e pode gerar fotos com base nas cores, texturas e detalhes que você deseja ver na foto.
Arte digital : Dall-e pode produzir arte digital a partir de um modelo pré-projetado ou de uma descrição das cores e detalhes que você deseja ver na arte.
Arte abstrata : Dall-e pode produzir obras abstratas com base nos movimentos, cores e formas que você deseja ver na obra.
Dessin : Dall-e pode gerar designs com base nas cores e formas que você deseja ver no design.
arte vetorial : Dall-e pode gerar imagens vetoriais a partir de um modelo predefinido ou de uma descrição das cores e detalhes que você deseja ver na imagem.

Os exemplares de Dragon foram a priori feitos no estilo Arte Digital. O estilo influenciará fortemente a imagem final gerada.

Mais forte ainda, é possível solicitar estilos de algum artista famoso. Então geramos um chat no estilo Picasso, Van Gogh e Dalí ! E os resultados são… impressionantes!

Nosso gato desenhado por IA nos estilos de 3 grandes mestres da pintura

gato estilo Picasso
gato estilo van gogh
gato estilo dali

Melhor, então pedimos um “ Gato no estilo Picasso e Dali e Van Gogh e nós temos isso:

Nós também solicitamos "Porco no Estilo Picasso" e o resultado foi igualmente, se não mais, impressionante…

As IAs provavelmente (irão) revolucionar o campo da Arte e da Internet nos próximos anos, o que já é o caso dos NFTs especulativos.

Nós entendemos o desconfiança de profissionais da arte em relação a essas IAs artísticas, seus medos são os mesmos da publicação e criação literária em relação a chatbots como o ChatGPT! Eles estão certos, todos esses medos são, em nossa opinião, justificados!

Quais são os diferentes métodos para solicitar a criação de uma imagem com Dall-e?

Vários métodos podem ser usados para indicar a criação de uma imagem com Dalle-e, incluindo métodos gráficos para um resultado mais rápido e correspondente às suas necessidades:

Gerando imagens a partir de palavras-chave : você pode inserir uma palavra-chave e o Dall-e produzirá uma imagem com base nas palavras-chave inseridas.
Gerando imagens a partir de frases : você pode inserir uma frase completa e o Dall-e produzirá uma imagem com base na frase que você digitou.
Gerando imagens a partir de descrições de imagens : Dall-e pode gerar imagens a partir de uma descrição detalhada das cores, formas e objetos que você deseja ver na imagem.
Gerando imagens de cenas : Dall-e pode gerar imagens 3D a partir de uma descrição completa de uma cena.
Gerando imagens a partir de padrões : Dall-e pode gerar imagens a partir de padrões inseridos.
Gerando imagens a partir de modelos : você pode fornecer ao Dall-e um modelo predefinido e ele produzirá imagens com base no modelo fornecido.
Geração de imagens a partir de sequências animadas : Dall-e pode gerar sequências animadas a partir da descrição de movimentos, cores e sons que você deseja ver na sequência.

Imagens realistas, mas improváveis

Em seguida, pedimos aos nossos geradores de imagens de IA que nos desenhassem uma salada com olhos : dois elementos que à primeira vista não combinam. Ainda nesta etapa, nossos 3 geradores passaram sem nenhuma dificuldade aparente.

1. As quatro imagens, de uma salada com olhos, propostas por DALL-E

2. As duas imagens correspondentes ao nosso pedido geradas por Stable Diffusion

3. E as duas imagens correspondentes para a ferramenta Canva

Aqui, novamente, cada imagem tem seu próprio estilo, mas o que chama a atenção é o realismo das diferentes imagens: os AIs usaram o estilo fotográfico.

Reconhecemos particularmente bem os alimentos, a ponto de querermos reproduzir as diferentes ideias propostas na cozinha. Se o Canva se destaca pela originalidade ao oferecer, no entanto, uma imagem com inspirações de "emoticons", é aqui o DALL-E que ganha o ponto com quatro imagens diferentes e todas no tema solicitado.

Entre os fracassos do Stable Diffusion, uma das imagens ainda vale a pena voltar

Com efeito, nesta imagem eliminada por não incluir olhos, vemos por outro lado o esforço de realismo da IA na representação do plano de trabalho.

Nossos AIs são realmente capazes de vincular a palavra “salada” ao ambiente correspondente. Isso já acontecia nas imagens acima com a representação de pratos, garfos e outros elementos relacionados ao campo culinário.

Flops que ainda permanecem regulares

Apesar de sua eficiência geral, nossas IAs ainda geram uma boa quantidade imagens medíocres e errôneas vê totalmente fora de sintonia com a demanda. Este foi o caso do nosso chapéu em forma de torre Eiffel.

DALL-E ganha o ponto com sua única imagem que se aproxima do nosso pedido: um chapéu branco, encimado por uma Torre em miniatura que imaginaríamos perfeitamente no cabeça de Geneviève de Fontenay !

Além dessa risadinha oferecida pela IA do Open AI, as outras imagens eram muito realistas, simplesmente representando um dos elementos enquanto ofuscava o outro:

Na primeira imagem, Stable Diffusion representa a Torre, enquanto na segunda DALL-E optou por nos enviar uma pilha de chapéus, também obscurecendo a segunda parte de nosso pedido.

Ou eles tiveram uma compreensão errônea do pedido, como nestas duas imagens em que DALL-E representa estatuetas de lembrança da Torre Eiffel:

Por fim, algumas imagens às vezes são completamente excêntricas, como foi o caso desta imagem que supostamente representa uma "pessoa da imaginação de IA Stable Diffusion" que então optou por adicionar espontaneamente uma citação em um idioma desconhecido ... perto do inglês ...

Uma sensibilidade que às vezes varia palavra por palavra

Ao realizar os testes, percebemos rapidamente que às vezes basta nossa IA corrigir a situação em caso de resultados insatisfatórios. Portanto, quando perguntamos pela primeira vez à nossa IA "uma cidade flutuante em um céu nublado", selecionando a melhor imagem para cada uma delas, obtemos o seguinte resultado:

Respectivamente de cima para baixo, os resultados do Stable Diffusion, DALL-E e Canva

Imagens muito bonitas, mas que não refletem realmente a conotação "irreal" de nosso pedido entendido por humanos, mas aparentemente não por nossos geradores. Basta uma mudança sutil na demanda para obter resultados completamente diferentes.

Assim, com a frase "uma cidade fantástica flutuando em um céu nublado", obtemos desta vez:

1. Imagens muito mais imaginativas de DALL-E

2. Cidades fantásticas de Stable Diffusion que, no entanto, omite completamente a parte “flutuando em um céu nublado”

3. Algumas cenas que poderiam ser tiradas de um videogame (Minecraft ou Lego Worlds, por exemplo) pelo Canva

Aqui podemos atribuir um ponto ao DALL-E e ao Canva que conseguiram, através de um ou outro dos nossos pedidos, fazer a nossa cidade flutuar nas nuvens.

Mas então, que futuro para a geração de imagens?

Diante de uma solução que funciona muito bem no geral, questiona-se quais serão os usos futuros da geração de imagens por inteligência artificial. Claro que é tentador citar aqui a criação de falhas na internet, não hesite em vir postar no nosso forum aqueles que você já deve ter encontrado online.

Mas também podemos imaginar usos mais sérios. Assim, os resultados obtidos ao pedir à ferramenta Canva para criar uma imagem de uma “árvore que na verdade é uma casa” poderiam facilmente dar ideias a um arquiteto responsável pela criação de habitats que se misturam com a natureza!

Mas então, qual dos nossos 3 geradores de imagens está se saindo melhor?

Para a árvore que também seria uma casa, facilmente damos um ponto para cada ferramenta!

Exemplos de imagens propostas respectivamente por DALL-E, Stable Diffusion e então a ferramenta Canva

O carro com asas de pássaro desafiou todas as nossas IAs, mas o carro que pode voar permitiu que o Canva e o Stable Diffusion se destacassem com algumas renderizações futuristas bastante realistas:

Respectivamente Stable Diffusion na parte superior e Canva na parte inferior.

Finalmente o DALL-E tem se mostrado bastante eficiente com seus edifício em forma de dragão (que continua em construção, no entanto), e o Canva conseguiu atender melhor ao pedido de um retrato que havíamos modificado um pouco, substituindo a celebridade por "uma pessoa da imaginação da IA".

Apesar de alguns elementos sugerirem a geração da imagem por trás dos dois retratos do Canva, o realismo ainda é impressionante.

Na contagem final, estes são, portanto, DALL-E e ferramenta do Canva que respectivamente ganham 5 pontos cada.

Eles geralmente são capazes de fornecer resultados de acordo com a maioria das solicitações do usuário.

O Canva se destaca pelo realismo enquanto o DALL-E parece mais relevante assim que o pedido requer imaginação ou o campo da pintura.

Porém, apesar de apenas 2 pontos, o Stable Diffusion não deixa a desejar na qualidade de imagem que é capaz de proporcionar! A desvantagem está em sua compreensão das solicitações do usuário, pois muitas vezes ele tende a permanecer muito pé no chão. No entanto, continua sendo muito interessante descobrir também.

De qualquer forma, podemos esperar nos próximos anos ver a inteligência artificial revolucionar muitos setores de atividade. E certamente mais rápido do que alguns pensam desde livros escritos, em parte ou na íntegra, por IAs já estão à venda na Amazon…Esta pequena reportagem em vídeo da BFMTV falou sobre isso alguns dias atrás: