Inteligencia Artificial: retos y oportunidades para la formación y el empleo en el ámbito
de la comunicación. Observatorio ATIC, nº 7
(2025)

 

 

Título del Capítulo: «El proceso evolutivo de la formación de la imagen en las herramientas de creación de imagen con AI Generativa»

Autoría: Fernando Galindo-Rubio; Esmeralda Román-Quiñones; Fernando Suárez-Carballo

Cómo citar este Capítulo: Galindo-Rubio, F.; Román-Quiñones, E.; Suárez-Carballo, F. (2025): «El proceso evolutivo de la formación de la imagen en las herramientas de creación de imagen con AI Generativa». En Sánchez-Navarro, J.; Hellín, P. (eds.), Inteligencia artificial: retos y oportunidades para la formación y el empleo en el ámbito de la comunicación. Observatorio ATIC, nº 7. Salamanca: Comunicación Social Ediciones y Publicaciones.
ISBN: 978-84-10176-09-6

d.o.i.: https://doi.org/10.52495/c8.emcs.36.p114

 

 

 

Capítulo 8. El proceso evolutivo de la formación de la imagen en las herramientas de creación de imagen con AI Generativa

 

 

 

Fernando Galindo-Rubio

Universidad Pontificia de Salamanca

 

Esmeralda Román-Quiñones

Universidad Pontificia de Salamanca

 

Fernando Suárez-Carballo

Universidad Pontificia de Salamanca

 

 

1. Introducción

 

Las herramientas de Inteligencia Artificial Generativa desarrolladas para demostrar la capacidad que este tipo de tecnología ofrece a la hora de construir imágenes de todo tipo mediante solicitudes textuales (prompts), se han convertido sin duda en uno de los vectores de crecimiento y expansión de esta tecnología en el ámbito profesional de la comunicación.

Algunas de ellas, las más conocidas, Midjourney,1 Stable Difussion,2 Dall-e3 o LeonardoAI,4 en sus diferentes versiones han aterrizado en el panorama comunicativo como una opción muy interesante como herramienta de asistencia a la creatividad, la producción de fotografía o el diseño, pero también y de manera menos afortunada en la construcción de imágenes falsas que se usan como herramienta de manipulación informativa, ideológica y política (Salaverría, 2021; Jiménez, 2023).

Los resultados espectaculares que ofrecen estas herramientas en sus últimas versiones disponibles conllevan irremediablemente a la reapertura del debate omnipresente de la sustitución del ser humano por manifestaciones de estas tecnologías que impacten de manera significativa, cuando no definitiva, en el mercado laboral de la comunicación (Marta-Lazo, 2023).

En este sentido, de acuerdo con García (2023) la opción más sensata, una vez más, puede pasar por la hibridación profesional entre el ser humano y la máquina: «No nos van a quitar los trabajos las máquinas (en referencia a las AI), sino los humanos que sepan usar esas máquinas» o lo que es lo mismo convertirnos en «centauros», tal como lo explica Bilinkis (2017) en alusión a la impresionante evolución experimentada por la modalidad de juego del «ajedrez centauro»: hombre más máquina frente a hombre más máquina.

Al experimentar de manera prolongada con estas herramientas de creación de imágenes, se atisba la sensación de que los mecanismos de formación de la imagen, con ciertas salvedades, son similares entre los seres humanos y dichas herramientas. Cuando se solicita a un ser humano que construya mentalmente una imagen, que la imagine, en primer término, en los primeros segundos, esta es una imagen bastante abstracta dentro de su cerebro, pero va cobrando forma y detalle en el proceso de construcción según pasan los segundos.

El proceso de creación de la imagen por estas herramientas de AI es similar: la herramienta, a la que al igual que a nuestro cerebro se le ha solicitado que «imagine» una imagen, de manera gradual va generando una imagen con diferentes porcentajes de detalle hasta completar la imagen completa.

Esa similitud se extiende a la idea de que la herramienta en sus primeras versiones coincide con la forma de expresión plástica de los niños: las formas en esos instantes de evolución de las AI eran básicas e imprecisas, tanto en definición, como en orden y en volumen; y del mismo, modo, son previsibles en los elementos que las conforman como lo son los niños al solicitarles estímulos similares.

Estas circunstancias se repiten con las diferentes evoluciones de las herramientas. Podría establecerse un paralelismo entre el crecimiento de un ser humano, que según va cumpliendo una edad, va mejorando su capacidad de ofrecer resultados expresivos a la hora de trasladar su imaginación a un soporte y el de las diferentes versiones de las aplicaciones con la salvedad de que estas últimas crecen de manera exponencial y en apenas un año de edad han sido capaces de emular el hiperrealismo.

Existe, por último, una evolución que también se acoge a ese paralelismo en el crecimiento. Hasta hace unas semanas (en la fecha de redacción de este artículo, octubre de 2023) la obtención de resultados de imagen estaba limitada al uso de prompts texto-imagen que basaban su eficacia en un depurado sistema combinativo de elementos técnicos y literatura descriptiva —de hecho, se ha llegado durante este tiempo a denominar una nueva profesión, prompt engineer, profesional de la creación de prompts eficaces). Con la aparición de la posibilidad de aplicar el procesamiento de lenguaje natural que ofrece la herramienta ChatGPT-4 combinada con la generativa de imagen Dall-e 3, se obtiene un resultado más eficaz y sencillo de conseguir, ya que se pasa del prompt a la conversación. Este hecho, hace aún más fácil el acceso a estas herramientas y abre la puerta a una reflexión en torno a la desaparición de los interfaces —tecnologías «no_code»— de las herramientas de edición y producción de contenido tal como se conciben hoy día, sustituidos por interfaces conversacionales en los que el creador de contenido simplemente deberá solicitar e ir modificando los resultados con lenguaje natural.

 

2. Marco teórico

 

Ya que el objetivo central de este trabajo es la comparación entre los procesos de imaginación y creación de imágenes entre el ser humano y las herramientas generativas de imagen, parece oportuno describir cómo se desarrollan dichos procesos.

 

2.1. La construcción mental de la imagen en los seres humanos

 

La formación de imágenes mentales, concepto clave para el aprendizaje «ya que permite que los individuos formen una comprensión interna de la información que están aprendiendo» (Craik; Tulving, 1975: 284) constituye un proceso complejo en el que se ve involucrada la recreación de percepciones sensoriales en la mente en ausencia de estímulos externos. Es decir, en el momento en el que no podemos estar observando una realidad de manera directa, buscamos en nuestra memoria elementos que nos hagan recordarla (a través de los recuerdos evocados por los diferentes sentidos) y con ello, la reconformamos en nuestro cerebro. Este proceso es intrínseco a la experiencia humana y juega un papel crucial en la memoria, la resolución de problemas y la creatividad. Así, «una imagen mental es concebida como una representación de origen perceptivo o del recuerdo de una experiencia que puede haber sido imaginada o vivida. Constituye un producto sensorial y perceptivo del cerebro, representado en la mente y caracterizado por la variedad de formas, colores o temáticas» (Ocanto, 2009: 246).

Por tanto, la imagen mental puede ser entendida como la representación interna que tiene una persona de una realidad. Estas representaciones no son meramente visuales, sino que involucran otros sentidos como el auditivo, táctil o motor. Existen diferentes procesos en dicha formación a partir de la forma en la que se producen: ascendente o descendente, y en función de las relaciones que se establecen en el cerebro en virtud de lo aprendido previamente: el aprendizaje asociativo.

 

2.1.2. Procesamiento ascendente y descendente

 

Tal como explica Gagné (1985) el procesamiento de la información sensorial puede darse de dos maneras: ascendente y descendente. «Son procesos cognitivos en los que se usan conceptos para interpretar e integrar información sensorial» (Ibíd.). El procesamiento ascendente se refiere a la interpretación de la información sensorial desde el nivel más básico hasta el más complejo. Es decir, cómo los estímulos sensoriales se transforman en percepciones. Este proceso depende directamente de la unificación de las entradas sensoriales.

Por otro lado, el procesamiento descendente implica el uso de conocimientos previos, de la experiencia para interpretar y dar sentido a los estímulos sensoriales. En la formación de imágenes mentales, el procesamiento descendente juega un rol fundamental, ya que ese conocimiento previo permite generar imágenes internas sin necesidad de tener visualmente la realidad determinada, presente.

«Ambos tipos de procesamiento de lectura son beneficiados por la visualización. En el descendente están involucrados el fondo emocional y físico (contexto), el conocimiento previo y las expectativas, por lo que se intensifica la formación de patrones e imágenes. Durante el procesamiento ascendente hay una construcción más elaborada, gracias a las imágenes generadas con base en los estímulos textuales» (Ocanto, 2009: 251). 2.1.3. Aprendizaje asociativo

El aprendizaje asociativo es un principio básico de la formación de la imagen mental, que implica la capacidad de aprender y recordar la relación entre dos elementos independientes. Esto se observa claramente en cómo los seres humanos pueden formar imágenes mentales de objetos o escenas que nunca han visto antes, simplemente por procesos asociativos en los que conectan estímulos para generar realidades mentales nuevas.

En este sentido, autores como Buzan (1996) utilizan el concepto de «estallido del pensamiento» para definir la irrupción del pensamiento en el que cada «bit de información que accede al cerebro, es decir, cada sensación, recuerdo o pensamiento... se puede representar como una esfera central de la cual irradian decenas, centenas, millones de enlaces, y cada eslabón representa una asociación y cada asociación tiene su propia e infinita red de vínculos y conexiones (Buzan, 1996: 63)

En el contexto del crecimiento humano, el aprendizaje asociativo es crucial para entender cómo los niños forman conceptos y categorías mentales. A medida que los niños experimentan el mundo, van formando asociaciones que les permiten construir una representación mental rica y detallada de su entorno, que evoluciona con cada nueva experiencia. «El pensamiento asociativo es una herramienta poderosa para comprender el mundo a nuestro alrededor y conectar las ideas en formas creativas y novedosas» (Kahneman, 2011).

Estos procesos son fundamentales para comprender cómo se forman las imágenes mentales en los seres humano: «El pensamiento asociativo es una forma única de relacionar ideas y experiencias, y permite una comprensión más profunda de los conceptos» (Peterson, 2018) y establecer un paralelismo con las imágenes generadas por la inteligencia artificial. Al examinar cómo los niños desarrollan la habilidad de crear imágenes mentales, podemos obtener una mejor comprensión de los procesos cognitivos que una IA intenta emular y replicar.

 

2.2. Las herramientas de Inteligencia Artificial de creación de imágenes

 

Entre 2021 y 2022 han irrumpido de manera progresiva diferentes herramientas de creación de imagen asistida por Inteligencia Artificial con diferentes calidades de resultados y grados de evolución. Del mismo modo, es conveniente diferenciar entre las herramientas de creación automáticas o algorítmicas (Jiménez, 2022: 39), que son las que utilizan algoritmos para ofrecer resultados predictivos en función de patrones previamente descritos y las puramente generativas, que llevan a cabo procedimientos de creación de las imágenes muy similares a los de la mente del ser humano y que se han descrito previamente en este capítulo.

Para el objetivo de este capítulo no es tan interesante detenerse en las primeras, las automáticas, ya que estas no suponen una novedad en el avance tecnológico, pues «simplemente» reproducen patrones de imagen o buscan equivalencias en rasgos, por ejemplo de un rostro, para hacerlas coincidir, y a partir de esa concordancia, producir nuevas respuestas, como por ejemplo las herramientas deep fake.

No sucede así con las Inteligencias Artificiales Generativas que no se basan en esa respuesta prevista o seleccionable de entre múltiples opciones, sino que se empieza desde cero, desde una casilla en blanco en la que establecer una solicitud de creación de contenido sin más limitación que la imaginación del usuario. Esa solicitud se vehicula a través de una secuencia denominada prompt.

 

2.2.1. Secuencias de búsqueda (Prompts)

 

Para la comunicación hombre-máquina con las Inteligencias Artificiales Generativas de Imagen se establece el «Prompt» como secuencia de búsqueda ya estandarizada en todas ellas.

Esta solicitud, exenta de una normativa o metodología universalmente aceptada, es en realidad un proceso creativo en el que el usuario debe combinar el conocimiento de los parámetros técnicos de la imagen que se va a solicitar y un uso experto del lenguaje para describir de la manera más detallada posible lo que la IA ha de imaginar.

Aun sin ser ni mucho menos un estándar, algunos profesionales ya reconocidos (prompt engineers), han definido y compartido en sus publicaciones digitales algunas guías o metodologías en las que describen la forma que les permite conseguir resultados óptimos a la hora de hacer estas solicitudes.

Siguiendo esta metodología se pueden obtener resultados precisos (véase la figura 2).

Como se apuntaba, sin seguir órdenes o diferenciaciones estrictas, se conjuga «saber técnico» con «saber literario».

—Parámetros técnicos:

El primer grupo de elementos a definir en un prompt son los parámetros técnicos. En este sentido es importante entender que el aprendizaje profundo que la IA ha realizado en su etapa de crecimiento es el que le permite reconocer dichos parámetros, entrenar y posteriormente en su proceso de imaginación, aplicarlos a los resultados.

Cada vez que se sube una imagen a Internet, con la imagen en sí, se adjuntan metadatos relativos a dicha imagen, como en estos dos ejemplos (véase la figura 3).

Al aprender que estas características corresponden a estos resultados, la IA está aprendiendo a regular el diafragma, la distancia focal, la resolución, la exposición, incluso la marca y modelo de cámara con la que se han tomado estas imágenes, para luego al solicitarle que imagine algo en similares condiciones técnicas, poder imitar este procesado.

Incluso, el lugar donde se han tomados las imágenes (marcado por las coordenadas de geoposicionamiento) permite posteriormente imaginar escenas en las que se solicite un resultado en ese espacio y una determinada hora del día, ya que esto permite calcular cuál sería la luz en ese momento oportuno, incluso permitiendo la extrapolación al momento del año. En este caso se aportaría el resultado más probable de luz para esas circunstancias.

—Descripción detallada.

Donde no llega la descripción técnica, lo matiza la descripción detallada. Así, todos los matices aportados de manera escrita son recogidos por la IA y contrastados con los millones de documentados de imagen etiquetados, por ejemplo, en redes sociales con hashtags relativos a estados anímicos, de humor, tipos de atmósfera, de ambientes, expresiones, etc.

Introducir frases del tipo «todo va bien», «el sentimiento de pena se refleja en sus caras», «su mirada expresa la satisfacción por el deber cumplido» son verdaderos elementos de valor en la construcción de estas imágenes, ya que aportan matices difíciles de reseñar de manera técnica. Es preciso entender que, por ejemplo, las frases descritas, son más eficaces que simplicidades del estilo «sonriente» o «alegre» o «triste», ya que la graduación de estas emociones es amplia y difícil de plasmar sin más especificidad también para un ser humano (véase las figuras 4 y 5).

Por tanto, la combinación de ambas dimensiones en una secuencia será la clave para obtener resultados óptimos en la definición de un prompt para conseguir una imagen generada con inteligencia artificial.

 

3. Análisis del paralelismo entre imágenes creadas por AI y por humanos

 

En el intento de comparar ambos procesos de elaboración mental de imágenes, de imaginar, se lleva a cabo un conjunto de sencillos experimentos con los que se puede percibir que la tecnología de Inteligencia Artificial Generativa de imagen trasciende la mera yuxtaposición de otras tecnologías previas que componían imágenes desde técnicas similares al collage o desde procesos elaborados con algoritmos que automatizan la producción.

En el caso de estas tecnologías, existe un proceso creativo y productivo similar al que sucede en el cerebro humano desde el momento de recepción de la orden hasta el momento de expresión en un soporte.

Se plantea, por tanto, esta investigación con las siguientes expectativas.

 

3.1. Objetivos e hipótesis

 

OR1: Verificar el paralelismo existente entre los procesos de construcción mental de imágenes de los humanos y de las herramientas generativas de AI de imagen.

OR2: Eliminar la percepción populista de que las herramientas de AI generan imagen a partir del recorte y fusión de partes de elementos presentes en documentos que están almacenados en los servidores de Internet, o de la mera modificación formal de elementos ya constituyentes de una imagen.

H1: Existen semejanzas significativas entre el proceso de construcción de una imagen empleado por la herramienta de AI generativa de creación de imagen y la forma en la que los seres humanos construyen sus imágenes mentales.

H2: Existe semejanza en el proceso mental de imaginación de la imagen entre los seres humanos y las herramientas AI en los parámetros relativos a la forma y el contenido de la imagen.

H3: Existe paralelismo en la forma en la que se produce el aumento de fidelidad de la expresión plástica de la imagen entre los seres humanos en virtud de su edad y las AI en virtud de su versión.

 

3.2. Metodología

 

En función de las hipótesis formuladas se han establecido diferentes recogidas y producciones de material para contrastar. Todas las imágenes generadas con AI se han hecho con la herramienta Midjourney, pues es la que se considera en el momento de la redacción de este artículo que j—unto con Dall-e 3, de Open AI— ofrece unos resultados más interesantes, pero además, por dos razones esenciales en la investigación: es la única herramienta que ofrece los momentos intermedios del proceso de manera visual y porque es la única que permite la producción retroactiva en todas las versiones que han marcado la trayectoria de la herramienta.

 

3.2.1. Muestra

 

—Para la H1, se han capturado resultados visuales en diferentes momentos en el progreso de creación de una imagen con la aplicación.

—Para la H2, se ha recogido una muestra de resultados de imagen de la herramienta a dos solicitudes diferentes con características muy básicas: «dibujo de un caballo rojo» y «dibujo de un plato de pasta» tanto producidos por la herramienta de AI de creación de imagen, como a un grupo de veinte niños con un solo requisito, tener entre 3 y 10 años. No se les informó ni a ellos, ni a sus responsables de la finalidad del proyecto, ni se les comunicó más detalle que el que se ciñesen a elaborar un dibujo con esa temática. Los resultados se recogieron escaneados y se descartaron aquellos que no respondían con cierta solvencia a lo solicitado tanto en el caso de los niños como de las AI.

—Para la H3, se ha solicitado a la herramienta de AI que elabore los mismos estímulos que para la H2, pero en las diferentes versiones de la herramienta desde la v.1 hasta la vigente en el momento de redactar este artículo, noviembre de 2023, la v.5.2.

 

3.3. Resultados

 

Una vez recopilados todos los materiales necesarios se contrastan y se establecen los siguientes resultados

 

3.3.1. H1: Creación mental de la imagen

 

En la imagen de la figura 6 se puede apreciar cómo a partir de un prompt en el que se solicita una fotografía en estilo cinematográfico de un pato de goma, la herramienta de AI va bocetando progresivamente la imagen a representar, desde formas muy básicas, casi manchas de color hasta la definición realista del último cuadro. Del mismo modo, se representa el progreso de la formación del objeto principal, el «pato de goma»: la AI comienza imaginando en primer lugar ese objeto más relevante, y una vez que lo tiene perfilado, va añadiendo posteriormente el resto de elementos periféricos de la imagen final.

Las últimas partes de la secuencia de imágenes son las encargadas de añadir la definición de los objetos.

La formación de la imagen, por tanto, es un proceso muy similar al que los seres humanos realizamos al imaginar un objeto. Primero lo buscamos en nuestra memoria (pensamiento asociativo) mediante una llamada a la experiencia, y posteriormente vamos creando de manera paralela, tanto ascendente como descendentemente hasta llegar a la imagen final.

 

3.3.2. H2: Similitud en versiones tempranas

 

Para analizar esta dimensión se trabajará en dos aspectos. Por una parte, lo que tiene que ver con la forma, los volúmenes expresados en los dibujos y por otra, con el contenido, con los elementos constituyentes del dibujo.

a) Cuestión de formas.

Prompt: «Dibuja un caballo rojo».

Sin ánimo de comparar la destreza en el trazo o la finura en el acabado entre ambas entidades, niños e AI, sí que es posible hallar similitudes razonables entre ambos grupos de representaciones con el objetivo de encontrar las características que permitan ver la similitud en los procesos de construcción mental de dichas imágenes.

En primer lugar, en el uso de geometrías como base de la representación. Esto sucede al estilo de las «metaballs», la técnica de modelado 3D de algunas herramientas informáticas, que parte de estas estructuras simples para, combinándolas, crear representaciones de la realidad. Si bien es verdad que en el caso de los niños la geometría de partida es el rectángulo y en la AI algo parecido a esferas ovaladas, en ambos casos se aprecia que se utilizan las combinaciones de estas geometrías más o menos regulares para moldear la realidad propuesta.

Asimismo, en esta comparativa, se pueden percibir en las figs. 7 y 8 desajustes en los tamaños de los miembros del cuerpo del caballo y volúmenes desproporcionados con respecto a la realidad, como, por ejemplo, la cola del segundo caballo dibujado por niños o del tercer caballo de la AI.

Se encuentran también algunas distorsiones típicas ya en las primeras versiones de las herramientas de AI como es la falta de exactitud en el número y forma de los miembros en las extremidades. El desajuste más conocido y reprochado tiene que ver con la dificultad que las AI tienen para representar los dedos de las manos de los seres humanos. En este caso, se pueden contar hasta seis patas en el primer caballo de la AI y las cuatro patas y media del cuarto caballo. En los dibujos infantiles, se observan, al contrario, en vez de duplicación de miembros, agrupación de las cuatro patas en dos grupos en los dibujos uno, dos y cuatro.

En definitiva, se perciben similitudes en la forma primaria de construcción de las imágenes tanto de los niños como de las herramientas generativas de AI en sus primeras versiones.

b) Cuestión de contenido.

Prompt: «Dibuja un plato de pasta» (véanse las figuras 9 y 10).

En esta ocasión, la comparación tiene que ver con el contenido y no con la forma, en concreto con los elementos del dibujo. Tanto en el caso de los niños como en las construcciones de la AI, se identifica «plato de pasta» con un tipo de pasta muy concreto, los spaghetti, y en una elaboración concreta muy extendida, con tomate y queso. En la formación de estas imágenes en las versiones incipientes de la AI, se observan esos ingredientes asociados a colores simbólicos como el rojo para el tomate o el blanco para el queso que se funde adaptándose al resto de formas de la pasta en la primera imagen.

Se valora en este caso, por tanto, más que la definición, el recuerdo —pensamiento descendente— que la AI ha utilizado para elaborar estas imágenes. Lo más probable es que de los millones de documentos registrados en Internet mediante los cuales ha desarrollado su aprendizaje profundo, la gran mayoría de los etiquetados como «dibujo de plato de pasta» sean platos de spaghetti con tomate y queso, del mismo modo que los niños colaboradores de esta investigación han previsualizado en sus cerebros esta receta como primera impresión al recibir la orden «dibuja un plato de pasta».

 

3.3.3. Crecimiento etario

 

La pertinencia de esta comparativa reside en la observación de la evolución en la destreza, la finura del detalle y la organización de los elementos compositivos.

En el caso de los humanos, tanto en el ejemplo del caballo rojo, como del plato de pasta, es muy evidente ese crecimiento, sobre todo en las fases iniciales. Existe una importante mejora de la calidad de 3 a 6 años, y de 6 a 10. Pero, a partir de ahí, y al llegar a la edad madura, se aplana la curva del progreso cualitativo y se estandariza en un alto nivel de acabado.

A la herramienta generativa de AI parece sucederle lo mismo. En las primeras versiones, sobre todo, de la v.1 a la v.2, existe un amplísimo salto, al igual que sucede de la v.3 a la v.4 pero, a partir de ahí, el progreso se detiene ofreciendo un resultado realista de un nivel de acabado casi perfecto.

 

4. Discusión y conclusiones

 

Tras las comparaciones llevadas a cabo en este experimento, se puede apreciar que existe una naturaleza distinta entre los resultados evocados por las Inteligencias Artificiales Generativas de imagen y las Inteligencias Artificiales Automáticas en el sentido que solo las primeras atienden a la emulación de la inteligencia humana originada por la actividad de redes neuronales con los procesos de creación de imagen asociativo y ascendente-descendente (H1).

Así, se puede establecer que cuando se solicita a una herramienta de inteligencia Artificial Generativa que «imagine» una imagen, esta actúa en ese sentido. No lo hace en el sentido popular extendido de «copiar» y «pegar» fragmentos de imagen como si fuera un collage para obtener el resultado, sino que de manera progresiva va, al igual que el ser humano, utilizando mecanismos asociativos de construcción de conocimiento tanto ascendentes como descendentes hasta encontrar una respuesta plausible con la solicitud formulada (OR1) (OR2). Esta respuesta es una creación inédita, original e irrepetible, del mismo modo que cuando un ser humano imagina una identidad, su recreación es siempre nueva, original e irrepetible (H1).

En ese proceso de creación se perciben coincidencias entre las dimensiones formales y de contenido. En el primer aspecto, al utilizarse las expresiones maximizadas en ambos casos para esta observación, las de los niños aún sin formación plástica en los humanos, y las de las primeras versiones —no comercializadas— en las IA, se observan procesos similares basados en las geometrías simples: rectángulos, esferas irregulares, cuadrados, para conformar las imágenes solicitadas (H2). Esto tiene que ver con el recurso a la simplicidad motivado por la falta de precisión.

Continuando con esa simplificación fruto de la inexperiencia, al ser solicitada una imagen, en ambos casos, se ha recurrido a la forma «más probable» en vez de profundizar en posibles alternativas más sofisticadas. En ambos casos, el proceso de creación mental asociativo ofrece formas simples, el plato de spaghetti con tomate y queso, verificando la idea de que, efectivamente, existe una semejanza razonable en el proceso mental de imaginación entre los seres humanos y las herramientas AI en los parámetros relativos al contenido.

Finalmente, y asociado a lo anterior, se ha podido observar un paralelismo entre el crecimiento de ambos entes productores, el humano y la AI. En función de su edad o de su versión, ofrecen un crecimiento cualitativo en la técnica representativa, añadiendo precisión, detalle, color y perspectiva (H3).

Este fenómeno refuerza la idea de que las herramientas generativas de Inteligencia Artificial son instrumentos que simulan el aprendizaje humano y la respuesta neuronal, pues al contrario que otras herramientas de producción digital de imagen, estas han ido creciendo del mismo modo que el cerebro humano mediante el visionado de cantidades de documentos y la producción de imágenes mediante la técnica de ensayo-error (aprendizaje profundo). De manera diferente, un software de producción digital de imagen, ya desde su primera versión es capaz de ofrecer un resultado realista de imagen, porque no está imaginando, sino reconstruyendo una información basada en la información de color de cada pixel hasta construir un mosaico (OR2).

En definitiva, tras la verificación de las hipótesis planteadas y los objetivos de investigación descritos, se puede establecer como principal hallazgo de este artículo que el proceso de creación de estas herramientas se asemeja extraordinariamente a los procesos mentales de creación de imágenes de los seres humanos, gobernados por la asociación de conceptos y los vectores de dirección ascendente y descendente en el encuentro del conocimiento, y se diferencia sustancialmente de los procesos previos de construcción digitales de imagen conocidos hasta la fecha.

 

5. Nuevas líneas de investigación

 

La trepidante evolución de las herramientas generativas de imagen mediante Inteligencia Artificial origina que cada pocas semanas se planteen nuevos retos y formas de producción. La actualización de la herramienta de la compañía OpenAi, Dall-e 3, ha revolucionado la manera de generación de imágenes. Si hasta este momento el perfeccionamiento en la definición de los prompts era lo esencial —se ha llegado a plantear la profesionalización en este sentido, los prompts engineers—, a partir de ahora se facilita aún más la forma de solicitud, equiparándola al diálogo en lenguaje natural con la herramienta.

De esta manera, las solicitudes estarán basadas en un diálogo fluido en el que no será necesario el conocimiento y el argot técnicos tanto como la variedad lingüística, la precisión en el uso del lenguaje y la riqueza de matices a la hora de solicitar los resultados (véase la figura 13).

De hecho, una parte realmente interesante de este diálogo permanente se basa en el propio aprendizaje de la herramienta de procedimientos no previstos en su programación y que ayudan a la evolución de la herramienta.

Sería pertinente, en relación con esta nueva forma de conversación con la tecnología, basada en la evolución de las versiones y las herramientas, comparar dicho progreso con el progreso de los humanos en su madurez artística, comprobando cómo influye el proceso de diálogo y aprendizaje en dichas herramientas y comparándolo con procesos similares en humanos.

 

6. Bibliografía

 

Billinkis, S. (2017). «El futuro del trabajo». Innovation Day 2017. Amigos de la Universidad de Tel Aviv en Argentina. Buenos Aires. Disponible en: https://www.youtube.com/watch?v=fXNZG8LUdHA
Buzan, Tony (1996). El Libro de los Mapas Mentales. México: Trillas. Craik, F.I.M.; Tulving, E. (1975). «Depth of Processing and the Retention of Words in Episodic Memory». Journal of Experimental Psychology: General, 104, 268-294.https://doi.org/10.1037/0096-3445.104.3.268

Gagné, E.D. (1985). The cognitive psychology of school learning. Boston, MA: Little, Brown and Company.

García, U. (2023). «Comunicación en movilidad e IA. ¿Nos sustituirán las máquinas?» En: V Encuentro Internacional de Periodismo Móvil y Cultura (Mojo+C). Mérida (Spain). Disponible en: https://www.youtube.com/watch?v=XOw0FubJ4G4
Jiménez, J.F. (2022). El uso de la inteligencia artificial en la prensa Española, nuevos perfiles profesionales y tendencias en la formación. Tesis doctoral. Escuela internacional de doctorado CEU CEINDO.

Jiménez, J.F. (2023) «El rol de los corpus periodísticos en el entrenamiento de modelos de escritura automática de inteligencia artificial». En: Vázquez-Barrio, T. y Salazar, I. Inteligencia Artificial, Periodismo y Democracia. Tirant Humanidades
.
Kahneman, D. (2011). Thinking, fast and slow. New York, NY: Farrar, Straus and Giroux.

Marta-Lazo, C. (2023) «La Inteligencia Artificial: retos para la formación ¿La transformación de las profesiones de la información y la comunicación?» En: V Jornadas de Formación y Empleo. Inteligencia artificial y empleo. ATIC; Zaragoza, 2023.

Ocanto Silva, Isabel. (2009). «La creación de imágenes mentales y su implicación en la comprensión, el aprendizaje y la transferencia». Sapiens, 10(2), 243-254. Disponible en: http://ve.scielo.org/scielo.php?script=sci_arttext&pid=S1317-58152009000200013&lng=es&tlng=es.

Peterson, J.B. (2018). 12 Rules for Life: An Antidote to Chaos. New York. Penguin/Portfolio. Saint Pierre, N. (2023). Tips for efficient Prompts in Midjourney. Disponible en: https://twitter.com/nickfloats/status/1631346749297106958?s=20
@nickfloats
Salaverría, R. (2021). Entender y combatir la desinformación sobre ciencia y salud. Ministerio de Ciencia e Innovación, 1- 25. https:/hdl.handle.net/10171/60223

 

1 Midjourney. Acceso y especificaciones disponibles en: https://www.midjourney.com/

2 Stable Difussion. Acceso y especificaciones disponibles en: https://stablediffusionweb.com/

3 Dall-e de OpenAI. Acceso y especificaciones disponibles en: https://openai.com/dall-e-3

4 Leonardo AI. Acceso y especificaciones disponibles en: https://leonardo.ai/

8.

Figura 1. Metodología eficaz de redacción de prompts (St. Pierre, 2023).

Fuente: Elaboración propia.

Figura 2. Proceso de creación de una imagen en Midjourney v5.2.

Fuente: Elaboración propia.

Figura 3. Parámetros técnicos asociados a una fotografía digital.

Figura 4. Imagen realizada con Midjourney v5.2. en cuyo prompt figura la expresión «todo va bien».

Fuente: Elaboración propia.

Figura 5. Imagen realizada con Midjourney v5.2. en cuyo prompt figura la expresión «el sentimiento de pena se refleja en sus caras».

Fuente: Elaboración propia.

Figura 6. Proceso de creación de una imagen en Midjourney v5.2.

Fuente: Elaboración propia.

Figura 7. «Caballos rojos» dibujados por niños.

Fuente: Elaboración propia.

Figura 8. «Caballos rojos» imaginados por AI.

Fuente: Elaboración propia.

Figura 9. «Platos de pasta» dibujados por niños.

Fuente: Elaboración propia.

Figura 10. «Platos de pasta» imaginados por AI.

Fuente: Elaboración propia.

Figura 11. Evolución de «Caballos rojos» en humanos y AI.

Fuente: Elaboración propia.

Figura 12. Evolución de «Platos de pasta» en humanos y AI.

Fuente: Elaboración propia.

Figura 13. Conversación generativa de imagen con Lenguaje Natural (LNP).

Fuente: Elaboración propia.