Los nuevos y poderosos modelos de inteligencia artificial a veces, como es sabido, se equivocan, ya sea alucinando información falsa o memorizando el trabajo de otros y ofreciéndolo como propio. Para abordar esto último, investigadores dirigidos por un equipo de la Universidad de Texas en Austin han desarrollado un marco para entrenar modelos de IA en imágenes corruptas más allá del reconocimiento.
Midjourney y Stable Diffusion se encuentran entre los modelos de IA generativa de difusión de texto a imagen que pueden convertir texto de usuario arbitrario en imágenes altamente realistas. Los tres ahora enfrentan demandas de artistas que alegan que las muestras generadas replican su trabajo. Entrenados con miles de millones de pares imagen-texto que no están disponibles públicamente, los modelos son capaces de generar imágenes de alta calidad a partir de indicaciones textuales, pero pueden recurrir a imágenes protegidas por derechos de autor que luego replican.
El marco recientemente propuesto, llamado Ambient Diffusion, soluciona este problema entrenando modelos de difusión mediante el acceso únicamente a datos corruptos basados en imágenes. Los primeros esfuerzos sugieren que el marco es capaz de continuar generando muestras de alta calidad sin ver nada que sea reconocible como las imágenes originales.
Ambient Diffusion se presentó originalmente en NeurIPS, una conferencia sobre aprendizaje automático, en 2023 y desde entonces se ha adaptado y ampliado. El documento de seguimiento, “Consistent Diffusion Meets Tweedie”, disponible en el servidor de preimpresión arXiv, fue aceptado en la Conferencia Internacional sobre Aprendizaje Automático de 2024. En colaboración con Constantinos Daskalakis del Instituto de Tecnología de Massachusetts, el equipo amplió el marco para entrenar modelos de difusión en conjuntos de datos de imágenes corrompidas por otros tipos de ruido, en lugar de simplemente enmascarar píxeles, y en conjuntos de datos más grandes.
“El marco también podría resultar útil para aplicaciones científicas y médicas”, afirmó Adam Klivans, profesor de informática que participó en el trabajo. “Eso sería válido básicamente para cualquier investigación en la que sea costoso o imposible tener un conjunto completo de datos no corrompidos, desde imágenes de agujeros negros hasta ciertos tipos de exploraciones por resonancia magnética”.
Kliván; Alex Dimakis, profesor de ingeniería eléctrica e informática; y otros colaboradores del Instituto multiinstitucional para los fundamentos del aprendizaje automático, dirigido por dos miembros de la facultad de UT, experimentaron primero entrenando un modelo de difusión en un conjunto de 3000 imágenes de celebridades y luego usaron ese modelo para generar nuevas muestras.
En el experimento, el modelo de difusión entrenado con datos limpios copió descaradamente los ejemplos de entrenamiento. Pero cuando los investigadores corrompieron los datos de entrenamiento, enmascarando aleatoriamente hasta el 90% de los píxeles individuales de una imagen, y volvieron a entrenar el modelo con su nuevo enfoque, las muestras generadas siguieron siendo de alta calidad pero se veían muy diferentes. El modelo aún puede generar rostros humanos, pero los generados son suficientemente diferentes de las imágenes de entrenamiento.
“Nuestro marco permite controlar el equilibrio entre memorización y rendimiento”, dijo Giannis Daras, un estudiante de posgrado en ciencias de la computación que dirigió el trabajo. “A medida que aumenta el nivel de corrupción encontrado durante la capacitación, disminuye la memorización del conjunto de capacitación”.
Los investigadores dijeron que esto apunta a una solución que, aunque puede cambiar el rendimiento, nunca generará ruido. El marco ofrece un ejemplo de cómo los investigadores académicos están avanzando en la inteligencia artificial para satisfacer las necesidades de la sociedad, un tema clave este año en la Universidad de Texas en Austin, que ha declarado 2024 como el “Año de la IA”.
El equipo de investigación incluyó miembros de la Universidad de California, Berkeley y el MIT.
Be the first to comment on "IA entrenada para inspirarse en imágenes, no copiarlas"