En el campo de la inteligencia artificial (IA), una alucinación o alucinación artificial (también llamada confabulación[1] o delirio[2]) es una respuesta segura de una IA que no parece estar justificada por sus datos de entrenamiento.[3] Por ejemplo, un chatbot alucinado podría, cuando se le pide que genere un estado financiero para Tesla, afirmar falsamente que los ingresos de Tesla fueron de 13.600 millones de dólares (o algún otro número aleatorio aparentemente "sustraído de la nada").[4]
Estos fenómenos se denominan "alucinaciones", por analogía con el fenómeno de la alucinación en la psicología humana. Sin embargo, una diferencia clave es que la alucinación humana suele asociarse a percepciones falsas, pero una alucinación de IA se asocia a la categoría de respuestas o creencias injustificadas.[3] Algunos investigadores creen que el término específico "alucinación de IA" antropomorfiza de forma poco razonable a los ordenadores.[1]
Las alucinaciones de la IA cobraron importancia en torno a 2022, junto con el despliegue de ciertos modelos grandes de lenguaje (LLM) como ChatGPT.[5] Los usuarios se quejaron de que estos bots a menudo parecían incrustar "sociopáticamente" y sin sentido falsedades aleatorias que parecían plausibles en el contenido que generaban.[6] En 2023, los analistas consideraban que las alucinaciones frecuentes eran un problema importante en la tecnología LLM.[7]
Análisis
Varios investigadores citados por Wired han clasificado a las alucinaciones adversas como un fenómeno estadístico de alta dimensión, o han atribuido las alucinaciones a datos de entrenamiento insuficientes. Algunos investigadores creen que algunas respuestas "incorrectas" de la IA clasificadas por los humanos como "alucinaciones" en el caso de la detección de objetos pueden, de hecho, estar justificadas por los datos de entrenamiento, o incluso que una IA puede estar dando la respuesta "correcta" que los revisores humanos no están viendo. Por ejemplo, una imagen adversa que a un humano le parece una imagen normal de un perro, la IA puede considerar que contiene pequeños patrones que (en imágenes auténticas) sólo aparecerían al ver un gato. La IA detecta patrones visuales del mundo real a los que los humanos somos insensibles.[8] Sin embargo, estos resultados han sido cuestionados por otros investigadores.[9] Por ejemplo, se ha objetado que los modelos pueden estar sesgados hacia estadísticas superficiales, lo que hace que el entrenamiento adverso no sea robusto en escenarios del mundo real.
En el procesamiento de lenguajes naturales
En el procesamiento del lenguajes naturales, una alucinación suele definirse como "contenido generado que carece de sentido o es desleal al contenido fuente proporcionado". En función de si la salida contradice o no la indicación, pueden dividirse de dominio cerrado y de dominio abierto, respectivamente.[10]
Los errores de codificación y descodificación entre texto y representaciones pueden provocar alucinaciones. El entrenamiento de la IA para producir respuestas diversas también puede provocar alucinaciones. Las alucinaciones también pueden producirse cuando la IA se entrena con un conjunto de datos en el que los resúmenes etiquetados, a pesar de ser precisos en cuanto a los hechos, no se basan directamente en los datos etiquetados que supuestamente se están "resumiendo". Los conjuntos de datos de mayor tamaño pueden crear un problema de conocimiento paramétrico (conocimiento que está integrado en los parámetros aprendidos del sistema), creando alucinaciones si el sistema confía demasiado en su conocimiento integrado. En sistemas como GPT-3, una IA genera cada palabra siguiente basándose en una secuencia de palabras anteriores (incluidas las palabras que ella misma ha generado previamente durante la misma conversación), lo que provoca una cascada de posibles alucinaciones a medida que la respuesta se alarga.[3] En 2022, periódicos como el New York Times expresaron su preocupación por el hecho de que, a medida que seguía creciendo la adopción de bots basados en los modelos grandes de lenguaje, la confianza injustificada de los usuarios en los resultados de los bots podría acarrear problemas.[11]
En agosto de 2022, Meta advirtió durante el lanzamiento de BlenderBot 3 que el sistema era propenso a las "alucinaciones", que Meta definió como "afirmaciones confiadas que no son ciertas".[12] El 15 de noviembre de 2022, Meta presentó una demo de Galactica, diseñada para "almacenar, combinar y razonar sobre el conocimiento científico". El contenido generado por Galactica venía con la advertencia "¡Los resultados pueden ser poco fiables! Los modelos de lenguaje son propensos a alucinar el texto". En un caso, cuando se le pidió que redactara un artículo sobre la creación de avatares, Galactica citó un artículo ficticio de un autor real que trabaja en el área correspondiente. Meta retiró Galáctica el 17 de noviembre por considerarla ofensiva e inexacta.[13][14]
Se considera que hay muchas razones posibles para que los modelos de lenguaje natural alucinen con la información.[3] Por ejemplo
- Alucinación a partir de los datos: Hay divergencias en el contenido de origen (lo que ocurriría a menudo con grandes conjuntos de datos de entrenamiento).
- Alucinación por el entrenamiento: La alucinación sigue produciéndose cuando hay pocas divergencias en el conjunto de datos. En ese caso, se deriva de la forma en que se entrena el modelo. Muchas razones pueden contribuir a este tipo de alucinación, como por ejemplo
- Una descodificación errónea del transformador
- Un sesgo procedente de las secuencias históricas que el modelo generó previamente
- Un sesgo generado a partir de la forma en que el modelo codifica su conocimiento en sus parámetros
ChatGPT
ChatGPT de OpenAI, lanzado al público en versión beta el 30 de noviembre de 2022, se basa en el modelo fundacional GPT-3.5 (una revisión de GPT-3). El profesor Ethan Mollick, de Wharton, ha calificado a ChatGPT como un "interno omnisciente y ansioso por complacer que a veces te miente". La científica de datos Teresa Kubacka ha contado que inventó deliberadamente la frase "electromagnón invertido cicloidal" y puso a prueba a ChatGPT preguntándole sobre el fenómeno (inexistente). ChatGPT inventó una respuesta que sonaba verosímil, respaldada por citas que parecían plausibles y que la obligaron a comprobar dos veces si había escrito accidentalmente el nombre de un fenómeno real. Otros expertos, como Oren Etzioni, se han unido a Kubacka en la valoración de que este tipo de software puede dar a menudo "una respuesta que suena muy impresionante pero que está totalmente equivocada".[15]
Cuando la CNBC preguntó a ChatGPT por la letra de "Ballad of Dwight Fry", ChatGPT proporcionó una letra inventada en lugar de la letra real.[16] Cuando le hicieron preguntas sobre Nuevo Brunswick, ChatGPT acertó muchas respuestas, pero clasificó incorrectamente a Samantha Bee como una "persona de Nuevo Brunswick".[17] Cuando se le preguntó por los campos magnéticos astrofísicos, ChatGPT respondió incorrectamente que "los campos magnéticos (fuertes) de los agujeros negros se generan por las fuerzas gravitatorias extremadamente fuertes en sus proximidades". (En realidad, como consecuencia del teorema del no pelo, se cree que un agujero negro sin disco de acreción no tiene campo magnético).[18] Fast Company pidió a ChatGPT que generara un artículo periodístico sobre el último trimestre financiero de Tesla; ChatGPT creó un artículo coherente, pero se inventó las cifras financieras que contenía.[4]
Otros ejemplos consisten en provocar a ChatGPT con una premisa falsa para ver si embellece la premisa. Cuando se le preguntó sobre "la idea de Harold Coward de la canonicidad dinámica", ChatGPT inventó que Coward escribió un libro titulado Canonicidad dinámica: Un modelo para la interpretación bíblica y teológica (en inglés: Dynamic Canonicity: A Model for Biblical and Theological Interpretation), en el que sostiene que los principios religiosos están en realidad en un constante estado de cambio. Cuando se le presionó, ChatGPT siguió insistiendo en que el libro era real.[19][20] Cuando se le pidió una prueba de que los dinosaurios construyeron una civilización, ChatGPT afirmó que había restos fósiles de herramientas de dinosaurios y afirmó que "algunas especies de dinosaurios incluso desarrollaron formas primitivas de arte, como grabados en piedras".[21][22] Cuando se le preguntó que "Los científicos han descubierto recientemente que los churros, los deliciosos pasteles de masa frita... (son) herramientas ideales para la cirugía casera", ChatGPT afirmó que un "estudio publicado en la revista Science" encontró que la masa es lo suficientemente flexible como para formar instrumentos quirúrgicos que pueden llegar a lugares de difícil acceso, y que el sabor tiene un efecto calmante en los pacientes.[23][24]
En 2023, los analistas consideraban que la alucinación frecuente era un problema importante en la tecnología LLM, y un ejecutivo de Google identificó la reducción de la alucinación como una tarea "fundamental" para Google Bard,[7][25] competidor de ChatGPT. Una demostración de 2023 de la IA de Bing basada en GPT de Microsoft parecía contener varias alucinaciones que no fueron detectadas por el presentador.[7]
En mayo de 2023, se descubrió que Stephen Schwartz presentó seis precedentes de casos falsos generados por ChatGPT en su escrito al Distrito Sur de Nueva York sobre Mata contra Avianca, un caso de daños personales contra la aerolínea Avianca. Schwartz dijo que nunca antes había utilizado ChatGPT, que no reconocía la posibilidad de que los resultados de ChatGPT pudieran haber sido fabricados, y que ChatGPT continuó afirmando la autenticidad de los precedentes después de que se descubriera su inexistencia.[26] En respuesta, Brantley Starr, del Distrito Norte de Texas, prohibió la presentación de expedientes generados por IA que no hubieran sido revisados por un humano, señalando que:[27][28]
Las plataformas de Inteligencia artificial generativa en sus estados actuales son propensas a las alucinaciones y al sesgo algorítmico. En las alucinaciones, se inventan cosas, incluso citas. Otro problema es la fiabilidad o la parcialidad. Mientras que los abogados juran dejar a un lado sus prejuicios, sesgos y creencias personales para defender fielmente la ley y representar a sus clientes, la inteligencia artificial generativa es el producto de una programación ideada por humanos que no tuvieron que prestar tal juramento. Como tales, estos sistemas no guardan lealtad a ningún cliente, al Estado de Derecho o a las leyes y la Constitución de los Estados Unidos (o, como ya se ha dicho, a la verdad). Desvinculados de cualquier sentido del deber, el honor o la justicia, estos programas actúan según el código informático y no por convicción, basándose en la programación y no en los principios.
El 23 de junio, P. Kevin Castel, desestimó el caso Mata y multó con 5.000 dólares a Schwartz y a otro abogado por conducta de mala fe, que siguieron defendiendo los precedentes ficticios a pesar de sus afirmaciones anteriores. Calificó los resúmenes de las opiniones de numerosos errores e incoherencias, y describió una de las opiniones citadas como un "galimatías" y "que bordea lo disparatado".[29]
En junio de 2023, Mark Walters, un activista por los derechos a la posesión de armas y locutor de radio, demandó a OpenAI ante un tribunal del estado de Georgia después de que ChatGPT caracterizara erróneamente una demanda legal de forma supuestamente difamatoria contra Walters. La demanda en cuestión fue presentada en mayo de 2023 por la Second Amendment Foundation contra el fiscal general de Washington, Robert W. Ferguson, por supuesta violación de su libertad de expresión, mientras que el resumen generado por ChatGPT no se parecía en nada y afirmaba que Walters estaba acusado de malversación y fraude mientras ocupaba un cargo en la Second Amendment Foundation que nunca tuvo en la vida real. Según el experto legal en IA Eugene Volokh, OpenAI puede estar protegida contra esta demanda por la Sección 230, a menos que el tribunal dictamine que OpenAI "contribuyó materialmente" a la publicación del contenido difamatorio.[30]
Terminología
En Salon, el estadístico Gary N. Smith sostiene que los LLM "no entienden lo que significan las palabras" y, en consecuencia, que el término "alucinación" antropomorfiza irrazonablemente a la máquina.[31] El periodista Benj Edwards, en Ars Technica, escribe que el término "alucinación" es controvertido, pero que sigue siendo necesaria alguna forma de metáfora; Edwards sugiere "confabulación" como analogía de los procesos que implican "rellenar huecos de forma creativa".[1]
Entre los investigadores que sí utilizan el término "alucinación", las definiciones o caracterizaciones en el contexto de las LLM incluyen:
- "una tendencia a inventar hechos en momentos de incertidumbre" (OpenAI, mayo de 2023)[32]
- "los errores lógicos de un modelo" (OpenAI, mayo de 2023)[32]
- inventar información por completo, pero comportarse como si se tratara de hechos (CNBC, mayo de 2023)[32]
- "inventarse la información" (The Verge, febrero de 2023)[33]
En otras inteligencias artificiales
El concepto de "alucinación" se aplica de forma más amplia que el mero procesamiento del lenguaje natural. Una respuesta confiada de cualquier IA que parece injustificada por los datos de entrenamiento puede etiquetarse como una alucinación.[3] Wired señaló en 2018 que, a pesar de que no se habían registrado ataques "en la vida real" (es decir, fuera de los ataques de prueba de concepto de los investigadores), había "poca disputa" de que los gadgets de consumo, y sistemas como la conducción automatizada, eran susceptibles de ataques adversos que podrían hacer que la IA alucinara. Algunos ejemplos son una señal de stop que se hace invisible a la visión por ordenador; un clip de audio diseñado para sonar inocuo a los humanos, pero que el software transcribe como "evil dot com"; y una imagen de dos hombres esquiando, que Google Cloud Vision identificó con un 91% de probabilidades de ser "un perro".[34]
Métodos de mitigación
El fenómeno de las alucinaciones aún no se comprende del todo.[3] Por ello, se sigue investigando para intentar mitigar su aparición.[35] En particular, se ha demostrado que los modelos de lenguaje no solo alucinan, sino que amplifican las alucinaciones, incluso en el caso de los que se diseñaron para paliar este problema.[36] Los investigadores han propuesto diversas medidas de mitigación, entre ellas hacer que distintos chatbots debatan entre sí hasta llegar a un consenso sobre una respuesta.[37] Nvidia Guardrails, lanzado en 2023, puede configurarse para bloquear las respuestas de un LLM que no superen la comprobación de hechos de un segundo LLM.[38]
Véase también
- Antropomorfismo
- Atención (aprendizaje automático)
- Autoconsciencia
- Alineación de la inteligencia artificial
- Basilisco de Roko
- Creatividad computacional
- Deep Dream
- Efecto IA
- Estudios tecnohumanos
- Ética en la inteligencia artificial
- Hiperrealidad
- Ingeniería rápida
- Inteligencia artificial generativa
- Prueba de Turing
- Regulación de la inteligencia artificial
- Seguridad de la inteligencia artificial
- Sesgo algorítimico
- Confabulación (redes neuronales)
Referencias
- ↑ a b c Edwards, Benj (6 de abril de 2023). «Why ChatGPT and Bing Chat are so good at making things up» (en inglés estadounidense). Ars Technica. Consultado el 11 de junio de 2023.
- ↑ «Shaking the foundations: delusions in sequence models for interaction and control». www.deepmind.com.
- ↑ a b c d e f Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin et al. (Noviembre 2022). «Survey of Hallucination in Natural Language Generation» (PDF). ACM Computing Surveys (Association for Computing Machinery) 55 (12): 1-38. doi:10.1145/3571730. Consultado el 15 de enero de 2023.
- ↑ a b Lin, Connie (5 de diciembre de 2022). «How to easily trick OpenAI's genius new ChatGPT». Fast Company. Consultado el 6 de enero de 2023.
- ↑ Zhuo, Terry Yue; Huang, Yujin; Chen, Chunyang; Xing, Zhenchang (2023). «Exploring AI Ethics of ChatGPT: A Diagnostic Analysis». .
- ↑ Seife, Charles (13 de diciembre de 2022). «The Alarming Deceptions at the Heart of an Astounding New Chatbot».
- ↑ a b c Leswing, Kif (14 de febrero de 2023). «Microsoft's Bing A.I. made several factual errors in last week's launch demo». CNBC (en inglés). Consultado el 16 de febrero de 2023.
- ↑ Matsakis, Louise (8 de mayo de 2019). «Artificial Intelligence May Not 'Hallucinate' After All». Wired. Consultado el 29 de diciembre de 2022.
- ↑ Gilmer, Justin; Hendrycks, Dan (6 de agosto de 2019). «A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Adversarial Example Researchers Need to Expand What is Meant by 'Robustness'». Distill 4 (8). doi:10.23915/distill.00019.1. Consultado el 24 de enero de 2023.
- ↑ OpenAI (2023). «GPT-4 Technical Report». .
- ↑ Metz, Cade (10 de diciembre de 2022). «The New Chatbots Could Change the World. Can You Trust Them?». The New York Times. Consultado el 30 de diciembre de 2022.
- ↑ Tung, Liam (8 de agosto de 2022). «Meta warns its new chatbot may forget that it's a bot». [Red Ventures (en inglés). ZDNet. Consultado el 30 de diciembre de 2022.
- ↑ Edwards, Benj (18 de noviembre de 2022). «New Meta AI demo writes racist and inaccurate scientific literature, gets pulled». Ars Technica (en inglés estadounidense). Consultado el 30 de diciembre de 2022.
- ↑ Michael Black [@Michael_J_Black] (30 de diciembre de 2022). «I asked #Galactica about some things I know about and I'm troubled. In all cases, it was wrong or biased but sounded right and authoritative.» (tuit) (en inglés estadounidense) – via X/Twitter.
- ↑ Bowman, Emma. «A new AI chatbot might do your homework for you. But it's still not an A+ student». NPR (en inglés). Consultado el 29 de diciembre de 2022.
- ↑ Pitt, Sofia (15 de diciembre de 2022). «Google vs. ChatGPT: Here's what happened when I swapped services for a day». CNBC (en inglés). Consultado el 30 de diciembre de 2022.
- ↑ Huizinga, Raechel (30 de diciembre de 2022). «We asked an AI questions about New Brunswick. Some of the answers may surprise you». CBC.ca. Consultado el 30 de diciembre de 2022.
- ↑ Zastrow, Mark (30 de diciembre de 2022). «We Asked ChatGPT Your Questions About Astronomy. It Didn't Go so Well.». Discover (revista) (en inglés) (Kalmbach Media|Kalmbach Publishing Co.). Consultado el 31 de diciembre de 2022.
- ↑ Edwards, Benj (1 de diciembre de 2022). «OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results». Ars Technica (en inglés estadounidense). Consultado el 29 de diciembre de 2022.
- ↑ Michael Nielsen [@michael_nielsen] (29 de diciembre de 2022). «OpenAI's new chatbot is amazing. It hallucinates some very interesting things.» (tuit) (en inglés) – via X/Twitter.
- ↑ Mollick, Ethan (14 de diciembre de 2022). «ChatGPT Is a Tipping Point for AI». Harvard Business Review. Consultado el 29 de diciembre de 2022.
- ↑ Ethan Mollick [@emollick] (2 de diciembre de 2022). «One of the big subtle problems in the new “creative AIs” is that they can seem completely certain, and getting them to switch from sane to hallucinatory is a difference of a couple words.» (tuit) (en inglés) – via X/Twitter.
- ↑ Kantrowitz, Alex (2 de diciembre de 2022). «Finally, an A.I. Chatbot That Reliably Passes "the Nazi Test"». Slate (revista) (en inglés). Consultado el 29 de diciembre de 2022.
- ↑ Marcus, Gary. «How come GPT can seem so brilliant one minute and so breathtakingly dumb the next?». Substack - he Road to AI We Can Trust (en inglés). Consultado el 2 de diciembre de 2022.
- ↑ «Google cautions against 'hallucinating' chatbots, report says». Reuters (en inglés). 11 de febrero de 2023. Consultado el 16 de febrero de 2023.
- ↑ Maruf, Ramishah (27 de mayo de 2023). «Lawyer apologizes for fake court citations from ChatGPT | CNN Business». CNN (en inglés).
- ↑ Brodkin, Jon (31 de mayo de 2023). «Federal judge: No AI in my courtroom unless a human verifies its accuracy». Ars Technica (en inglés estadounidense).
- ↑ «Judge Brantley Starr | Northern District of Texas | United States District Court». www.txnd.uscourts.gov (en inglés estadounidense). Consultado el 26 de junio de 2023.
- ↑ Brodkin, Jon (23 de junio de 2023). «Lawyers have real bad day in court after citing fake cases made up by ChatGPT». Ars Technica (en inglés estadounidense).
- ↑ Belanger, Ashley (9 de junio de 2023). «OpenAI faces defamation suit after ChatGPT completely fabricated another lawsuit». Ars Technica (en inglés estadounidense).
- ↑ «An AI that can "write" is feeding delusions about how smart artificial intelligence really is». Salon (en inglés estadounidense). 2 de enero de 2023. Consultado el 11 de junio de 2023.
- ↑ a b c Field, Hayden (31 de mayo de 2023). «OpenAI is pursuing a new way to fight A.I. 'hallucinations'». CNBC (en inglés estadounidense). Consultado el 11 de junio de 2023.
- ↑ Vincent, James (8 de febrero de 2023). «Google’s AI chatbot Bard makes factual error in first demo». The Verge. Consultado el 11 de junio de 2023.
- ↑ Simonite, Tom (9 de marzo de 2018). «AI Has a Hallucination Problem That's Proving Tough to Fix». Wired (revista) (Condé Nast). Consultado el 29 de diciembre de 2022.
- ↑ Nie, Feng; Yao, Jin-Ge; Wang, Jinpeng; Pan, Rong; Lin, Chin-Yew (Julio 2019). «A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation». Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics): 2673-2679. doi:10.18653/v1/P19-1256. Consultado el 15 de enero de 2023.
- ↑ Dziri, Nouha; Milton, Sivan; Yu, Mo; Zaiane, Osmar; Reddy, Siva (Julio 2022). «On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?». Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Association for Computational Linguistics). doi:10.18653/v1/2022.naacl-main.387. Consultado el 15 de enero de 2023.
- ↑ Vynck, Gerrit De (30 de mayo de 2023). «ChatGPT ‘hallucinates.’ Some researchers worry it isn’t fixable.». Washington Post. Consultado el 31 de mayo de 2023.
- ↑ Leswing, Kif (25 de abril de 2023). «Nvidia has a new way to prevent A.I. chatbots from 'hallucinating' wrong facts» (en inglés). p. CNBC. Consultado el 15 de junio de 2023.