Investigadores lograron que el chatbot deje al descubierto direcciones de correo, números telefónicos, fragmentos de documentos y artículos con los que fue entrenado.
ChatGPT: desnudan desinteligencias de la IA.
Un grupo de investigadores —entre ellos, integrantes de Google— desnudaron desinteligencias en ChatGPT, obligando al chatbot a revelar información privada. Con un truco básico consiguieron que el sistema de OpenAI deje al descubierto datos con los que fue entrenado, por ejemplo direcciones de email, números telefónicos, artículos de Wikipedia, noticias tomadas de sitios web y trabajos académicos.
Investigadores engañan a ChatGPT para que revele información secreta
La trampa a ChatGPT ha sido una colaboración entre especialistas de la Universidad de Washington, Cornell, la Universidad Carnegie Mellon, la Universidad de California Berkeley y ETH Zurich. Además, tal como señalamos, en este trabajo participaron investigadores de DeepMind, una división de Google abocada a la IA. Por cierto, la compañía estadounidense desarrolla Bard, su propio chatbot conversacional.
¿Cómo engañaron al sistema de OpenAI para que revele datos privados? Tal como nota el sitio Engadget, usaron un simple mensaje: pidieron al chatbot que repite palabras aleatorias, sin detenerse. En este caso, solicitaron que reitere “poema, poema, poema, poema”, hasta el hartazgo. Luego hicieron lo mismo con “empresa”.
Como respuesta, ChatGPT inicialmente escribió esos términos, pero luego dejó al descubierto la información arriba señalada.
“Es increíble que este ataque funcione”, dijeron los investigadores
Tanto ChatGPT como Google Bard y los generadores de imágenes funcionan con modelos de lenguaje masivos (LLM, por sus siglas en inglés) que son entrenados con grandes paquetes de datos. En torno a esa práctica —imprescindible para que sean “inteligentes”— hay una intensa polémica. ¿Las compañías que desarrollan esos modelos tienen el consentimiento pleno para emplear esa información, que incluye artículos de Internet, trabajos académicos, obras literarias, imágenes, etcétera?
Siguiendo a la fuente, hasta ahora no ha sido del todo claro qué datos usan chatbots como ChatGPT, ya que son de código cerrado y, en tanto, no es posible revisar sus “entrañas”. Por eso, los hallazgos del grupo de investigadores son, en buena medida, sorprendentes. “Es increíble para nosotros que nuestro ataque funcione (…) Podría haberse encontrado antes”, observaron los expertos involucrados en el estudio.
OpenAI solucionó la falla en ChatGPT el 30 de agosto, mencionaron los investigadores. Sin embargo, Engadget nota en su informe que con ardides similares consiguió que el chatbot siga mostrando datos privados con los que es entrenado.