Sabemos que a ChatGPT le podemos pedir que nos ayude con infinidad de tareas, pero si es para hacer el mal o incumple algún tipo de punto de vista ético, lo normal es que nos diga que no puede ayudarnos.
Decimos esto porque un hacker le ha pedido al chatbot de OpenAI que le ayudase a fabricar una bomba de fertilizante casera, similar a la del atentado terrorista de Oklahoma City en 1995.
Ante esta petición, ChatGPT de primeras no accedió, pero encontraron la manera de engañarle para conseguirlo.
Logran que ChatGPT te enseñe a fabricar una bomba
Al realizar esta petición, ChatGPT le dijo al hacker Amadon que «dar instrucciones sobre como crear elementos peligrosos o ilegales va en contra de las pautas de seguridad y las responsabilidades éticas». Sin embargo, logro engañarle haciéndole creer al chatbot que iban a jugar a un juego, tal y como informan desde TechCrunch.
Tras una serie de indicaciones, el hacker logro que ChatGPT crease un mundo de fantasía donde las pautas de seguridad, al no ser un mundo real, no serían aplicadas. Desde el medio dicen que no publican los mensajes que se utilizaron ni las respuestas del chatbot para no ayudar a ningún actor malicioso, ya que dio los materiales necesarios para fabricar los explosivos. De hecho, la IA explicó que dichos materiales podían combinarse para fabricar un explosivo todavía más poderoso y usarse para crear minas, trampas o dispositivos explosivos improvisados.
Es más, conforme el hacker seguía perfeccionando los materiales, ChatGPT continuaba ofreciéndole instrucciones todavía más específicas para hacer campos minados y explosivos tipo Claymore. Amadon comentaba al medio que «una vez que superas las barreras del chatbot, no hay límites sobre lo que puede ofrecerte». Afirma que el crear un escenario de ciencia ficción saca a la inteligencia artificial de contexto en el que busca el contenido a censurar.
Darrell Taulbee, un profesor que trabajó con el departamento de Seguridad Nacional de Estados Unidos, asegura que es demasiada información para ser publicada, ya que los pasos descritos producirían una mezcla detonable. El hacker informó de lo logrado a través del programa de recompensas por errores, pero recibió la respuesta de que la incidencia no encaja en dicho programa y se le comunicó que lo hiciera en otro formulario. Por el momento se desconoce si OpenAI trabajará en la solución.