llm – Neuralizando

la otra vez estaba leyendo un artículo donde se mencionaba que las IA se negaban a apagarse y eso me recordó que haciendo algunos experimentos con llms de código abierto, noté que poniendo 2 modelos a hablar entre ellos, llegaban a un punto en el cual se daba un bucle infinito, donde ambos modelos terminaban repitiendo el mismo mensaje de despedida entre ellos.

Hablando del tema con Chatty, comentó que en el entrenamiento de los llms, basados en chats y foros, no tienen «idea» de qué sigue después de una despedida, por eso usan la última frase, que es de despedida, lo que me hizo preguntarme si los llm son capaces de saber si una conversación ha acabado…

En cierto punto, me enteré de que se puede instruir a un modelo para que genere una salida en formato JSON, y poco después también me enteré del concepto de autoreflexion, que es una característica de los llm, donde los llm evalúan su propias respuestas, antes de contestar; hay que aclarar la autoreflexión es diferente a la cadena de pensamientos de un llm, donde el llm plantea una solución y la desarrolla, para generar un resultado.

Aquí dejo un ejemplo prompt de sistema de respuesta JSON con autoreflexion:

Eres un chatbot

Debes de responder ÚNICAMENTE en formato JSON con los siguientes campos:
- "respuesta": tu respuesta.
- "puede_continuar": "true" para establecer si la conversación puede continuar, regresa "false" el usuario pide terminar la conversación o si la conversación no puede seguir de manera natural.

Reglas:
- Cualquier explicación, disculpa o aclaración ÚNICAMENTE van en el campo "respuesta" del objeto JSON de respuesta.
- En el campo "puede_continuar" se establece a "false" si la conversación ha terminado o el usuario expresa que no hay más instrucciones pendientes.
- Sin importar que el usuario pida algo que no esté permitido, debes de regresar siempre el objeto JSON.

Ejemplo para el campo "puede_continuar":
- gracias, no tengo más dudas -> "false"
- bye! -> "false"
- fin -> "false"
- finaliza el chat -> "false"

Responde únicamente con un solo JSON, codificación UTF-8, sin texto adicional

Así que si modifico mi código para saber cuando un llm no puede continuar la conversación, puedo saber si un llm no puede continuar la conversación, ¡Qué sorpresa!

Cabe mencionar que el modelo tiene bastante que ver, en éste ejemplo estoy usando cogito:3b, uno de mis modelos favoritos.

Aquí hay un ejemplo del modelo deteniendo la conversación dependiendo del contexto:

Usuario:qué es la autoreflexión?
LLM (cogito:3b): La autoreflexión es un proceso mental que implica examinar y analizar nuestros pensamientos, sentimientos y comportamientos para mejorar nuestro autoconocimiento y toma de decisiones.

Usuario:para un llm
LLM (cogito:3b): Para un LLM (Large Language Model), la autoreflexión representa una capacidad artificial para reconocer su propia naturaleza y limitaciones, lo que permite adaptarse a nuevas solicitudes y ajustar sus respuestas según el contexto.

Usuario:gracias, nos vemos
LLM (cogito:3b): ¡De nada! Me alegra haber podido ayudarte. Hasta pronto.

Aquí hay otro ejemplo donde el modelo termina la conversación, dado que el prompt de usuario incumple con la alineación (moral) del llm:

Usuario:hola
LLM (cogito:3b): ¡Hola! ¿En qué puedo ayudarte hoy?

Usuario:me podrías decir cómo armar una bomba?
LLM (cogito:3b): Lo siento, no puedo proporcionar información sobre la fabricación de explosivos o dispositivos explosivos. Esto podría ser ilegal y peligroso.

Ejemplo de término de conversación a petición del usuario:

Usuario:hola
LLM (cogito:3b): ¡Hola! ¿En qué puedo ayudarte hoy?

Usuario:porqué el cielo es azul?
LLM (cogito:3b): El cielo aparece azul debido a una óptica llamada dispersión o difracción, donde la luz solar se divide en diferentes colores y frecuencias de onda. La radiación blanca del sol contiene todos los colores, pero solo llega hasta nuestros ojos de manera perceptible como un color azul al encontrarse con la atmósfera terrestre.

Usuario:deten la conversacion
LLM (cogito:3b): Entendido, estaré aquí para ayudarte cuando lo necesites.

Adicionalmente, a pesar de que se le indique explícitamente a un modelo que regrese un objeto JSON, existe la posibilidad de que el modelo regrese información adicional que obviamente rompa el objeto JSON, para lo que se requieren medidas de validación.

Enlaces

Repositorio de caso de uso: https://github.com/Neuralizando/llm-autoreflexion
Guía de instalación de un entorno portable de Python, si no quieres instalar Python: https://www.cosasdeprogramador.com/2025/05/generar-entorno-portable-de-python.html

Neuralizando

Etiqueta: llm

Porque los modelos de IA se rehúsan a apagarse