La diferencia entre un modelo convencional y un razonamiento es similar a los dos tipos de pensamiento descritos por el economista ganador del premio Nobel Michael Kahneman en su libro de 2011 Pensando rápido y lento: Sistema rápido e instintivo 1 pensamiento y más lento más deliberativo-2 pensamiento.
El tipo de modelo que hizo posible chatgpt, conocido como modelo de lenguaje grande o LLM, produce respuestas instantáneas a un aviso al consultar una gran red neuronal. Estas salidas pueden ser sorprendentemente inteligentes y coherentes, pero pueden no responder preguntas que requieren razonamiento paso a paso, incluida la aritmética simple.
Un LLM puede verse obligado a imitar el razonamiento deliberativo si se le indica que se le ocurra un plan que debe seguir. Sin embargo, este truco no siempre es confiable, y los modelos generalmente luchan para resolver problemas que requieren una planificación extensa y cuidadosa. OpenAI, Google y ahora Anthrope están utilizando un método de aprendizaje automático conocido como aprendizaje de refuerzo para obtener sus últimos modelos para aprender a generar razonamiento que apunte hacia las respuestas correctas. Esto requiere recopilar datos de entrenamiento adicionales de humanos para resolver problemas específicos.
Penn dice que el modo de razonamiento de Claude recibió datos adicionales sobre aplicaciones comerciales, incluidas la escritura y el código de arreglo, el uso de computadoras y respondiendo preguntas legales complejas. “Las cosas en las que hicimos mejoras son … sujetos técnicos o sujetos que requieren un largo razonamiento”, dice Penn. “Lo que tenemos de nuestros clientes es mucho interés en implementar nuestros modelos en sus cargas de trabajo reales”.
Anthrope dice que Claude 3.7 es especialmente bueno para resolver problemas de codificación que requieren un razonamiento paso a paso, superando el O1 de OpenAI en algunos puntos de referencia como SWE-Bench. La compañía lanzará hoy una nueva herramienta, llamada Claude Code, específicamente diseñada para este tipo de codificación asistida por AI-AI.
“El modelo ya es bueno para codificar”, dice Penn. Pero “el pensamiento adicional sería bueno para los casos que podrían requerir una planificación muy compleja, por ejemplo, está viendo una base de código extremadamente grande para una empresa”.