Con herramientas como AutoGPT, CrewAI y ahora los Computer Use de Claude, los agentes pueden tomar acciones reales: buscar en web, ejecutar código, enviar emails. El salto de generar texto a tomar decisiones y actuar es enorme. Los casos de uso son fascinantes pero los riesgos también: que pasa cuando un agente mal prompeado borra archivos importantes? Que nivel de supervision humana tiene sentido según el tipo de tarea?