Tengo una RTX 3080 con 10GB de VRAM y quiero correr modelos locales con Ollama. He probado Llama 3.1 8B (muy bueno), Mistral 7B y Phi-3 Mini. La calidad de Llama 3.1 me sorprendio para tareas de código, aunque para razonamiento complejo todavia noto la diferencia con Claude o GPT-4o. Alguien ha probado Qwen2.5 Coder o DeepSeek Coder V2 en hardware similar? Vale la pena cuantización Q4 vs Q8?