XDA pasó la semana comparando Gemma 4 contra Qwen 3.5 en el mismo escritorio, y el hilo de comentarios probó un punto más tranquilo: la mayoría de los lectores ya tenían un stack de LLM local ejecutándose. La categoría ha ido más allá de los juguetes para aficionados. Los modelos cuantificados de 7B y 14B son lo suficientemente buenos para revisar código, resumen y escritura rutinaria, la nueva ola de modelos MoE de tamaño medio ha estrechado la brecha con los modelos frontera cerrados, y las aplicaciones que envuelven llama.cpp han comenzado a parecer software real.
Probamos 8 de las mejores aplicaciones para ejecutar LLMs locales en Windows, macOS y Linux. El punto de referencia era lo aburrido: qué tan rápido inician un modelo en una laptop Ryzen, qué tan limpiamente manejan la descarga de GPU en una tarjeta RTX, si la interfaz de chat es realmente agradable, y cuánto se rompen cuando llega el próximo gran modelo. Los precios importan menos que de costumbre en esta categoría ya que la mayoría de las opciones sólidas son gratuitas.
Qué buscar en una aplicación de LLM local
Un puñado de criterios separan las herramientas que sobreviven a una semana de uso diario de las que se desinstalan:
- Portabilidad del backend. llama.cpp es el runtime de facto. Las aplicaciones que lo envuelven limpiamente obtienen correcciones de errores gratis. Las aplicaciones que mantienen sus propios forks se quedan atrás en nuevas arquitecturas de modelos.
- Soporte de cuantificación. GGUF es el formato que realmente se envía. Si una aplicación no puede cargar un archivo GGUF reciente, es un callejón sin salida.
- Descarga de GPU. CUDA en Nvidia, ROCm en AMD, Metal en Apple Silicon. Las herramientas difieren mucho en cuánto de cada una realmente usan.
- Chat UI vs API. Algunos usuarios quieren una ventana de chat pulida. Otros quieren un endpoint compatible con OpenAI local para conectar a extensiones de editor. Las aplicaciones más sólidas ofrecen ambas.
- Descubrimiento de modelos. Hugging Face es el catálogo. Las aplicaciones que hornen búsqueda y descarga de un clic ahorran tiempo real.
- Postura de privacidad. Algunas aplicaciones se ejecutan completamente sin conexión. Otras se comunican con casa para analítica de forma predeterminada y necesitan una bandera para detenerlo.
Comparación rápida
| Aplicación | Mejor para | Plataformas | Plan gratuito | Característica destacada |
|---|---|---|---|---|
| Ollama | Instalaciones de una línea y CLI que puedes escribir | Windows, macOS, Linux | Sí (código abierto) | API compatible con OpenAI en localhost |
| LM Studio | UI de chat pulida con búsqueda de modelo integrada | Windows, macOS, Linux | Sí (gratis para uso personal) | Integración de Hugging Face con filtrado de cuant |
| Jan | Cliente de chat completamente de código abierto que respeta modo sin conexión | Windows, macOS, Linux | Sí (código abierto) | Sin telemetría e historia de configuración limpia |
| GPT4All | Chat ligero para laptops sin GPU | Windows, macOS, Linux | Sí (código abierto) | Quants optimizados para CPU en máquinas de RAM bajo |
| Msty | Vista dividida multimodelo para comparaciones lado a lado | Windows, macOS, Linux | Sí (nivel gratuito) | Compara dos modelos locales en una ventana |
| Open WebUI | Frontend de chat autohospedado que se ejecuta en navegador | Docker (cualquier SO) | Sí (código abierto) | Modo multiusuario e intercambio de modelos por chat |
| Llamafile | Ejecutable único por modelo, sin instalador | Windows, macOS, Linux | Sí (código abierto) | Ejecuta un modelo haciendo doble clic en un archivo |
| Text Generation WebUI | Patio de juegos para usuarios avanzados con ajuste de muestreador y extensiones | Windows, macOS, Linux | Sí (código abierto) | Control más profundo sobre parámetros de generación |
Las 8 mejores aplicaciones para ejecutar LLMs locales en escritorio
1. Ollama — la mejor instalación de una línea para uso diario
Ollama es lo más cercano a un defecto en la categoría. Un instalador único suelta una CLI y un servicio de fondo, luego ollama run llama3.2 extrae un modelo cuantificado e inicia chat. El mismo daemon expone una API compatible con OpenAI en localhost:11434, lo que significa que cada extensión de editor y cuaderno que habla OpenAI funciona sin cambios. La biblioteca de modelos cubre la mayoría de las familias populares con cuants predeterminadas sensatas.
Dónde se queda corto: La UI de primera parte es mínima. Ollama es un runtime, no una aplicación de chat, así que hablas con él desde una terminal o lo emparejas con un frontend separado. Los avisos y plantillas personalizados viven en un Modelfile, que es poderoso pero agrega un paso.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Windows, macOS, Linux
Descargar: ollama.com
Conclusión: Elige Ollama para LLMs locales si quieres un backend que “simplemente funciona” y estás feliz de traer tu propia UI.
2. LM Studio — mejor UI de chat con búsqueda de modelo integrada
LM Studio es el cliente de chat pulido en el que la mayoría de las personas aterrizan después de superar demostraciones web. El navegador de modelos se conecta directamente a Hugging Face, filtra por nivel de cuant y arquitectura, y muestra si un archivo realmente cabe en tu VRAM. La ventana de chat es compatible con indicaciones del sistema, presets, edición multi-turno y un modo de servidor local que expone el mismo endpoint compatible con OpenAI que Ollama.
Dónde se queda corto: La licencia permite uso personal gratuito pero requiere un plan pagado para contextos comerciales, lo que vale la pena saber antes de colocarlo en una laptop corporativa. La aplicación es de código cerrado.
Precio:
- Gratuito: uso personal
- Pagado: plan de Trabajo para uso empresarial
Plataformas: Windows, macOS, Linux
Descargar: lmstudio.ai
Conclusión: Elige LM Studio para LLMs locales si quieres una ventana que maneje el descubrimiento de modelos, selección de cuant, chat y API local.
3. Jan — mejor cliente de chat completamente de código abierto
Jan es lo que sucede cuando un equipo construye la experiencia de LM Studio como código abierto desde cero. La tienda de modelos está curada, la UI de chat es limpia, y el proyecto tiene una política declarada de ejecución completamente sin conexión sin telemetría. El panel de configuración aclara qué interruptores afectan las llamadas de red, lo que es inusual en esta categoría.
Dónde se queda corto: El rendimiento se queda atrás de LM Studio un poco en el mismo hardware, en parte porque el equipo prioriza la portabilidad sobre la optimización de GPU hiperespecífica. Las historias de API móvil y remota son más nuevas que el chat de escritorio.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Windows, macOS, Linux
Descargar: jan.ai
Conclusión: Elige Jan para LLMs locales si quieres la UX de LM Studio sin la licencia de código cerrado y sin confiar en el toggle de exclusión de analítica.
4. GPT4All — lo mejor para laptops de especificaciones bajas sin GPU
GPT4All ha existido desde los primeros días de la escena LLM local y sigue haciendo el trabajo aburrido mejor que la mayoría. La lista de modelos predeterminada está optimizada para inferencia de CPU, los quants pequeños se ejecutan en máquinas sin una GPU dedicada, y la UI de chat ahora incluye chat de documentos locales que apunta a una carpeta en disco. Para usuarios que intentaron ejecutar un modelo 7B en una laptop más antigua y rebotaron por la lentitud, la selección de modelos pequeños curada es el punto de partida correcto.
Dónde se queda corto: La aceleración de GPU es compatible pero no es donde se enfoca el proyecto. La UI de chat es funcional en lugar de hermosa.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Windows, macOS, Linux
Descargar: gpt4all.io
Conclusión: Elige GPT4All para LLMs locales si tu hardware es modesto y quieres un cliente de chat que viene con modelos optimizados para ello.
5. Msty — lo mejor para comparar dos modelos lado a lado
Msty es una opción menos obvia que llena un vacío específico: puede comunicarse con dos modelos locales a la vez y mostrar sus respuestas lado a lado. Combinado con hooks para APIs remotas, es la forma más fácil de comparar una nueva versión de Qwen contra un quant de Gemma en el mismo prompt sin hacer malabarismo con dos ventanas. Los stacks de conocimiento te permiten adjuntar carpetas o URLs al chat para recuperación.
Dónde se queda corto: El nivel gratuito cubre la mayoría del uso personal, pero algunas características poderosas están detrás de un plan pagado. La búsqueda de modelos es más estrecha que la de LM Studio.
Precio:
- Gratuito: plan personal rico en características
- Pagado: plan Aurum para características avanzadas
Plataformas: Windows, macOS, Linux
Descargar: msty.app
Conclusión: Elige Msty para LLMs locales si comparas activamente modelos y quieres un cliente de chat diseñado para ese flujo de trabajo.
6. Open WebUI — mejor frontend de navegador para servidor Ollama familiar o de equipo
Open WebUI se ejecuta como una aplicación web contenerizada y se comunica con Ollama (o cualquier backend compatible con OpenAI) a través de la red. La interfaz se parece a la aplicación web ChatGPT, es compatible con cuentas multiusuario con acceso basado en roles, y maneja cambio de modelos por conversación. Para un hogar o un pequeño equipo que quiere un servidor de modelos local que todos puedan usar desde cualquier navegador, esta es la respuesta más limpia.
Dónde se queda corto: Asume que ya tienes Ollama (o equivalente) ejecutándose en algún lugar. Las características multiusuario necesitan un poco de configuración. Es una aplicación de navegador, así que no hay pulido de escritorio nativo.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Docker, accesible desde cualquier navegador moderno en Windows, macOS o Linux
Descargar: openwebui.com
Conclusión: Elige Open WebUI para LLMs locales si quieres un frontend de chat compartido para un laboratorio casero o un pequeño equipo y te sientes cómodo ejecutando un contenedor.
7. Llamafile — mejor opción sin instalación
Llamafile distribuye un modelo y el runtime llama.cpp como un ejecutable único que se ejecuta en Windows, macOS y Linux sin ninguna configuración. Descarga un archivo, haz doble clic, e interfaces de chat local se abre en un navegador. El formato se basa en un truco binario multiplataforma inteligente del proyecto Cosmopolitan, lo que significa que el mismo archivo funciona en sistemas operativos.
Dónde se queda corto: Sin navegador de modelos. Administras modelos como archivos. Las actualizaciones requieren cambiar el ejecutable. Algunas herramientas antivirus marcan el binario, que es una queja recurrente en los problemas de GitHub.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Windows, macOS, Linux
Descargar: github.com/Mozilla-Ocho/llamafile
Conclusión: Elige Llamafile para LLMs locales si quieres la forma de menor ceremonia absoluta de compartir un modelo funcional con alguien que nunca ha oído hablar de Hugging Face.
8. Text Generation WebUI — mejor patio de juegos para usuarios avanzados
Text Generation WebUI (a veces llamado oobabooga) es la opción todo incluido. Múltiples backends, cada muestreador bajo el sol, un sistema de extensiones que agrega RAG, tarjetas de personajes, voz y chat basado en imágenes. Los investigadores y aficionados que se preocupan por el ajuste del muestreador, la decodificación contrastiva y los formatos de cuant oscuros aterrizan aquí.
Dónde se queda corto: La configuración es más complicada que las otras opciones en esta lista, con entornos Python e kits de herramientas CUDA en la mezcla. La UI es información densa de una manera que abruma a los usuarios casuales.
Precio:
- Gratuito: código abierto, sin tarifa de licencia
- Pagado: ninguno
Plataformas: Windows, macOS, Linux
Descargar: github.com/oobabooga/text-generation-webui
Conclusión: Elige Text Generation WebUI para LLMs locales si quieres cada botón expuesto y te sientes cómodo en un entorno Python.
Cómo elegir el correcto
Si quieres el camino más simple a una configuración funcional, instala Ollama y emparéjalo con un frontend de chat que te guste.
Si quieres una aplicación que hace todo en una ventana pulida, instala LM Studio.
Si el código abierto es importante para ti, instala Jan.
Si tu laptop es más antigua o no tiene GPU, instala GPT4All y sigue sus modelos pequeños curados.
Si comparas activamente modelos, instala Msty.
Si quieres un servidor de chat compartido para el hogar, ejecuta Open WebUI con Ollama detrás.
Si quieres cero ceremonia, descarga Llamafile para el modelo que te importa.
Si quieres cada botón, instala Text Generation WebUI y presupuesta una tarde para la primera ejecución.
FAQ
¿Funcionan los LLMs locales en una laptop sin una GPU discreta?
Sí. Los modelos 3B y 7B cuantificados se ejecutan en gráficos integrados o CPU pura, lentamente pero útilmente. GPT4All y Llamafile envían modelos pequeños optimizados para este caso.
¿Cuánta VRAM necesito para ejecutar un LLM local?
Para una experiencia cómoda con un modelo 7B en cuantificación Q4, alrededor de 6 GB de VRAM. Para 14B en Q4, alrededor de 10 GB. Para modelos de clase 70B, cuenta con 24 GB o más, o divide entre RAM de CPU y GPU a velocidades más bajas.
¿Es Ollama la mejor aplicación para LLMs locales?
Es el mejor backend para la mayoría de usuarios. Si también quieres una UI de chat pulida en la misma ventana, LM Studio o Jan está más cerca de “mejor aplicación”. Ollama más una UI separada es la pila más común.
¿Son realmente privados los LLMs locales?
Sí, con una salvedad. La inferencia se ejecuta completamente en tu máquina. La trampa es que algunas aplicaciones se comunican con casa para analítica o verificaciones de actualización de forma predeterminada. Jan y GPT4All hacen el botón apagado obvio. LM Studio lo tiene bajo configuración.
¿Puedo usar un LLM local con mi editor de código?
Sí. Cualquier aplicación que exponga un endpoint compatible con OpenAI (Ollama, LM Studio, Jan, Msty) puede configurarse como URL base en extensiones de editor que apunten a OpenAI. Continue, modo bring-your-own-key de Cursor, y la mayoría de extensiones de VS Code lo aceptan.