El artículo de XDA sobre abandonar Claude por Obsidian y un LLM local captura el cambio que ha estado creciendo desde que los modelos de peso abierto se volvieron genuinamente útiles: ahora puedes hacer la mayor parte de tu trabajo diario con IA en tu propio escritorio, sin enviar ningún token a la API de nadie. La barrera de hardware es lo suficientemente baja como para que un MacBook Air de 16 GB o un PC gaming de gama media actual maneje modelos de parámetros 7B y 8B con la latencia que esperarías de un servicio alojado.
Probamos las 8 mejores aplicaciones para ejecutar LLM localmente en escritorio. La lista abarca interfaces gráficas drag-and-drop para personas que nunca han usado una terminal, runtimes de línea de comandos que se integran en scripts existentes e interfaces web autohospedadas que convierten un escritorio viejo en un servidor de IA del hogar. Cada selección se juzgó por cobertura de modelos, aceleración de hardware, calidad de la interfaz de chat y lo difícil que es la configuración inicial.
Qué buscar en una aplicación LLM local
Elige una aplicación LLM local que:
- Venga con un modelo que funcione la primera vez que la abras. Las aplicaciones que requieren que ensamblen una cuantización, un tokenizador y una plantilla de chat antes del primer mensaje desperdician un fin de semana.
- Use aceleración GPU donde el hardware lo permita. CUDA en Nvidia, Metal en Apple Silicon, ROCm o Vulkan en AMD — la diferencia de velocidad es grande.
- Soporte un endpoint de API compatible con OpenAI. Todo el ecosistema de editores, agentes y herramientas habla el formato OpenAI Chat Completions; una aplicación que expone uno se convierte en infraestructura.
- Gestione los archivos de modelo de forma limpia. Una carpeta llena de archivos GGUF de 8 GB sin UI para eliminarlos es una receta para un disco lleno.
- Se mantenga al día con el calendario de lanzamiento de modelos. Llama, Qwen, Mistral y Gemma lanzaron actualizaciones importantes en 2025; las aplicaciones que se quedan atrás un trimestre rápidamente pierden interés.
Comparación rápida
| Aplicación | Mejor para | Plataformas | Plan gratuito | Precio inicial |
|---|---|---|---|---|
| LM Studio | GUI pulida para usuarios novatos | Windows, macOS, Linux | Sí, completamente | Gratis para personal |
| Ollama | Flujo de trabajo de línea de comandos y scripting | Windows, macOS, Linux | Sí, completamente | Gratis |
| Jan | Alternativa open-source a LM Studio | Windows, macOS, Linux | Sí, completamente | Gratis |
| GPT4All | Chat local centrado en privacidad con documentos | Windows, macOS, Linux | Sí, completamente | Gratis |
| Open WebUI | Interfaz web con estilo ChatGPT autohospedada | Linux, Docker (cualquier SO) | Sí, completamente | Gratis |
| Msty | Chat offline con comparación de modelos lado a lado | Windows, macOS, Linux | Sí, limitado | Alrededor de $50 de pago único |
| Llamafile | Ejecutor de modelo portátil de archivo único | Windows, macOS, Linux | Sí, completamente | Gratis |
| LocalAI | Servidor API compatible con OpenAI autohospedado | Linux, Docker | Sí, completamente | Gratis |
Las 8 mejores aplicaciones LLM locales para escritorio
1. LM Studio — GUI más pulida para usuarios novatos
LM Studio es el punto de entrada más fácil para ejecutar modelos localmente. La descarga es una aplicación de escritorio normal, el navegador de modelos muestra compilaciones GGUF curadas con tamaño y hardware recomendado junto a cada una, y la interfaz de chat es lo suficientemente buena como para usar como driver diario. Descubrimiento, descarga, configuración y chat viven en una sola ventana, y el servidor compatible con OpenAI se ejecuta con un solo interruptor para herramientas que necesitan un endpoint de API.
Dónde no llega: La aplicación es de código cerrado para la GUI, que es un factor descalificante real para algunos usuarios. Las características de power-user como flujos de trabajo agentic multimodelo no son el enfoque.
Plataformas: Windows 10/11, macOS (Apple Silicon e Intel), Linux x86_64.
Conclusión: Instala esto primero, prueba tu hardware con un modelo 7B, luego graduáte a otras herramientas según sea necesario.
2. Ollama — mejor flujo de trabajo de línea de comandos
Ollama es la herramienta LLM local que ha moldeado cómo el resto del ecosistema habla con los modelos. ollama run llama3.1 descarga los pesos y te lleva a un prompt; ollama serve expone la API compatible con OpenAI en el puerto 11434, que ahora hablan todos los editores de escritorio, frameworks de agentes y front-ends de chat. La biblioteca de modelos es grande, las actualizaciones llegan dentro de días de nuevos lanzamientos, e la CLI se integra limpiamente en scripts de shell.
Dónde no llega: No hay GUI de primera parte. Ollama asume que te sientes cómodo en una terminal y se empareja mejor con un front-end separado como Open WebUI o Msty.
Plataformas: Windows, macOS, Linux. Imagen de Docker disponible.
Conclusión: El backend predeterminado para todo lo demás en esta lista. Instálalo incluso si también instalas LM Studio.
3. Jan — mejor alternativa open-source a LM Studio
Jan es lo que se vería como LM Studio si el equipo lo hubiera abierto desde el primer día. La interfaz refleja el diseño de tres paneles de LM Studio, la biblioteca de modelos cubre las mismas familias principales, e el endpoint de API habla el mismo dialecto de OpenAI. Donde Jan se adelanta es en características agentic — asistentes multimodelo, integración de servidor MCP y una arquitectura de plugins que permite a la comunidad agregar capacidades sin bifurcación.
Dónde no llega: Catálogo de modelos más pequeño que el navegador curado de LM Studio, y la brecha de pulido en la primera ejecución es visible. La estabilidad bajo uso intenso ha mejorado durante 2025 pero sigue siendo inferior a LM Studio.
Plataformas: Windows, macOS, Linux. Open-source bajo licencia Apache 2.0.
Conclusión: Elige Jan cuando “open-source” es el factor decisivo y no necesitas la pulida del catálogo de LM Studio.
4. GPT4All — mejor chat local centrado en privacidad con documentos
GPT4All de Nomic AI se enfoca en chat basado en documentos sin que ningún dato salga de la máquina. La característica LocalDocs indexa una carpeta de PDF, markdown o texto plano y permite al modelo responder preguntas contra ese corpus — completamente offline, sin embeddings enviados a un servicio en la nube. La selección de modelo por defecto se inclina hacia cuantizaciones más pequeñas que funcionan bien en laptops solo de CPU.
Dónde no llega: La interfaz de chat es la versión básica del género; características avanzadas como conversaciones ramificadas y uso de herramientas multiturno faltan. Modelos más grandes 30B+ funcionan pero son más lentos que LM Studio en el mismo hardware.
Plataformas: Windows 10/11, macOS, Linux. Open-source bajo licencia MIT.
Conclusión: La selección adecuada para “chat con mis archivos” en una laptop donde los archivos nunca deben dejar el disco.
5. Open WebUI — mejor interfaz con estilo ChatGPT autohospedada
Open WebUI convierte una instalación Ollama o LocalAI local en una aplicación web pulida que se siente como ChatGPT — cuentas multiusuario, historial de conversación, RAG contra documentos subidos, cambiador de modelo y biblioteca de prompts. El deployment previsto es Docker en un servidor del hogar o estación de trabajo, luego todos en el hogar lo abren desde un navegador en un teléfono o laptop.
Dónde no llega: Es un front-end, no un runtime de modelo — todavía necesitas Ollama o LocalAI detrás. La configuración inicial de Docker toma 30 minutos para principiantes.
Plataformas: En cualquier lugar donde corra Docker — Linux, Windows con WSL, macOS, Synology, Unraid, Proxmox.
Conclusión: La selección adecuada cuando quieres una IA local compartida en el hogar que se vea y se sienta como ChatGPT en un navegador.
6. Msty — mejor chat offline con comparación de modelos
Msty se construye alrededor de una característica que la mayoría de aplicaciones LLM locales pierden: respuestas lado a lado de dos o más modelos al mismo prompt. La vista dividida hace obvio cuándo un modelo más pequeño es suficiente y cuándo el más grande gana su espacio en disco. Msty también maneja bien conversaciones largas, con threads ramificados y un stack de conocimiento para grounding de documentos.
Dónde no llega: La aplicación de escritorio es de código cerrado. El nivel gratuito cubre la mayoría del uso cotidiano pero la licencia de por vida se vende para características avanzadas.
Plataformas: Windows, macOS, Linux.
Conclusión: Elige Msty cuando quieras hacer evaluación real entre modelos sin hacer malabarismos con tres ventanas.
7. Llamafile — mejor ejecutor de modelo portátil de archivo único
Llamafile de Mozilla empaqueta un modelo y un runtime en un archivo ejecutable que funciona en Windows, macOS y Linux sin instalación. Haz doble clic en el .llamafile, se abre una interfaz de chat en tu navegador en localhost, y tienes un modelo que funciona. Es el despliegue más simple posible para “enviar un LLM local que funciona a alguien que no sabe qué es un GGUF.”
Dónde no llega: Cada modelo es su propio ejecutable de varios gigabytes, lo cual es un desperdicio si quieres una biblioteca. Sin navegador de modelos de primera clase — encuentras archivos en Hugging Face y los descargas manualmente.
Plataformas: Windows, macOS, Linux, FreeBSD. Un archivo, sin instalación.
Conclusión: El formato correcto para poner a un usuario no técnico en marcha con un modelo local en menos de cinco minutos.
8. LocalAI — mejor servidor API compatible con OpenAI autohospedado
LocalAI es el backend headless para configuraciones serias autohospedadas. Expone la superficie completa de la API de OpenAI — chat completions, embeddings, audio transcription, image generation — respaldado por modelos locales, sin GPU necesaria para los más pequeños. Déjalo en Docker Compose junto a Open WebUI, apunta tu código cliente de OpenAI existente al endpoint localhost, y el resto de tu stack funciona sin cambios.
Dónde no llega: La configuración es YAML-first y asume familiaridad con contenedores. Sin GUI en absoluto — empareja con Open WebUI para chat o úsalo puramente como infraestructura.
Plataformas: Linux, Docker. Funciona en macOS y Windows a través de Docker.
Conclusión: La selección correcta cuando estás conectando modelos locales a aplicaciones existentes que ya hablan con la API de OpenAI.
Cómo elegir la correcta
Si nunca has ejecutado un modelo localmente antes, instala LM Studio, descarga una cuantización Qwen o Llama 8B en Q4_K_M y chatea. Toda la secuencia toma 15 minutos incluyendo la descarga del modelo. Cuando lo superes, instala Ollama para que el resto de tus herramientas tengan una API con la que hablar.
Si “open-source” es innegociable, ve directamente a Jan para la GUI y Ollama para el backend. Si quieres chatear con documentos que nunca deben dejar tu máquina, instala GPT4All y aliméntalo tu carpeta. Si quieres una IA compartida del hogar en un navegador, ejecuta Open WebUI en Ollama en un servidor del hogar.
Si haces trabajo de evaluación entre modelos, instala Msty para la vista lado a lado. Si quieres el despliegue más simple “dale esto a un amigo”, apunta a Llamafile. Si estás construyendo algo que habla con la API de OpenAI y quieres un backend local, despliega LocalAI en Docker.
FAQ
¿Qué hardware necesito para ejecutar un LLM localmente?
Un modelo de parámetros 7B u 8B con cuantización de 4 bits funciona cómodamente en 8 GB de RAM y cualquier GPU de los últimos cinco años, o en Macs Apple Silicon de M1 en adelante. Para modelos 13B, 16 GB de RAM es el mínimo práctico. Modelos de clase 70B necesitan 48 GB de memoria unificada en una Mac o dos GPU de 24 GB en una PC.
¿Son los LLM locales tan buenos como ChatGPT o Claude?
No aún para el trabajo más exigente, pero la brecha se cerró bruscamente en 2025. Los modelos de peso abierto 8B y 14B ahora coinciden con la era GPT-3.5 para chat general, resumen y asistencia de código. Los modelos frontera de Anthropic, OpenAI y Google siguen siendo superiores en razonamiento de contexto largo y uso de herramientas.
¿Es seguro ejecutar LLM locales?
Sí, en el sentido de que ningún dato sale de tu máquina. La superficie de riesgo es el archivo de modelo en sí — descarga de Hugging Face directamente o a través de un front-end de reputación como LM Studio, Ollama o Jan. Verifica checksums cuando un proveedor los publica. GGUF aleatorios de foros reciben el mismo trato que cualquier otro ejecutable sin firmar.
¿Puede un LLM local conectarse a internet?
El modelo en sí no tiene acceso a la red. Puedes darle herramientas que naveguen por la web a través de un framework de agen como búsqueda web de Open WebUI, servidores MCP o scripting tuyo — pero esa es una opción deliberada que haces. Desde la caja, cada aplicación en esta lista funciona completamente offline.
¿Cuál es la diferencia entre Ollama y LM Studio?
LM Studio es una GUI pulida que incluye descubrimiento de modelo, chat y servidor API opcional. Ollama es un CLI y servidor sin interfaz de chat incorporada. La mayoría de usuarios instalan ambos — Ollama como el backend con el que otras herramientas hablan, LM Studio cuando quieren una ventana de chat sin dejar el escritorio.