Artificial Intelligence

El stack de LLM en producción: qué funciona realmente a mediados de 2026

By Anurag Verma•June 5, 2026

El Stack de LLM en Producción: Lo Que Realmente Funciona a Mediados de 2026

Los sistemas de LLM en producción han cruzado un umbral que la mayor parte de lo que se escribe sobre IA todavía no ha asimilado: los modelos en sí ya no son la parte difícil. Obtener una buena respuesta de Claude 3.5 Sonnet o Gemini 2.0 Flash es algo básico. El verdadero desafío de ingeniería está en todo lo que rodea al modelo: eficiencia de inferencia, calidad de recuperación, fiabilidad de los agentes y control de costos a los volúmenes de llamadas que generan las cargas de trabajo agénticas reales.

Llevo dieciocho meses ejecutando funcionalidades respaldadas por LLM en producción y el stack ha cambiado considerablemente. Esto es lo que sé con certeza a junio de 2026.

Capa de Inferencia: vLLM Ganó, por Ahora

Si estás alojando modelos por tu cuenta, la elección del framework de inferencia importa más de lo que la gente reconoce. Las tres opciones serias son vLLM, SGLang y TensorRT-LLM, y cada una sirve propósitos diferentes. vLLM es el punto de partida correcto para casi cualquier equipo. Cubre el mayor rango de modelos, no requiere un paso de compilación y ofrece consistentemente un rendimiento competitivo gracias a PagedAttention y el batching continuo. SGLang supera a vLLM en cargas de trabajo con prefijo compartido donde importa el tiempo hasta el primer token, como los pipelines de RAG que anteponen el mismo prompt de sistema largo a cada solicitud. TensorRT-LLM vale la pena el esfuerzo solo cuando tienes un modelo estabilizado durante meses y necesitas extraer cada último token por segundo a escala.

TGI de HuggingFace está oficialmente en modo de mantenimiento. Los propios desarrolladores de HuggingFace ahora recomiendan vLLM o SGLang. Eso es una señal clara.

La arquitectura del stack de producción para despliegues serios tiene tres capas: el motor de inferencia sobre hardware acelerado, una capa de servicio que gestiona el enrutamiento y los contratos de API (LiteLLM o Envoy AI Gateway), y una capa de orquestación basada en Kubernetes con KEDA para el autoescalado. Los objetivos de rendimiento que se exigen ahora a los ingenieros son TTFT por debajo de 300 ms para cargas de trabajo estándar y latencia entre tokens de decenas de milisegundos.

Costos: Las Matemáticas Cambiaron, el Problema No

Los precios de las API cayeron aproximadamente un 80% entre 2025 y 2026. El rendimiento equivalente a GPT-4 ahora cuesta alrededor de $0,40 por millón de tokens, frente a $30 por millón a principios de 2023. Eso parece un problema resuelto hasta que se considera lo que realmente hacen los sistemas agénticos: una sola tarea de usuario puede desencadenar entre 50 y 200 llamadas a LLM. Un precio barato por token se convierte muy rápido en un costo elevado por tarea.

Las técnicas que realmente marcan la diferencia son el prompt caching (que reduce los costos de entrada hasta un 90% en contextos repetidos), la cuantización FP8 combinada con Flash Attention 3 y el decodificado especulativo, y el enrutamiento inteligente de solicitudes que envía las subtareas más simples a modelos más pequeños y económicos. El decodificado especulativo vale la pena perfilarlo con cuidado: usa un modelo borrador pequeño para generar tokens candidatos que el modelo principal verifica en paralelo, pero si la tasa de aceptación cae por debajo de aproximadamente 0,5 tokens por paso, se está añadiendo sobrecarga en lugar de reducirla.

Mi opinión: los equipos que no construyen un panel de control de costos por funcionalidad gastarán a ciegas. Los ahorros son reales, pero requieren disciplina de medición.

RAG: La Recuperación Sigue Siendo el Problema

El patrón de volcar PDFs en una base de datos vectorial y llamarlo base de conocimiento ya se entiende ampliamente como insuficiente. A partir de 2026, el paso de recuperación es donde se originan la mayoría de los fallos de RAG, no el modelo de generación. El modo de fallo es sutil: el sistema devuelve respuestas que suenan convincentes pero están basadas en los fragmentos equivocados, y los usuarios no lo detectan.

La recuperación híbrida que combina búsqueda vectorial densa con BM25, seguida de un reranker de codificador cruzado, es la línea base actual para sistemas en producción. La búsqueda vectorial pura por sí sola tiene un rendimiento inferior en consultas donde la precisión es crítica. La recuperación mejorada con grafos está ganando terreno en dominios con relaciones estructuradas entre entidades. Y la pregunta sobre la gobernanza de las fuentes de conocimiento, específicamente quién es responsable de la frescura de los fragmentos, la deduplicación y la revisión de calidad, es una decisión de producto que los equipos de ingeniería intentan postergar hasta que les genera problemas.

Agentes y MCP: Un Estándar que Perduró

El Model Context Protocol de Anthropic, presentado a finales de 2024, se ha convertido en el estándar dominante para conectar herramientas a los agentes de LLM. OpenAI lo adoptó en marzo de 2025 y posteriormente anunció la depreciación de la Assistants API, con un sunset programado para mediados de 2026. Esa combinación obligó al ecosistema a converger. Cursor, Cline y la mayoría de los entornos de desarrollo agéntico serios ahora esperan servidores de herramientas compatibles con MCP.

Esto tiene implicaciones operativas. Una interfaz de herramientas estandarizada significa que se puede cambiar el modelo subyacente sin reescribir los conectores de herramientas. También significa que la superficie de ataque para la inyección de prompts y el mal uso de herramientas es ahora predecible y auditable. Ninguna de esas cosas era cierta hace dieciocho meses.

Observabilidad: Ya No Es Opcional

Langfuse fue adquirido por ClickHouse en enero de 2026, lo que dice algo sobre hacia dónde va el mercado: los pipelines de trazabilidad necesitan bases de datos capaces de manejar los volúmenes de escritura que generan los agentes en producción. Las plataformas líderes en este espacio son LangSmith (la opción natural para stacks con mucho LangChain), Langfuse (la mejor opción para autoalojamiento) y Arize Phoenix (la más sólida para flujos de trabajo con mucho RAG).

Lo que el APM tradicional no puede responder: qué paso de recuperación devolvió contexto irrelevante, por qué un agente entró en un bucle recursivo, si la calidad de los resultados está derivando respecto a la línea base a través de versiones de modelos. Estas preguntas requieren trazabilidad nativa de LLM que siga las solicitudes a través de llamadas a LLM, pasos de recuperación, invocaciones de herramientas y ramas de decisión de los agentes en conjunto, no de forma aislada.

Alucinaciones: Una Métrica, No un Binario

Las alucinaciones siguen siendo el principal bloqueante para los despliegues en producción de alto riesgo. El cambio importante en 2026 es que los equipos han dejado en su mayoría de tratarlas como un aprobado/reprobado binario y han empezado a medirlas como una tasa. La detección con LLM como juez captura entre el 60 y el 75% de los resultados alucinados según el diseño del prompt. En tareas fundamentadas en recuperación, las tasas caen por debajo del 2% en sistemas bien diseñados. Los guardianes en tiempo de ejecución que inspeccionan los resultados antes de entregarlos y derivan las respuestas marcadas para revisión se han vuelto estándar, aunque la latencia de detección de 200 a 500 ms añade una carga real a los presupuestos de latencia.

La recomendación práctica: incorpora desde el primer día un bucle de muestreo de alucinaciones en tu pipeline de evaluación. Puntúa una muestra aleatoria de trazas de producción en vivo cada día. Detectarás la deriva del modelo, los índices de recuperación desactualizados y las regresiones de prompts antes de que los usuarios las reporten.

Dónde Deja Esto al Stack

El modelo es una materia prima. El framework de inferencia, la calidad de la recuperación, el protocolo de herramientas, la capa de observabilidad y la disciplina de costos en torno a los volúmenes de llamadas agénticas son donde vive el verdadero apalancamiento de ingeniería en 2026. Los equipos que los traten como secundarios seguirán apagando incendios. Los que los traten como preocupaciones de primer orden lanzarán productos fiables.