Inference (Inferencia en IA): qué es
La Inferencia es el proceso mediante el cual un modelo de inteligencia artificial ya entrenado genera una salida a partir de una entrada nueva. En el contexto de los modelos de lenguaje de gran escala, la Inferencia ocurre cada vez que un usuario formula una consulta y el modelo produce una respuesta: el modelo aplica los patrones aprendidos durante el entrenamiento para predecir, token a token, cuál es la continuación más probable del texto de entrada. Todo lo que sucede después de que un modelo ha sido entrenado y desplegado se llama Inferencia, en contraposición al entrenamiento, que es el proceso previo de ajuste de los parámetros del modelo con datos.
El proceso de Inferencia en un modelo de lenguaje funciona de forma autoregresiva: el modelo genera un token (aproximadamente tres cuartos de una palabra) en cada paso, añade ese token al contexto y genera el siguiente token condicionado a todo el contexto acumulado. Este proceso se repite hasta que el modelo genera un token de finalización o alcanza la longitud máxima de respuesta configurada. La velocidad de Inferencia se mide habitualmente en tokens por segundo, y la latencia percibida por el usuario depende tanto de la velocidad de generación como del tiempo de procesamiento inicial del prompt.
La Inferencia en sistemas RAG, como los que alimentan a Perplexity o Google AI Overviews, incluye pasos adicionales antes y durante la generación. Antes de que el modelo de lenguaje empiece a generar la respuesta, el sistema ejecuta la fase de recuperación: convierte la consulta en un Embedding, busca los fragmentos más relevantes en la base de datos vectorial y construye el prompt aumentado con esos fragmentos. Este proceso de recuperación añade latencia al tiempo de Inferencia total, pero produce respuestas más precisas y verificables que las generadas sin recuperación. La optimización de la latencia de Inferencia en sistemas RAG implica balancear la velocidad de recuperación con la calidad de los fragmentos recuperados.
Para los profesionales del marketing que interactúan con motores de respuesta basados en IA, la Inferencia es el momento en que el contenido que han producido es evaluado, seleccionado o descartado como fuente de contexto. La calidad del contenido indexado influye en la Inferencia de dos formas: directamente, a través de la calidad de los Embeddings que produce y su recuperabilidad para las consultas relevantes; e indirectamente, a través del Grounding que proporciona al modelo de lenguaje, que determina la precisión y la citas de la respuesta generada. Cada consulta que un usuario formula a un motor de respuesta con IA es un evento de Inferencia en el que el contenido de la web compite por ser seleccionado como fuente.
El entrenamiento y la Inferencia son las dos fases del ciclo de vida de un modelo de IA, y tienen características radicalmente distintas en términos de computación, coste y propósito. El entrenamiento es el proceso de ajustar los parámetros del modelo a partir de grandes volúmenes de datos, buscando minimizar el error entre las predicciones del modelo y los valores correctos en el conjunto de datos de entrenamiento. Es un proceso computacionalmente intensísimo que puede requerir miles de GPU durante semanas o meses, y que produce un modelo con un conjunto fijo de parámetros. La Inferencia es el uso de ese modelo entrenado para generar predicciones sobre entradas nuevas, un proceso mucho más ligero que puede ejecutarse en hardware más modesto y en milisegundos o segundos.
La distinción más relevante para el AEO es que el entrenamiento determina el conocimiento paramétrico del modelo, mientras que la Inferencia es donde ese conocimiento se aplica y donde el Grounding puede complementarlo con información externa. Un cambio en el contenido web de una marca no afecta al comportamiento del modelo durante la Inferencia de las instancias ya desplegadas: ese cambio solo se incorporará al conocimiento paramétrico del modelo en el próximo ciclo de entrenamiento. Sin embargo, si el motor de respuesta utiliza Grounding durante la Inferencia, los cambios en el contenido web se reflejan inmediatamente en las respuestas, porque el sistema recupera el contenido actualizado en tiempo real durante cada evento de Inferencia.
El coste de la Inferencia es significativamente menor que el del entrenamiento, pero sigue siendo un factor relevante en el diseño de sistemas de IA a escala. Los modelos más grandes tienen mayor capacidad pero también mayor coste de Inferencia por token generado. Esta tensión entre capacidad y coste de Inferencia explica la proliferación de modelos de distintos tamaños optimizados para distintos casos de uso: modelos pequeños y rápidos para tareas de clasificación y extracción, modelos medianos para generación de texto de calidad media, y modelos grandes para tareas complejas de razonamiento y síntesis. Los motores de respuesta públicos como Perplexity o Google AI Overviews utilizan una combinación de modelos de distintos tamaños para optimizar el balance entre calidad de respuesta y coste de Inferencia.
Para las empresas que implementan sistemas de IA internos con HubSpot, la distinción entre entrenamiento e Inferencia tiene implicaciones prácticas en la gestión de costes. El uso de las funcionalidades de IA de HubSpot implica principalmente costes de Inferencia: cada vez que un asistente genera un email, resume una llamada o responde una pregunta sobre el CRM, está ejecutando una Inferencia. Optimizar el uso de estas funcionalidades, por ejemplo, generando prompts más precisos que reducen el número de tokens necesarios para producir una respuesta útil, es una forma directa de reducir los costes de Inferencia sin sacrificar la calidad de los outputs generados.
La latencia de Inferencia es el tiempo que transcurre entre que un usuario envía una consulta a un motor de respuesta y recibe la primera parte de la respuesta. En los motores de respuesta con IA, esta latencia incluye el tiempo de procesamiento del prompt, el tiempo de recuperación de fuentes en sistemas RAG, y el tiempo de generación del primer token. Los motores de respuesta más rápidos, como las versiones optimizadas de Perplexity o el modo de respuesta rápida de algunos asistentes, priorizan la velocidad de Inferencia sacrificando potencialmente algo de profundidad o exhaustividad en las respuestas. Los sistemas que priorizan la calidad, como el modo de investigación profunda de Perplexity, aceptan latencias mayores para producir respuestas más completas y mejor fundamentadas.
La latencia de Inferencia tiene un impacto directo en qué contenido puede ser considerado como fuente en un evento de Inferencia con tiempo limitado. Los sistemas RAG con restricciones de latencia estrictas tienen menos tiempo para recuperar fragmentos, lo que puede llevarles a recuperar un número menor de fuentes o a aplicar criterios de recuperación menos exhaustivos. Esto favorece al contenido con Embeddings muy específicos y cercanos al Embedding de la consulta, porque ese contenido puede ser identificado como relevante en una búsqueda vectorial más superficial, mientras que el contenido con Embeddings más generales requiere una búsqueda más profunda para ser recuperado correctamente.
La técnica de streaming, que consiste en mostrar al usuario los tokens generados a medida que se producen en lugar de esperar a que la respuesta completa esté lista, reduce significativamente la latencia percibida por el usuario aunque no reduzca el tiempo total de Inferencia. La mayoría de los motores de respuesta modernos utilizan streaming para mejorar la experiencia de usuario: el usuario ve la respuesta aparecer gradualmente en lugar de esperar en una pantalla en blanco. Para el contenido que es citado en estas respuestas, el streaming implica que las fuentes son recuperadas antes de que comience la generación, durante la fase de recuperación del RAG, y que la decisión de citación es anterior al inicio del texto visible para el usuario.
La optimización de la latencia de Inferencia en los sistemas de IA de HubSpot es un factor que el equipo de ingeniería de la plataforma gestiona de forma continua para asegurar que las funcionalidades de IA, como la generación de contenido, el resumen de conversaciones o las sugerencias de seguimiento en ventas, respondan con la velocidad suficiente para ser útiles en flujos de trabajo reales. Para los equipos de marketing y ventas que usan estas funcionalidades, la latencia de Inferencia se traduce directamente en el tiempo que tardan en obtener un borrador de email, un resumen de reunión o una sugerencia de respuesta para un cliente, lo que influye en la adopción real de las herramientas de IA en su día a día.
Durante la Inferencia de un motor de respuesta con RAG, el contenido web pasa por una secuencia de evaluaciones que determinan si será recuperado y citado en la respuesta. La primera evaluación ocurre en la fase de recuperación: el sistema compara el Embedding de la consulta con los Embeddings de los fragmentos indexados y selecciona los más cercanos semánticamente. Esta comparación vectorial es un proceso matemático que ocurre en milisegundos y que no considera el texto del fragmento directamente, solo su representación vectorial. Un fragmento con un Embedding muy específico y cercano al Embedding de la consulta supera esta primera evaluación con ventaja sobre fragmentos con Embeddings más genéricos.
La segunda evaluación ocurre en la fase de reranking, que algunos sistemas aplican después de la recuperación inicial para reordenar los fragmentos candidatos usando criterios adicionales más sofisticados que la similitud vectorial. El reranking puede considerar la autoridad de la fuente, la frescura del contenido, la coherencia del fragmento con el contexto conversacional previo o señales específicas de calidad del fragmento como la presencia de datos verificables. Los fragmentos que superan el reranking con alta puntuación tienen mayor probabilidad de ser incluidos en el prompt del modelo de lenguaje como fuentes de Grounding.
La tercera evaluación ocurre implícitamente durante la generación: el modelo de lenguaje decide, dentro de la ventana de contexto disponible, qué información de los fragmentos recuperados es más relevante para responder a la consulta y cómo integrarla en la respuesta. Si un fragmento ha sido recuperado pero el modelo lo considera menos relevante que otros fragmentos en el contexto de la consulta específica, puede que no sea citado explícitamente en la respuesta aunque haya superado las fases de recuperación y reranking. Esta evaluación implícita durante la generación explica por qué la recuperación de un fragmento no garantiza su citación: el modelo también tiene agencia en la decisión final sobre qué fuentes mencionar.
Para los creadores de contenido, la comprensión de estas tres fases de evaluación durante la Inferencia tiene implicaciones prácticas en cómo estructuran su contenido. Optimizar para la primera evaluación requiere producir Embeddings específicos mediante Chunking temáticamente puro y terminología precisa. Optimizar para el reranking requiere señales de autoridad y frescura: dominio de alta autoridad, contenido actualizado y datos verificables. Optimizar para la tercera evaluación requiere que el fragmento responda de forma directa y autónoma a la consulta, de forma que el modelo lo identifique claramente como la fuente más útil para esa parte específica de la respuesta. Los tres niveles de optimización son complementarios y corresponden a los principios generales del AEO aplicados en el contexto específico de la Inferencia.
La ventana de contexto de Inferencia es el número máximo de tokens que un modelo de lenguaje puede procesar en una sola llamada, incluyendo tanto el prompt de entrada como la respuesta generada. Los modelos de lenguaje actuales tienen ventanas de contexto que van desde los 8.000 tokens de modelos más compactos hasta los 200.000 o más tokens de modelos de gran contexto como Claude o Gemini. En el contexto del RAG, la ventana de contexto determina cuántos fragmentos recuperados pueden ser incluidos como contexto de Grounding en una sola Inferencia: una ventana de contexto más amplia permite incluir más fragmentos, lo que aumenta la probabilidad de que el contenido recuperado sea suficientemente relevante para ser citado.
La longitud de los fragmentos de contenido tiene una relación directa con la ventana de contexto disponible para el Grounding. Fragmentos más cortos ocupan menos espacio en la ventana de contexto, lo que permite incluir más fuentes diferentes en una sola Inferencia. Fragmentos más largos pueden contener más contexto útil pero reducen el número de fuentes distintas que caben en la ventana de contexto disponible. Esta tensión entre longitud y diversidad de fuentes es la razón por la que el rango óptimo de Chunking de entre 100 y 400 palabras produce mejores resultados en sistemas RAG: fragmentos en ese rango son lo suficientemente cortos para permitir incluir múltiples fuentes en la ventana de contexto y lo suficientemente largos para ser autónomos y contextualmente completos.
Los modelos con ventanas de contexto muy amplias tienen la capacidad de procesar documentos completos sin necesidad de Chunking, lo que plantea la pregunta de si el Chunking seguirá siendo necesario a medida que los modelos mejoran. La evidencia empírica actual sugiere que incluso con ventanas de contexto muy amplias, la recuperación selectiva de fragmentos relevantes produce mejores resultados que proporcionar documentos completos como contexto, porque reduce el ruido semántico que el modelo debe procesar y facilita la identificación de las partes más relevantes para responder a la consulta. El Chunking sigue siendo una técnica de optimización relevante incluso en entornos con ventanas de contexto amplias.
La relación entre la ventana de contexto y la citabilidad del contenido tiene una implicación táctica para las marcas que quieren maximizar su presencia en las respuestas de los motores de IA: producir fragmentos de longitud óptima para el Chunking no solo mejora la precisión de la recuperación sino también la probabilidad de que el fragmento sea incluido en la ventana de contexto de la Inferencia. Un fragmento de 200 palabras bien estructurado compite de forma más eficiente por el espacio limitado de la ventana de contexto que un fragmento de 800 palabras con información equivalente diluida en texto menos denso semánticamente.
La temperatura es un parámetro de Inferencia que controla el grado de aleatoriedad en la selección de tokens durante la generación de texto. Con una temperatura cercana a cero, el modelo selecciona siempre el token con mayor probabilidad predicha, produciendo respuestas deterministas y predecibles. Con una temperatura más alta, el modelo introduce aleatoriedad en la selección, favoreciendo tokens menos probables con mayor frecuencia, lo que produce respuestas más variadas y creativas pero potencialmente menos precisas. Para los motores de respuesta orientados a la precisión factual, como los que aplican Grounding sobre fuentes web, la temperatura suele configurarse cercana a cero para producir respuestas consistentes y verificables.
La temperatura de Inferencia tiene una implicación directa para el AEO: cuando los motores de respuesta usan temperaturas bajas para maximizar la precisión, las decisiones de citación son más deterministas y estables. Un fragmento de contenido que supera los criterios de recuperación y reranking para una consulta específica tendrá alta probabilidad de ser citado de forma consistente para esa consulta cuando la temperatura es baja. Esto hace que la optimización del contenido para el Grounding sea una inversión con retornos más predecibles en sistemas de baja temperatura que en sistemas con temperatura alta donde la variabilidad es mayor.
Otros parámetros de Inferencia relevantes incluyen top-p (nucleus sampling), que limita la selección de tokens al subconjunto mínimo que acumula una probabilidad total determinada; top-k, que limita la selección a los k tokens más probables; y la penalización de repetición, que reduce la probabilidad de que el modelo repita tokens o frases que ya ha generado. Estos parámetros influyen en la fluidez y la diversidad del texto generado, pero tienen menos impacto en la precisión factual de las respuestas que la temperatura y la calidad del Grounding.
Para los equipos que implementan asistentes de IA con HubSpot o con las APIs de los principales proveedores de modelos, la configuración de los parámetros de Inferencia es una decisión de diseño que equilibra precisión, creatividad y coste. Para casos de uso donde la precisión factual es crítica, como la generación de propuestas comerciales, la respuesta a consultas de clientes o la producción de contenido de marca, una temperatura baja combinada con Grounding sobre fuentes verificadas produce el mejor balance entre calidad y consistencia. Para casos de uso creativos, como la generación de ideas o la escritura de copy experimental, una temperatura más alta puede producir outputs más originales a costa de mayor variabilidad.
La Inferencia a escala es uno de los mayores desafíos operativos de los motores de respuesta basados en IA. Cada consulta formulada por un usuario activa un evento de Inferencia que requiere acceso a los parámetros del modelo, procesamiento del prompt, recuperación de fuentes en sistemas RAG y generación de la respuesta token a token. Cuando millones de usuarios formulan consultas simultáneamente, el sistema necesita ejecutar millones de inferencias en paralelo, lo que requiere una infraestructura de computación masiva con alta disponibilidad, baja latencia y capacidad de escalado horizontal prácticamente instantáneo. Esta escala es la razón por la que los motores de respuesta de uso público están operados por empresas con acceso a infraestructura de computación a escala de hyperscaler.
El coste de la Inferencia a escala es directamente proporcional al número de tokens procesados: cada token del prompt de entrada y cada token de la respuesta generada tiene un coste computacional. Los modelos más grandes tienen mayor coste por token que los modelos más pequeños, lo que explica por qué los motores de respuesta utilizan arquitecturas de modelos mixtos, enrutando consultas simples a modelos más pequeños y rápidos, y consultas complejas que requieren mayor razonamiento a modelos más grandes y costosos. Esta optimización de costes de Inferencia influye en la calidad de las respuestas que los usuarios reciben dependiendo de la complejidad percibida de su consulta.
La disponibilidad de los motores de respuesta está directamente vinculada a la capacidad de Inferencia disponible. Durante períodos de alta demanda, los sistemas pueden experimentar degradación de la calidad de respuesta, aumento de la latencia o limitación del número de consultas procesables por unidad de tiempo. Estas limitaciones de capacidad de Inferencia son invisibles para los usuarios individuales pero son relevantes para las marcas que dependen de los motores de respuesta para su visibilidad: si el sistema reduce la profundidad del Query Fan-Out o el número de fragmentos recuperados durante períodos de alta demanda para gestionar la carga de Inferencia, el contenido con Embeddings menos específicos puede ser el primero en quedar fuera de los resultados seleccionados.
Para las organizaciones que usan HubSpot, la Inferencia a escala es gestionada por la infraestructura de la plataforma, que garantiza disponibilidad y rendimiento de las funcionalidades de IA sin que los equipos de marketing o ventas necesiten gestionar la infraestructura subyacente. El modelo de consumo por uso de las capacidades de IA de HubSpot refleja directamente los costes de Inferencia: cada email generado, cada resumen de llamada o cada sugerencia de seguimiento tiene un coste de Inferencia que HubSpot gestiona de forma transparente para el usuario final. La optimización del uso de estas funcionalidades, produciendo prompts más específicos y utilizando las capacidades de IA para los casos de uso de mayor valor, es la forma más directa de maximizar el retorno de la inversión en la Inferencia.
La Inferencia es el proceso mediante el cual un modelo de IA ya entrenado genera una salida a partir de una entrada nueva, en contraposición al entrenamiento, que es el proceso previo de ajuste de los parámetros del modelo. En los modelos de lenguaje, la Inferencia ocurre token a token de forma autoregresiva, y en los sistemas RAG incluye además las fases de recuperación de fragmentos y construcción del prompt aumentado. Para el AEO, cada consulta formulada a un motor de respuesta es un evento de Inferencia en el que el contenido de la web compite por ser seleccionado como fuente de Grounding. Durante la Inferencia, el contenido pasa por tres evaluaciones: la recuperación vectorial basada en Embeddings, el reranking con criterios adicionales de calidad, y la selección implícita del modelo durante la generación. La ventana de contexto limita cuántos fragmentos pueden ser incluidos en cada Inferencia, lo que refuerza la importancia del Chunking de longitud óptima. La temperatura y otros parámetros de Inferencia influyen en la consistencia de las decisiones de citación. HubSpot gestiona la infraestructura de Inferencia de sus funcionalidades de IA, permitiendo a los equipos de marketing y ventas usar estas capacidades sin gestionar la complejidad técnica subyacente.
El RAG es la arquitectura que define cómo funciona la Inferencia en los motores de respuesta modernos: añade fases de recuperación y aumentación al proceso de Inferencia estándar para producir respuestas fundamentadas en fuentes verificables.
El Grounding ocurre durante la Inferencia: los fragmentos recuperados se proporcionan al modelo como contexto de referencia antes de que comience la generación. Sin Inferencia no hay Grounding; sin Grounding, la Inferencia depende exclusivamente del conocimiento paramétrico.
Durante la Inferencia en sistemas RAG, tanto la consulta como los fragmentos de contenido se convierten en Embeddings para comparar su similitud semántica. La calidad de los Embeddings del contenido determina su recuperabilidad en cada evento de Inferencia.
La longitud de los chunks influye directamente en cuántos fragmentos pueden incluirse en la ventana de contexto de una Inferencia. Chunks de longitud óptima maximizan la diversidad de fuentes que el sistema puede procesar en cada evento de Inferencia.
El entrenamiento y la Inferencia son las dos fases del ciclo de vida de un modelo de IA. Los Training Data determinan el conocimiento paramétrico que el modelo aplica durante la Inferencia; el Grounding complementa ese conocimiento con información recuperada en tiempo real.
El Query Fan-Out ocurre al inicio de la fase de recuperación del RAG, antes de que el modelo genere la respuesta. Cada sub-consulta del Fan-Out activa su propio proceso de recuperación vectorial, multiplicando el número de eventos de búsqueda dentro de una sola Inferencia.