Abductive Reasoning (Razonamiento Abductivo)
Implica tomar observaciones o evidencias y formular la mejor hipótesis posible para explicarlas.

Cargando…
Explora y domina el vocabulario de la revolución tecnológica. Definiciones clara en español para conceptos complejos.
Implica tomar observaciones o evidencias y formular la mejor hipótesis posible para explicarlas.
Un lenguaje especializado utilizado para definir las acciones que un agente de IA puede realizar y sus consecuencias.
Un método en IA para aprender precondiciones y efectos de acciones, a menudo en sistemas de planificación.
Encontrar la mejor secuencia de acciones para lograr un objetivo específico de manera eficiente.
En redes neuronales, determina si una neurona se dispara basándose en la entrada, moldeando la salida del modelo.
Un enfoque de aprendizaje donde la IA solicita más datos o ejemplos para mejorar su rendimiento.
Una técnica de aprendizaje por refuerzo donde el 'actor' selecciona acciones y el 'crítico' las evalúa.
Concepto de algoritmo de búsqueda que asegura que el costo estimado nunca sea sobreestimado para garantizar la optimalidad.
Entrada diseñada intencionalmente para engañar a un modelo de IA, causando que cometa errores con cambios imperceptibles para humanos.
El estudio de cómo defender la IA de ataques que intentan engañar o confundir a los modelos de aprendizaje.
Un sistema de software que percibe su entorno y toma acciones para alcanzar objetivos.
Archivo de configuración (generalmente Markdown) que define secuencias estructuradas de pasos y herramientas que un agente de IA debe seguir para completar tareas complejas.
Sistemas de IA diseñados para la toma de decisiones autónoma y la ejecución de tareas con mínima intervención humana.
Campo de investigación enfocado en garantizar que la Inteligencia General Artificial sea segura y beneficiosa para la humanidad.
Garantizar que los sistemas de IA se comporten de maneras que estén alineadas con los valores y la ética humanos.
Herramientas de IA conversacional impulsadas por LLMs que asisten a los usuarios en completar tareas organizacionales o de código.
Campo de investigación que asegura que las tecnologías de IA permanezcan seguras, éticas y alineadas con el beneficio humano.
Conjunto de reglas o instrucciones paso a paso que un sistema de IA sigue para resolver problemas o realizar tareas.
Un error sistemático en la salida de una IA que lleva a resultados injustos o prejuiciosos.
Un programa de IA pionero de DeepMind que derrotó a campeones humanos de Go usando aprendizaje profundo.
Una IA de propósito general de DeepMind que dominó múltiples juegos desde cero sin datos humanos previos.
Empresa de investigación de seguridad y IA, creadora de la familia de modelos Claude, enfocada en IA constitucional y confiable.
Tendencia a atribuir características humanas a sistemas de IA, aunque estos no posean conciencia o emociones reales.
Identificador único utilizado para autenticar y autorizar el acceso a servicios y modelos de IA a través de APIs.
IA que puede realizar cualquier tarea intelectual que un ser humano puede hacer.
Tipo de IA enfocada en tareas específicas como actualizaciones del clima, análisis de datos o juegos, no en inteligencia general.
Un método donde la IA imita el procesamiento similar al del cerebro para interpretar y analizar datos.
Técnica que permite procesar la fase de pre-rellenado de una nueva solicitud mientras se generan tokens para otras, mejorando la utilización de la GPU.
Técnica que permite a los modelos de IA enfocarse en partes específicas de la entrada al procesar información, fundamental en arquitecturas Transformer.
Sistema de IA autónomo que puede encadenar tareas para lograr un objetivo complejo sin intervención humana constante.
Tipo de red neuronal que aprende a codificar y decodificar datos, útil para reducción de dimensionalidad y detección de anomalías.
Proceso automatizado que selecciona, configura y optimiza modelos de Machine Learning con mínima intervención humana.
Algoritmo clave en redes neuronales para ajustar los pesos minimizando el error en la salida.
Fase del entrenamiento de redes neuronales donde se calculan los gradientes mediante backpropagation para actualizar los pesos.
Modelo de representación de texto que ignora el orden de las palabras y solo cuenta su frecuencia de aparición.
Conjunto de ejemplos de entrenamiento procesados simultáneamente durante una iteración del algoritmo de aprendizaje.
Enfoque probabilístico de Machine Learning que utiliza el teorema de Bayes para actualizar creencias sobre parámetros del modelo.
Modelo de lenguaje pre-entrenado desarrollado por Google que procesa texto en ambas direcciones para entender mejor el contexto.
Modelos derivados de BERT como RoBERTa, ALBERT y DistilBERT, cada uno optimizado para diferentes objetivos de rendimiento.
Técnicas utilizadas para identificar y mitigar sesgos en modelos de IA para garantizar resultados justos y equitativos.
El equilibrio que se debe encontrar entre el error por sesgo (underfitting) y el error por varianza (overfitting).
Capacidad de un modelo de procesar información en ambas direcciones (adelante y atrás), como en BERT.
Conjuntos de datos extremadamente grandes y complejos que requieren herramientas avanzadas para su procesamiento.
Término que describe modelos de IA cuyas decisiones internas son difíciles de interpretar o explicar.
Técnica estadística que crea múltiples muestras aleatorias del conjunto de datos para evaluar la robustez del modelo.
Campo que busca entender relaciones causa-efecto en datos, más allá de simples correlaciones estadísticas.
Técnica de prompting que descompone problemas complejos en pasos intermedios de razonamiento para mejorar la precisión del modelo.
Funcionalidad de modelos de lenguaje que genera respuestas conversacionales basadas en el historial de mensajes.
Programa diseñado para simular conversaciones con usuarios humanos, especialmente a través de internet.
Modelo de lenguaje avanzado desarrollado por OpenAI optimizado para el diálogo.
Tarea de Machine Learning que consiste en asignar etiquetas o categorías a datos de entrada basándose en características aprendidas.
Familia de modelos de lenguaje desarrollados por Anthropic, conocidos por su enfoque en seguridad, razonamiento avanzado y gran ventana de contexto.
Modelo multimodal desarrollado por OpenAI que conecta texto e imágenes mediante aprendizaje contrastivo.
Servicios de IA proporcionados a través de plataformas en la nube, permitiendo acceso sin infraestructura local.
Técnica de aprendizaje no supervisado que agrupa datos similares sin necesidad de etiquetas previas.
Tipo de red neuronal especialmente efectiva para procesar imágenes mediante el uso de capas convolucionales que detectan patrones espaciales.
Sistemas que simulan procesos de pensamiento humano para resolver problemas complejos de manera similar a como lo haría un humano.
Técnica de recomendación que predice preferencias basándose en el comportamiento y preferencias de usuarios similares.
Representación matemática de operaciones en redes neuronales que permite calcular gradientes eficientemente.
Capacidad avanzada de modelos como Claude (Anthropic) para interactuar con interfaces de usuario, moviendo el cursor y escribiendo para realizar tareas complejas.
Campo de la IA que permite a las computadoras 'ver' y comprender el contenido de imágenes y videos digitles.
Tabla que muestra el rendimiento de un modelo de clasificación comparando predicciones con valores reales.
La cantidad máxima de información (tokens) que un modelo puede procesar y mantener presente en una sola sesión de interacción.
Técnica para manejar contextos extremadamente largos cargando y procesando solo las partes necesarias del historial de forma dinámica.
Capacidad de un modelo para aprender nuevas tareas sin olvidar conocimientos previamente adquiridos.
Método de procesamiento de solicitudes que permite insertar nuevas peticiones en un lote sin esperar a que las actuales terminen de generarse.
Estado donde el proceso de entrenamiento alcanza un punto donde los parámetros del modelo ya no mejoran significativamente.
Sinónimo de función de pérdida; mide el error entre predicciones del modelo y valores reales.
Función de pérdida comúnmente utilizada en problemas de clasificación, especialmente con múltiples clases.
Técnica para evaluar modelos dividiendo los datos en múltiples subconjuntos y entrenando/validando en diferentes combinaciones.
Característica de NVIDIA que permite grabar una secuencia de operaciones de GPU como un grafo único, reduciendo drásticamente la latencia de lanzamiento del kernel.
Archivo de configuración específico del editor Cursor que proporciona instrucciones de contexto y estilo para que la IA genere código alineado con el proyecto.
Modelo de IA generativa desarrollado por OpenAI capaz de crear imágenes realistas a partir de descripciones textuales.
Técnica que incrementa la cantidad de datos de entrenamiento mediante transformaciones como rotaciones, escalados o cambios de color.
Fenómeno donde la distribución de datos en producción cambia con el tiempo, degradando el rendimiento del modelo.
Conjunto de procesos automatizados que transforman datos desde su origen hasta un formato utilizable para entrenamiento.
Colección estructurada de datos (imágenes, textos, números) utilizada para entrenar, validar o probar modelos de IA.
Algoritmo de Machine Learning que toma decisiones mediante una estructura de árbol con nodos de decisión y hojas.
Subcampo del Machine Learning basado en redes neuronales artificiales con múltiples capas (profundas).
Combinación de Deep Learning y Reinforcement Learning, utilizada en sistemas como AlphaGo.
Laboratorio de investigación de IA (propiedad de Google) famoso por AlphaGo y avances en aprendizaje profundo.
Algoritmos generativos que crean contenido de alta calidad (como imágenes) a partir de ruido Gaussiano, como Stable Diffusion o Midjourney.
Técnicas que reducen el número de características en los datos manteniendo la información más importante.
Proceso de entrenar modelos de IA utilizando múltiples GPUs o máquinas en paralelo para acelerar el proceso.
Técnica que adapta un modelo entrenado en un dominio a otro dominio relacionado pero diferente.
Tarea específica para la cual se ajusta un modelo pre-entrenado, como clasificación de sentimientos o Q&A.
Técnica moderna para alinear modelos con preferencias humanas de forma más sencilla y estable que el RLHF.
Estrategia que agrupa múltiples solicitudes de inferencia con diferentes longitudes de entrada para maximizar el rendimiento del hardware.
Arquitectura que permite a un modelo detener el procesamiento en capas intermedias si la confianza es suficientemente alta, ahorrando tiempo de cómputo.
Técnica de regularización que detiene el entrenamiento cuando el rendimiento en validación deja de mejorar.
Ejecución de modelos de IA directamente en dispositivos locales (móviles, IoT) sin depender de la nube.
Representación numérica densa de palabras, frases o conceptos en un espacio vectorial de alta dimensión que captura relaciones semánticas.
Arquitectura de red neuronal donde un codificador procesa la entrada y un decodificador genera la salida, común en traducción.
Tarea de NLP que identifica y clasifica entidades nombradas en texto (personas, lugares, organizaciones, etc.).
Un ciclo completo de entrenamiento donde el modelo procesa todo el conjunto de datos de entrenamiento una vez.
Desarrollo y uso de sistemas de IA que respetan valores humanos, derechos y principios éticos fundamentales.
Proceso sistemático de evaluación de modelos de IA mediante conjuntos de pruebas estandarizados y métricas específicas. Las evals miden el rendimiento, capacidades y limitaciones de modelos en tareas específicas, permitiendo comparaciones objetivas entre diferentes modelos.
Sistema de IA temprano que imita la capacidad de decisión de un experto humano mediante reglas y conocimiento codificado.
Campo de investigación que busca hacer comprensibles las decisiones y predicciones de los modelos de IA para humanos.
Proceso de seleccionar, modificar o crear variables de entrada (features) para mejorar el rendimiento de los modelos de Machine Learning.
Técnica que entrena modelos de IA utilizando datos distribuidos en múltiples dispositivos sin compartir los datos centralmente.
Capacidad de un modelo de IA para aprender nuevas tareas con muy pocos ejemplos de entrenamiento, a menudo solo unos pocos.
Técnica de prompt engineering que proporciona algunos ejemplos al modelo para guiar su comportamiento en una tarea específica.
Proceso de adaptar un modelo pre-entrenado a una tarea específica ajustando sus parámetros con datos del dominio objetivo.
Fase del entrenamiento donde los datos fluyen a través de la red neuronal desde la entrada hasta la salida.
Modelo de IA grande y versátil pre-entrenado en datos masivos que puede adaptarse a múltiples tareas específicas.
Funciones de bajo nivel optimizadas para procesar datos en formato de punto flotante de 8 bits, permitiendo una inferencia mucho más rápida en hardware moderno.
Sistema de lógica que maneja valores de verdad parciales, útil para modelar incertidumbre e imprecisión.
Arquitectura de red neuronal compuesta por dos redes que compiten: un generador que crea datos falsos y un discriminador que intenta detectarlos.
Familia de modelos de IA multimodales más capaces de Google, diseñados para razonar de forma nativa sobre texto, imágenes, video, audio y código.
Tipo de IA capaz de generar nuevo contenido, como texto, imágenes, audio y video, en respuesta a indicaciones (prompts).
Familia de modelos de lenguaje grandes desarrollados por OpenAI que utilizan aprendizaje profundo para generar texto similar al humano.
Modelos de lenguaje grandes de OpenAI con miles de millones de parámetros, capaces de tareas complejas de lenguaje natural.
Procesador especializado en cálculos paralelos masivos, esencial para el entrenamiento e inferencia acelerada de redes neuronales.
Técnica de ingeniería que permite que la CPU y la GPU realicen tareas simultáneamente (como transferencia de datos y cómputo) para evitar cuellos de botella.
Vector que indica la dirección de mayor crecimiento de una función, esencial para optimizar modelos mediante descenso de gradiente.
Algoritmo de optimización que minimiza la función de pérdida ajustando iterativamente los parámetros del modelo en dirección opuesta al gradiente.
Tipo de red neuronal diseñada para procesar datos estructurados como grafos, útil en redes sociales y química.
Datos de referencia correctos y verificados utilizados para entrenar y evaluar modelos de IA.
Fenómeno donde un modelo de IA genera información incorrecta o sin sentido con gran confianza.
Regla práctica o método aproximado que proporciona soluciones rápidas aunque no necesariamente óptimas.
Plataforma líder y comunidad de código abierto que actúa como el 'GitHub de la IA', alojando miles de modelos, datasets y aplicaciones.
Enfoque donde humanos supervisan, validan o corrigen las decisiones de sistemas de IA durante su funcionamiento.
Parámetro de configuración del modelo que se establece antes del entrenamiento y no se aprende de los datos (ej: tasa de aprendizaje, número de capas).
Proceso de encontrar los mejores valores para hiperparámetros mediante técnicas como grid search o random search.
Tarea de Computer Vision que asigna etiquetas categóricas a imágenes, como identificar objetos o escenas.
Dataset donde algunas clases tienen muchos más ejemplos que otras, requiriendo técnicas especiales de manejo.
Capacidad de los LLMs de aprender nuevas tareas o patrones directamente desde ejemplos proporcionados en el prompt sin ajuste de parámetros.
Capacidad de un modelo para aprender continuamente de nuevos datos sin reentrenar desde cero.
Suposiciones incorporadas en un algoritmo de aprendizaje que guían cómo generaliza a partir de ejemplos de entrenamiento.
El proceso de utilizar un modelo de IA ya entrenado para generar predicciones o respuestas a partir de datos nuevos.
Tarea de NLP que identifica y estructura información específica de texto no estructurado.
Algoritmos que almacenan ejemplos de entrenamiento y hacen predicciones basándose en instancias similares.
Entrenamiento adicional para que un modelo aprenda a seguir comandos específicos del usuario en lugar de solo completar texto.
Capacidad de entender y explicar cómo un modelo de IA llega a sus decisiones o predicciones.
Biblioteca de Python desarrollada por Google para computación científica de alto rendimiento, popular en investigación de IA.
Técnica que mapea diferentes tipos de datos (texto, imágenes) al mismo espacio vectorial para comparación.
Biblioteca de redes neuronales de código abierto de alto nivel, diseñada para permitir la experimentación rápida con redes neuronales profundas.
Técnica donde un modelo pequeño aprende a imitar el comportamiento de un modelo grande y complejo.
Reducción de la precisión de los valores almacenados en la caché de Clave-Valor (KV) para disminuir drásticamente el uso de memoria VRAM en modelos de lenguaje.
Valor correcto o esperado para un ejemplo de entrenamiento en aprendizaje supervisado.
Modelos de IA diseñados para realizar acciones concretas en sistemas y aplicaciones, no solo generar texto. Combinan capacidades de razonamiento con la habilidad de ejecutar tareas como interactuar con interfaces, usar herramientas y realizar acciones complejas.
Modelo de aprendizaje profundo entrenado en inmensas cantidades de datos de texto para entender y generar lenguaje natural.
Representación comprimida de datos en un espacio de menor dimensión donde se capturan características esenciales.
Grupo de neuronas en una red neuronal que procesa información y la pasa a la siguiente capa.
Gráfico que muestra cómo el rendimiento del modelo mejora con más datos de entrenamiento o épocas.
Algoritmo de Machine Learning que modela la relación entre variables mediante una línea recta.
Familia de modelos de lenguaje de código abierto de alto rendimiento desarrollados por Meta (Facebook).
Algoritmo de clasificación que predice probabilidades utilizando una función logística (sigmoide).
Técnica de ajuste fino eficiente que permite adaptar modelos gigantes modificando solo una mínima fracción de sus parámetros.
Función que mide qué tan lejos están las predicciones del modelo de los valores reales, guiando el proceso de optimización.
Tipo especial de red neuronal recurrente diseñada para recordar información a largo plazo y evitar el problema del gradiente que desaparece.
Subcampo de la IA que se centra en el desarrollo de algoritmos que permiten a las computadoras aprender de los datos.
Aplicación de NLP que traduce texto de un idioma a otro utilizando modelos de IA.
Técnica de pre-entrenamiento donde el modelo predice palabras ocultas en contexto, como en BERT.
Métrica común de regresión que mide el promedio de los errores al cuadrado entre predicciones y valores reales.
Proceso de mover partes de un modelo o sus datos temporales de la memoria de la GPU (VRAM) a la memoria del sistema (RAM) o disco para manejar modelos más grandes.
Campo que busca desarrollar algoritmos capaces de aprender a aprender, mejorando su eficiencia en nuevas tareas.
Servicio de IA generativa especializado en la creación de imágenes artísticas de alta calidad a partir de descripciones textuales.
Familia de modelos de lenguaje europeos conocidos por su eficiencia técnica y rendimiento superior en formatos compactos.
Arquitectura que activa solo partes específicas del modelo (expertos) para cada entrada, permitiendo modelos enormes pero eficientes.
Conjunto de prácticas y herramientas que combinan Machine Learning con DevOps para automatizar y gestionar el ciclo de vida completo de modelos de IA en producción. Incluye versionado de modelos, monitoreo, despliegue, escalado y mantenimiento continuo.
Documento que proporciona información transparente sobre el rendimiento, limitaciones y uso ético de un modelo de IA.
Repositorio centralizado donde se comparten modelos pre-entrenados para facilitar su reutilización.
Técnica de optimización que acelera el descenso de gradiente acumulando información de actualizaciones anteriores.
Sistemas compuestos por múltiples agentes de IA autónomos que interactúan entre sí para resolver problemas complejos. Cada agente puede tener objetivos, capacidades y conocimiento propios, colaborando o compitiendo para alcanzar metas colectivas o individuales.
Enfoque donde un modelo aprende múltiples tareas relacionadas simultáneamente, mejorando la generalización.
Sistemas de IA que pueden procesar y entender múltiples tipos de datos simultáneamente, como texto, imágenes, audio y video.
Tarea de NLP que identifica y clasifica entidades como nombres de personas, organizaciones y ubicaciones en texto.
Rama de la IA que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano.
Enfoque moderno de traducción automática utilizando redes neuronales, especialmente encoder-decoder.
Estructura y diseño de una red neuronal, incluyendo número de capas, tipos de neuronas y conexiones.
Variaciones aleatorias o errores en los datos que pueden afectar el rendimiento del modelo.
Capa en redes neuronales que normaliza las activaciones, como BatchNorm o LayerNorm, para estabilizar el entrenamiento.
Tarea de Computer Vision que identifica y localiza múltiples objetos en una imagen, proporcionando sus coordenadas.
Tecnología que convierte imágenes de texto (escaneadas o fotografiadas) en texto editable.
Técnica que convierte variables categóricas en vectores binarios donde solo un elemento es 1 y el resto son 0.
Método donde el modelo se actualiza continuamente con cada nuevo ejemplo de datos, sin reentrenar desde cero.
Laboratorio de investigación de IA estadounidense responsable de ChatGPT, GPT-4 y DALL-E.
Punto de datos que se desvía significativamente del patrón general, potencialmente afectando el entrenamiento del modelo.
Problema donde un modelo aprende demasiado bien los datos de entrenamiento pero falla en generalizar a datos nuevos no vistos.
Algoritmo de gestión de memoria que divide la caché KV en bloques no contiguos, eliminando la fragmentación y permitiendo compartir memoria entre solicitudes.
Técnicas que reducen el número de parámetros entrenables manteniendo el rendimiento, como LoRA o adaptadores.
Métrica que mide qué tan bien un modelo de lenguaje predice una muestra de texto; valores más bajos indican mejor rendimiento.
Secuencia automatizada de pasos que transforma datos desde entrada hasta salida, común en sistemas de producción de IA.
Método de Reinforcement Learning que optimiza directamente la política del agente mediante gradientes.
Operación en CNNs que reduce la dimensionalidad de mapas de características, como max pooling o average pooling.
Gráfico que muestra la relación entre precisión y recall para diferentes umbrales de clasificación.
Sistema que anticipa y carga los datos o parámetros necesarios antes de que el procesador los requiera, minimizando los tiempos de espera.
Transformaciones aplicadas a datos crudos antes del entrenamiento, como normalización, limpieza o tokenización.
Técnica donde múltiples prompts se ejecutan secuencialmente, usando la salida de uno como entrada del siguiente.
El arte de elaborar entradas (prompts) efectivas para guiar a los modelos de IA generativa a producir resultados óptimos.
Estructura reutilizable para crear prompts consistentes y efectivos para modelos de lenguaje.
Framework de Deep Learning desarrollado por Facebook, popular por su flexibilidad y facilidad de uso en investigación.
Algoritmo de Reinforcement Learning que aprende el valor de acciones en diferentes estados mediante una tabla Q.
Proceso de reducir la precisión de los pesos de un modelo para que ocupe menos memoria y sea mucho más rápido.
Tarea de NLP donde el modelo responde preguntas basándose en un contexto proporcionado.
Técnica que mejora la precisión de los modelos generativos recuperando datos relevantes de fuentes externas.
Algoritmo de Machine Learning que combina múltiples árboles de decisión para mejorar la precisión y reducir overfitting.
Tarea de Machine Learning que predice valores numéricos continuos en lugar de categorías discretas.
Tipo de Machine Learning donde un agente aprende a tomar decisiones mediante prueba y error para maximizar una recompensa.
Técnica que entrena modelos usando retroalimentación humana para alinear mejor el comportamiento con valores humanos.
Proceso donde un modelo aprende automáticamente características útiles de los datos sin supervisión explícita.
Técnica que combina múltiples solicitudes similares o redundantes en una sola operación de red o cómputo para mejorar la eficiencia.
Conexión directa que salta capas en una red neuronal, facilitando el entrenamiento de redes muy profundas.
Tipo de red neuronal diseñada para procesar secuencias de datos manteniendo información de estados anteriores mediante conexiones recurrentes.
Capacidad de un modelo de mantener buen rendimiento ante variaciones en los datos de entrada o condiciones adversas.
Gráfico que muestra el rendimiento de un clasificador binario variando el umbral de decisión.
Observación empírica de que el rendimiento de modelos de IA mejora predeciblemente con más datos, parámetros y computación.
Mecanismo que permite a cada elemento de una secuencia atender a todos los demás elementos, fundamental en arquitecturas Transformer.
Técnica de búsqueda que entiende el significado y contexto de consultas, no solo palabras clave exactas.
Enfoque de Machine Learning que combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados.
Arquitectura de red neuronal que transforma secuencias de entrada en secuencias de salida, común en traducción.
Técnica de dividir grandes modelos o datasets en partes más pequeñas para distribuir el procesamiento.
Función de activación en forma de S que mapea valores a un rango entre 0 y 1, útil en clasificación binaria.
Técnica que encuentra elementos similares en un conjunto de datos basándose en embeddings o vectores.
Sinónimo de conexión residual; conexión directa que evita capas intermedias en una red neuronal.
Modelos de lenguaje con menos parámetros (típicamente menos de 10 mil millones) comparados con los LLMs grandes. Los SLMs son más eficientes computacionalmente, requieren menos recursos y pueden ejecutarse en dispositivos locales, aunque generalmente tienen capacidades más limitadas que los modelos grandes.
Variante del mecanismo de atención que solo calcula atención para un subconjunto de posiciones, reduciendo costos computacionales.
Método de aceleración donde un modelo pequeño predice tokens probables y un modelo grande los verifica en paralelo, reduciendo la latencia de generación.
Tecnología que convierte señales de audio de habla humana en texto transcrito.
Modelo de IA generativa de código abierto para crear imágenes a partir de texto, conocido por su eficiencia y calidad.
Proceso que involucra aleatoriedad, como en Stochastic Gradient Descent donde se usan muestras aleatorias.
Modo de entrega de resultados donde los tokens se envían al usuario apenas se generan, en lugar de esperar a que se complete toda la secuencia.
Proceso de ajustar un modelo pre-entrenado usando ejemplos etiquetados para una tarea específica.
Tipo de Machine Learning donde el modelo aprende de datos etiquetados, es decir, ejemplos con las respuestas correctas.
Algoritmo de Machine Learning que encuentra el hiperplano óptimo para separar clases en un espacio de características.
Capa final de un modelo que se adapta para una tarea particular, como clasificación o generación.
Parámetro que controla la aleatoriedad de las respuestas; valores bajos son coherentes y valores altos son creativos.
Ecosistema de código abierto para el aprendizaje automático, ampliamente utilizado para entrenar y desplegar modelos de redes neuronales profundas.
Tarea de NLP que asigna categorías o etiquetas a documentos o fragmentos de texto.
Capacidad de modelos de lenguaje para crear texto nuevo, coherente y contextualmente relevante.
Tarea de NLP que condensa documentos largos en versiones más cortas manteniendo la información clave.
Secuencia de datos medidos a intervalos regulares en el tiempo, como precios de acciones o sensores.
Unidad básica de procesamiento en modelos de lenguaje, que puede ser una palabra, parte de una palabra o un carácter, dependiendo del tokenizador.
Forma de paralelismo que divide el procesamiento de diferentes tokens de una secuencia entre múltiples dispositivos o núcleos de cómputo.
Proceso de dividir texto en unidades más pequeñas (tokens) que los modelos de lenguaje pueden procesar y entender.
Técnica de generación de texto que selecciona tokens solo entre los k más probables, balanceando creatividad y coherencia.
También llamado 'nucleus sampling', selecciona tokens cuya probabilidad acumulada alcanza un umbral P definido.
Hardware diseñado por Google específicamente para acelerar las tareas de entrenamiento y ejecución de modelos de IA.
Conjunto de ejemplos utilizados para enseñar al modelo a realizar una tarea específica.
Técnica que aprovecha conocimiento aprendido de una tarea para mejorar el rendimiento en una tarea relacionada diferente.
Arquitectura de red neuronal que introdujo el mecanismo de atención, base de los LLMs modernos como GPT.
Diseño de red neuronal basado en mecanismos de auto-atención, fundamento de la mayoría de LLMs modernos.
Técnica de razonamiento avanzada donde un modelo explora múltiples cadenas de pensamiento en paralelo, evaluando y expandiendo las más prometedoras. A diferencia del pensamiento secuencial, ToT permite explorar diferentes caminos de razonamiento simultáneamente, mejorando la capacidad de resolución de problemas complejos.
Proceso de optimizar hiperparámetros o adaptar un modelo pre-entrenado para una tarea específica.
Prueba de la capacidad de una máquina para exhibir un comportamiento inteligente indistinguible del de un humano.
Técnicas que estiman la confianza o incertidumbre en las predicciones de un modelo de IA.
Problema donde un modelo es demasiado simple y no puede capturar los patrones subyacentes en los datos de entrenamiento.
Tipo de Machine Learning donde el modelo aprende patrones de datos sin etiquetas ni supervisión explícita.
Fase inicial donde un modelo aprende representaciones generales de datos sin etiquetas, como en GPT.
Técnica que aumenta la resolución o cantidad de datos, común en generación de imágenes o manejo de clases desbalanceadas.
Dificultad en entrenar redes profundas donde los gradientes se vuelven extremadamente pequeños en capas tempranas.
Sistema de almacenamiento optimizado para embeddings que permite buscar información por similitud semántica, vital para RAG.
Aplicación de arquitectura Transformer a imágenes, dividiendo imágenes en parches y procesándolos como secuencias.
Conjunto completo de tokens únicos que un modelo de lenguaje puede reconocer y procesar.
Estrategia para establecer valores iniciales de pesos en redes neuronales, crucial para un entrenamiento exitoso.
Representación vectorial densa de palabras que captura relaciones semánticas y sintácticas.
Técnica pionera para generar embeddings de palabras que captura relaciones semánticas mediante contexto.
Algoritmo de detección de objetos en tiempo real que procesa imágenes en una sola pasada.
Ataque adversario que explota vulnerabilidades desconocidas en modelos de IA antes de que sean detectadas.
Capacidad de un modelo de IA para realizar tareas para las que no fue específicamente entrenado, usando solo su conocimiento general.
Técnica de pedir a un modelo realizar una tarea sin proporcionarle ningún ejemplo previo en el mensaje.