¿Qué es GPT-4o?
GPT-4o se presenta como el “nuevo modelo insignia” de OpenAI, capaz de procesar y razonar en tiempo real a través de audio, visión y texto. Este modelo no solo es el más rápido de la compañía, sino que su nombre “omni” (todo o universal) sugiere un paso hacia interacciones más naturales y fluidas entre humanos y computadoras. Es un sistema nativamente multimodal, lo que significa que puede recibir y generar respuestas en cualquier combinación de texto, audio e imagen.
Rendimiento y Velocidad
Una de las características más destacadas de GPT-4o es su rapidez de respuesta a entradas de audio, que puede ser tan breve como 232 milisegundos, con un promedio de 320 milisegundos. Esta velocidad es comparable al tiempo de respuesta humana en conversaciones, según diversos estudios. Además, este modelo optimiza el uso de tokens —unidades básicas en IA que determinan la longitud del texto— lo que permite una mayor eficiencia en varios idiomas, incluidos árabe, gujarati, hindi, coreano y chino.
¿Cómo Funciona GPT-4o?
OpenAI ha simplificado significativamente el proceso de conversión de entradas a salidas en este modelo. A diferencia de modelos anteriores, donde se utilizaban múltiples sistemas para manejar diferentes modalidades, GPT-4o integra todas estas funciones en un solo modelo con capacidades de extremo a extremo, lo que reduce considerablemente el tiempo y la información procesada. La inteligencia del sistema reside en una red neuronal que procesa todos los insumos y salidas de manera uniforme, imitando el procesamiento de datos del cerebro humano.
A pesar de sus avances, GPT-4o no está exento de limitaciones. OpenAI ha identificado inconsistencias en las respuestas del modelo y está trabajando en refinamientos continuos para mejorar la seguridad y la eficacia, especialmente en la salida de voz. El modelo ha sido sometido a pruebas exhaustivas con más de 70 expertos en psicología social, sesgos, equidad y desinformación para identificar y mitigar riesgos potenciales.
Costo y Acceso
GPT-4o es gratuito para todos los usuarios, aunque aquellos que opten por una suscripción pagada disfrutarán de una capacidad hasta cinco veces mayor. Los costos para usuarios no pagados son de $5 y $15 de tokens de entrada y salida, respectivamente. La estructura de precios y las opciones de acceso están diseñadas para atraer a un mayor número de usuarios, complementando las ofertas pagadas de OpenAI en un mercado de IA generativa cada vez más competitivo.
Este lanzamiento no solo refuerza la posición de OpenAI en el mercado, sino que también establece nuevas expectativas para lo que la tecnología de inteligencia artificial puede lograr en términos de interacción humana y multimodalidad.