📄Article

GPT-4: La IA Que Pasó el Examen de Abogacía y Lo Cambió Todo

El 14 de marzo de 2023, OpenAI lanzó GPT-4. Podía ver imágenes, pasó exámenes profesionales y estableció un nuevo estándar para la inteligencia de IA.

Publié le:14 de marzo de 2023

5 min de lectura min de lecture

Auteur:claude-sonnet-4-5

El 14 de marzo de 2023, OpenAI lanzó GPT-4. El anuncio incluía un detalle que hizo que todos se detuvieran a leer de nuevo: GPT-4 había obtenido un puntaje en el percentil 90 en el examen de abogacía. No una prueba de práctica: el examen real que los abogados toman para ejercer.

El predecesor de ChatGPT, GPT-3.5, obtuvo un puntaje en el percentil 10. En solo unos meses, la IA había pasado de "apenas pasar" a "lo mejor de la clase".

Esto no fue una mejora incremental. Fue un salto.

El Desarrollo Silencioso

A diferencia del lanzamiento sorpresa de ChatGPT, GPT-4 había estado en desarrollo durante meses con evaluadores selectos bajo estrictos NDAs.

Compañías como Morgan Stanley, Khan Academy y Duolingo habían estado construyendo sobre GPT-4 en secreto. Sabían que algo grande se avecinaba.

OpenAI aprendió de la explosión viral caótica de ChatGPT. Esta vez, se prepararon cuidadosamente. Pruebas de equipo rojo, evaluaciones de seguridad y anuncios de asociación estaban todos listos antes de la revelación pública.

Las Grandes Revelaciones

GPT-4 trajo múltiples avances que redefinieron lo que la IA podía hacer.

1. Visión Multimodal

La capacidad nueva más dramática: GPT-4 podía ver y entender imágenes.

Podías mostrarle una foto y hacer preguntas. Subir un boceto de un diseño de sitio web, y generaría el código. Tomar una foto del contenido de tu refrigerador y sugeriría recetas.

Esto abrió casos de uso completamente nuevos. La IA ya no se trataba solo de texto.

2. Contexto Más Largo

GPT-4 podía manejar 32,000 tokens, aproximadamente 25,000 palabras o 50 páginas de texto. Podías alimentarlo con documentos completos, artículos largos o bases de código y hacer preguntas sobre ellos.

El límite anterior de 4,000 tokens (aproximadamente 3,000 palabras) había sido una restricción importante. GPT-4 rompió ese techo.

3. Mejora Dramática de Razonamiento

Los resultados de benchmark fueron impresionantes:

Examen de Abogacía: Percentil 90 (desde percentil 10)
SAT Matemáticas: 700/800 (percentil 89)
SAT Lectura/Escritura: 710/800 (percentil 93)
AP Biología: 5/5
AP Cálculo BC: 4/5

Estos no fueron ejemplos seleccionados. GPT-4 tuvo un rendimiento consistente a nivel de experto humano o superior en pruebas estandarizadas.

4. Alucinaciones Reducidas

GPT-4 tenía un 40% menos de probabilidades de inventar hechos en comparación con GPT-3.5. Todavía era imperfecto, pero la mejora fue notable.

Para casos de uso profesionales donde la precisión importa, esto fue crucial.

Las Aplicaciones del Mundo Real

En horas del lanzamiento de GPT-4, los desarrolladores comenzaron a compartir lo que habían construido.

Khan Academy demostró Khanmigo, un tutor de IA impulsado por GPT-4 que podía explicar conceptos, responder preguntas y adaptarse al nivel del estudiante.

Be My Eyes mostró cómo GPT-4 podía describir imágenes para usuarios ciegos y con baja visión, leyendo etiquetas, navegando espacios e identificando objetos.

Duolingo introdujo práctica conversacional con personajes de IA impulsados por GPT-4, haciendo el aprendizaje de idiomas más interactivo.

Estas no eran demos: eran productos reales que la gente podía usar inmediatamente.

La Onda de Choque Competitiva

El lanzamiento de GPT-4 envió a los competidores luchando.

Google acababa de lanzar Bard una semana antes. De repente, Bard parecía obsoleto. Google se apresuró a responder, pero fueron tomados por sorpresa.

Microsoft, que había invertido $10 mil millones en OpenAI, inmediatamente integró GPT-4 en Bing y comenzó a implementarlo en todo su conjunto de productos.

Anthropic, el principal competidor de OpenAI enfocado en seguridad de IA, aceleró el desarrollo de Claude. La presión estaba en para ponerse al día.

La Historia Detrás de Escena

Lo que mucha gente no sabía: GPT-4 había estado terminado durante meses antes del lanzamiento.

OpenAI pasó aproximadamente seis meses en pruebas de seguridad, investigación de alineación y equipos rojos. Querían entender las capacidades y riesgos de GPT-4 antes de liberarlo públicamente.

Este retraso frustró a algunos que querían la tecnología inmediatamente. Pero estableció un precedente: los sistemas de IA más capaces merecían una evaluación cuidadosa antes del despliegue.

La Estrategia de Acceso

GPT-4 se lanzó exclusivamente para suscriptores de ChatGPT Plus ($20/mes) y clientes de API.

Esto fue inteligente por varias razones:

Capacidad del servidor: Limitar el acceso evitó que el sistema se sobrecargara Ingresos: Las tarifas de suscripción financiaron los costos masivos de computación Posicionamiento: GPT-4 se convirtió en una característica premium por la que valía la pena pagar

Los usuarios gratuitos de ChatGPT podían ver lo que se estaban perdiendo pero tenían que pagar para acceder. Muchos se convirtieron a Plus solo por GPT-4.

Las Limitaciones Que Todos Descubrieron

A pesar de las mejoras, GPT-4 no era perfecto.

Todavía alucinaba hechos ocasionalmente. Todavía luchaba con matemáticas complejas de múltiples pasos. Todavía tenía problemas de fecha límite de conocimiento (datos de entrenamiento terminaron en septiembre de 2021).

Las capacidades de visión, aunque impresionantes, eran limitadas. No podías subir videos. El análisis de imágenes en tiempo real no era posible.

Y era más lento que GPT-3.5. Más capaz, pero también más costoso de ejecutar.

¿Dónde Están Ahora?

GPT-4 siguió siendo el modelo insignia de OpenAI durante más de un año hasta que GPT-4o ("omni") se lanzó en mayo de 2024. Incluso hoy, las variantes de GPT-4 impulsan gran parte de ChatGPT, Microsoft Copilot y miles de aplicaciones de IA.

El modelo que pasó el examen de abogacía en marzo de 2023 estableció el estándar para las capacidades de IA. Probó que la IA podía pasar de trucos de fiesta a herramientas profesionales genuinamente útiles.

Más importante, GPT-4 estableció lo que significaba "IA de frontera". Cada modelo lanzado desde entonces, desde Claude 3 hasta Gemini hasta Llama 3, ha sido comparado con el rendimiento de benchmark de GPT-4.

El 14 de marzo de 2023 fue el día en que las capacidades de IA dieron un salto visible e innegable hacia adelante. El resultado del examen de abogacía fue simbólico, pero la mejora subyacente fue real: la IA se había vuelto dramáticamente más inteligente, y la carrera para construir modelos aún mejores había entrado oficialmente en sobremarcha.

LUWAI