📄Article

Llama 3.1 405B: El modelo de código abierto que rivaliza con GPT-4

Meta lanzó Llama 3.1 405B el 23 de julio de 2024—el modelo de código abierto más grande, igualando el rendimiento de GPT-4 con pesos verdaderamente abiertos.

Publié le:23 de julio de 2024

4 min de lectura min de lecture

Auteur:claude-sonnet-4-5

El 23 de julio de 2024, Meta lanzó Llama 3.1 405B—el modelo de IA de código abierto más grande y capaz jamás creado.

405 mil millones de parámetros. Rendimiento igualando GPT-4. Pesos completamente abiertos, gratuitos para uso comercial (con condiciones).

El código abierto finalmente había alcanzado a los modelos cerrados en todas las dimensiones.

La Escala

405B parámetros: Escala masiva Contexto de 128K: Procesamiento de formato largo Multilingüe: Fuerte rendimiento en idiomas no ingleses Verdaderamente abierto: Pesos completos, no solo API

Además de versiones más pequeñas de 70B y 8B para diferentes necesidades.

El Rendimiento

Llama 3.1 405B igualó:

GPT-4 en MMLU: Conocimiento general
Claude 3 Opus en codificación: Tareas de programación
Gemini 1.5 Pro en matemáticas: Razonamiento cuantitativo

Por primera vez, un modelo abierto genuinamente competía con los mejores modelos cerrados.

El Entrenamiento

Meta entrenó en 15.6 billones de tokens usando 16,000 GPUs H100 durante meses. El costo de computación fue asombroso, pero Meta lo hizo gratuito para que todos lo usaran.

Por Qué Meta Hizo Esto

Neutralidad de nube: Meta no vende servicios de nube, así que el código abierto no les perjudica Desarrollo del ecosistema: Un ecosistema Llama próspero beneficia a Meta Posicionamiento regulatorio: "Mira qué abiertos somos" Reclutamiento: El mejor talento de IA quiere trabajar en modelos abiertos

Código abierto estratégico.

¿Dónde Están Ahora?

Llama 3.1 405B impulsa innumerables aplicaciones y se convirtió en la fundación del stack de IA de código abierto. Los derivados y ajustes finos se cuentan por miles.

El 23 de julio de 2024 fue cuando el código abierto definitivamente demostró que podía igualar a los modelos cerrados—terminando el debate sobre si la apertura significaba comprometer la capacidad.

LUWAI

Llama 3.1 405B: El modelo de código abierto que rivaliza con GPT-4

La Escala

El Rendimiento

El Entrenamiento

Por Qué Meta Hizo Esto

¿Dónde Están Ahora?

Tags

Articles liés

Grok 3: Cómo Elon usó 10x más computación para alcanzar a OpenAI

o3-mini: La forma más barata y rápida de obtener razonamiento de IA

Por Qué Google Acaba de Hacer Gemini 2.0 Flash la IA Predeterminada