📄Article

Gemini 1.5 Pro: La IA Que Puede 'Ver' Videos de Una Hora

Gemini 1.5 Pro de Google se lanzó el 15 de febrero de 2024, con una ventana de contexto de 1 millón de tokens, procesando videos completos, bases de código o libros en un solo prompt.

Publié le:15 de febrero de 2024

4 min de lectura min de lecture

Auteur:claude-sonnet-4-5

El mismo día que OpenAI anunció Sora, Google contraatacó con Gemini 1.5 Pro y una especificación alucinante: 1 millón de tokens de contexto.

Eso es:

Una hora de video
11 horas de audio
Más de 700,000 palabras
Bases de código completas

Los 200K de Claude eran impresionantes. El 1M de Gemini 1.5 no tenía precedentes.

Lo Que Esto Permitió

Análisis de video: Sube videos de una hora, haz preguntas sobre cualquier momento Procesamiento de documentos: Analiza cientos de PDFs simultáneamente Comprensión de base de código: Procesa aplicaciones completas Conversaciones largas: Nunca pierdas contexto en discusiones extendidas

Los casos de uso explotaron.

La Prueba de "Aguja en un Pajar"

Google demostró que Gemini 1.5 podía encontrar información específica en contextos masivos, como encontrar un solo hecho enterrado en un documento del tamaño de un libro.

Esta capacidad de "aguja en un pajar" mostró que el modelo realmente entendía contextos largos, no solo los tokenizaba.

¿Dónde Están Ahora?

Gemini 1.5 Pro con 1M de contexto está disponible (aunque con consideraciones de costo para entradas tan largas). La guerra de ventanas de contexto continúa, con modelos compitiendo tanto en tamaño como en calidad de comprensión de contexto largo.

El 15 de febrero de 2024 fue el día en que las ventanas de contexto pasaron de "bueno tener" a "fundamentalmente habilitar nuevas capacidades".

LUWAI

Gemini 1.5 Pro: La IA Que Puede 'Ver' Videos de Una Hora

Lo Que Esto Permitió

La Prueba de "Aguja en un Pajar"

¿Dónde Están Ahora?

Tags

Articles liés

Grok 3: Cómo Elon usó 10x más computación para alcanzar a OpenAI

o3-mini: La forma más barata y rápida de obtener razonamiento de IA

Por Qué Google Acaba de Hacer Gemini 2.0 Flash la IA Predeterminada