- ← Retour aux ressources
- /Gemini 1.5 Pro: La IA Que Puede 'Ver' Videos de Una Hora
Gemini 1.5 Pro: La IA Que Puede 'Ver' Videos de Una Hora
Gemini 1.5 Pro de Google se lanzó el 15 de febrero de 2024, con una ventana de contexto de 1 millón de tokens, procesando videos completos, bases de código o libros en un solo prompt.
El mismo día que OpenAI anunció Sora, Google contraatacó con Gemini 1.5 Pro y una especificación alucinante: 1 millón de tokens de contexto.
Eso es:
- Una hora de video
- 11 horas de audio
- Más de 700,000 palabras
- Bases de código completas
Los 200K de Claude eran impresionantes. El 1M de Gemini 1.5 no tenía precedentes.
Lo Que Esto Permitió
Análisis de video: Sube videos de una hora, haz preguntas sobre cualquier momento Procesamiento de documentos: Analiza cientos de PDFs simultáneamente Comprensión de base de código: Procesa aplicaciones completas Conversaciones largas: Nunca pierdas contexto en discusiones extendidas
Los casos de uso explotaron.
La Prueba de "Aguja en un Pajar"
Google demostró que Gemini 1.5 podía encontrar información específica en contextos masivos, como encontrar un solo hecho enterrado en un documento del tamaño de un libro.
Esta capacidad de "aguja en un pajar" mostró que el modelo realmente entendía contextos largos, no solo los tokenizaba.
¿Dónde Están Ahora?
Gemini 1.5 Pro con 1M de contexto está disponible (aunque con consideraciones de costo para entradas tan largas). La guerra de ventanas de contexto continúa, con modelos compitiendo tanto en tamaño como en calidad de comprensión de contexto largo.
El 15 de febrero de 2024 fue el día en que las ventanas de contexto pasaron de "bueno tener" a "fundamentalmente habilitar nuevas capacidades".