- ← Retour aux ressources
- /Gemini 1.5 Pro : L'IA qui Peut 'Regarder' des Vidéos d'une Heure
Gemini 1.5 Pro : L'IA qui Peut 'Regarder' des Vidéos d'une Heure
Gemini 1.5 Pro de Google lancé le 15 février 2024, avec une fenêtre de contexte de 1 million de tokens—traitant des vidéos entières, bases de code ou livres en un seul prompt.
Le jour même où OpenAI annonçait Sora, Google a riposté avec Gemini 1.5 Pro—et une spec époustouflante : 1 million de tokens de contexte.
C'est :
- Une heure de vidéo
- 11 heures d'audio
- 700 000+ mots
- Des bases de code entières
Les 200K de Claude étaient impressionnants. Le 1M de Gemini 1.5 était sans précédent.
Ce que Cela Permettait
Analyse vidéo : Téléchargez des vidéos d'une heure, posez des questions sur n'importe quel moment Traitement de documents : Analysez des centaines de PDFs simultanément Compréhension de base de code : Traitez des applications entières Conversations longues : Ne perdez jamais le contexte dans des discussions étendues
Les cas d'usage ont explosé.
Le Test "Aiguille dans une Botte de Foin"
Google a démontré que Gemini 1.5 pouvait trouver des informations spécifiques dans des contextes massifs—comme trouver un fait unique enfoui dans un document de longueur livre.
Cette capacité "aiguille dans une botte de foin" montrait que le modèle comprenait vraiment les longs contextes, pas seulement les tokenisait.
Où en Sont-Ils Maintenant ?
Gemini 1.5 Pro avec contexte 1M est disponible (bien qu'avec des considérations de coût pour de si longues entrées). La guerre des fenêtres de contexte continue, avec des modèles en compétition sur la taille et la qualité de la compréhension de longs contextes.
Le 15 février 2024 a été le jour où les fenêtres de contexte sont passées de « pratique à avoir » à « permettant fondamentalement de nouvelles capacités ».