Publié sous licence Apache 2.0, SAM 2 permet à chacun d’expérimenter cette technologie, tandis que le dataset SA-V est disponible sous licence CC BY 4.0. Une démo en ligne permet de tester ce modèle en action, illustrant ses performances de segmentation d’objets en temps réel dans des applications allant de la retouche photo à l’analyse scientifique.
SAM 2 : Nouvelles capacités et applications
Avec SAM 2, Meta repousse les limites de la segmentation vidéo, permettant une généralisation zéro-shot, c’est-à-dire une segmentation sans entraînement préalable. Contrairement aux méthodes traditionnelles qui nécessitaient des ressources importantes et une expertise technique, SAM 2 simplifie le processus tout en offrant des performances accrues. Il est déjà utilisé dans des domaines tels que la surveillance vidéo, la recherche scientifique, ou encore l’imagerie médicale.
Amélioration et méthodologie
SAM 2 se distingue par une architecture unifiée pour les images et les vidéos, intégrant un mécanisme de mémoire qui assure une continuité dans la segmentation à travers une vidéo entière. Cela permet de gérer les défis des vidéos, comme les mouvements, l’éclairage changeant et les occlusions. Ce modèle est capable de générer des masques spatio-temporels et de les affiner de manière interactive.
Dataset SA-V : Une ressource clé pour l’entraînement
Meta a développé un ensemble de données spécifique, le SA-V, pour améliorer la précision de la segmentation vidéo. Ce dataset inclut plus de 600 000 annotations de masques sur 51 000 vidéos couvrant des scénarios du monde réel issus de 47 pays. Grâce à ce processus, SAM 2 a considérablement réduit la nécessité d’interventions humaines tout en améliorant la précision des segmentations.
Résultats impressionnants mais encore perfectibles
SAM 2 surpasse les modèles de segmentation vidéo précédents, nécessitant moins d’interactions humaines tout en offrant une précision accrue. Cependant, le modèle présente encore certaines limites, comme la difficulté à suivre plusieurs objets complexes en simultané ou la perte de suivi d’objets similaires. Cela dit, SAM 2 propose une approche interactive, permettant des ajustements manuels en cas d’erreur de segmentation.
Perspectives d’avenir
Avec SAM 2, Meta réaffirme son engagement envers l’open source et la démocratisation de la vision par ordinateur. Ce modèle est un pas de plus vers une automatisation de la segmentation d’objets en temps réel, ce qui pourrait révolutionner des secteurs allant de l’industrie à la médecine. Comme l’affirme Mark Zuckerberg, cette avancée pourrait améliorer la productivité et la créativité, tout en favorisant une croissance économique et scientifique.