Information générale
Dr. Christian Desrosiers
Dr. Sylvie Ratté
Contacts (outliers)
Jose Pasillas
Contacts (LLTF)
Alpa Shah
Subventions
Conacyt, bourse doctorale (Jose Pasillas)
Liens essentiels
ERRARE
Le projet ERRARE se propose d'étudier les anomalies sous toutes leurs formes et dans tout type de données. Il vise à produire des techniques innovantes pour la détection et l'interprétation de ces données particulières.
ERRARE: OUTLIERS
Détection de données aberrantes pour améliorer la qualité des données: approche adaptative par ensembles
Les valeurs aberrantes et les erreurs sont présentes dans la majorité des jeux de données du monde réel. Cependant, les approches actuelles ne sont utiles que pour un type spécifique de données et sont limitées uniquement à la constatation des anomalies, et non pas à leur classification postérieure. Nous cherchons à développer un processus unifié, capable d'adapter un ensemble de techniques de détection d'anomalie aux données.
Cette approche est basée sur le fait que l'adaptabilité est un facteur clé pour évaluer les différentes bases de données. Le projet de recherche couvre: un ensemble de différents types de techniques de détection d'anomalies; l'utilisation de différents échantillons produits par les techniques (en évitant le risque de biais dans un seul échantillon); et une amélioration de la mesure de qualité de données en classant les anomalies.
Notre approche constitue une étape vers l'élaboration d'un cadre unifié, capable d'identifier et de classer les anomalies - erreurs ou ou donnée intéressante.
ERRARE: LLTF
Détection de comportement anormal en utilisant la factorisation log linéaire des tenseurs pour la surveillance de sécurité.
La localisation en temps réel par radiofréquence constitue une méthode de surveillance très populaire. Cependant, dans un environnement ouvert et dynamique, où les patrons se répètent rarement, il est difficile de mettre en œuvre un modèle qui pourrait analyser le volume en temps réel de l'information entrante pour détecter des événements anormaux. Ces données entrantes peuvent être représentées par un tableau multidimensionnel, appelé tenseur. Les informations latentes extraites en utilisant des méthodes de décomposition par tenseur ont fait leurs preuves pour la représentation de données environnementales. Conséquemment, nous proposons un modèle robuste et évolutif où nous utilisons des outils d'apprentissage machine pour le clustering et la prédiction sur ces facteurs latents afin de détecter les anomalies en temps réel.