Vue d’ensemble
Le groupement est une technique de la science des données qui permet de dégager des tendances ou des associations à partir de grandes quantités de données. Il s’agit d’une excellente technique de nature générale que l’on peut appliquer à l’ensemble des domaines scientifiques.
Leland McInnes et John Healy, deux chercheurs de l’Institut Tutte pour les mathématiques et le calcul au CST, ont peaufiné et amélioré l’algorithme Density-Based Spatial Clustering of Applications with Noise (DBSCAN). La nouvelle version permet de décupler l’efficacité de l’algorithme et sa mise en œuvre est assurée par le code hautement performant écrit par Leland et John. De fait, leur code fait maintenant figure de référence pour ce qui est de mettre en œuvre cet algorithme.
Il est possible de télécharger la version améliorée de l’algorithme HDBSCAN déployé dans Python à partir du site GitHub – un service d’hébergement de développement logiciel – dans le cadre du projet scikit-learn-contrib. L’algorithme est également disponible sur PyPI et conda-forge, deux sites de progiciels populaires pour Python.
Nouvelle algorithme HDBSCAN (en anglais seulement)
À quoi sert l’algorithme HDBSCAN?
L’algorithme HDBSCAN est utilisé de maintes façons. Vous trouverez ci-dessous quelques sphères où il a été mis en application.
Astronomie :
- Répercussions du rayonnement Lyman alpha sur les galaxies naines pauvres en métaux (en anglais seulement)
- Analyse des halos de matière noire modifiés par rétroaction à partir des courbes de rotation des galaxies : estimation des paramètres des halos et de leur conformité aux relations d’échelle ΛCDM (en anglais seulement)
Analyse des maliciels :
- Plus grande exactitude de la détection de maliciels grâce à l’extraction de l’information tirée des icônes (en anglais seulement)
- Groupement hiérarchique basé sur la densité des comportements des maliciels (en anglais seulement)
Détection des anomalies de nature comptable :
Biologie computationnelle :
- PhylOligo : trousse permettant d’identifier les séquences de contaminants ou d’organismes non ciblés dans des assemblages de génomes (en anglais seulement)
- Régulations transcriptionnelles unicellulaires et profil de chromatine accessible des différenciations cellulaires dans le développement des valvules cardiaques (en anglais seulement)
Dynamique moléculaire :
- Visualisation du mouvement corrélé par groupement HDBSCAN (en anglais seulement)
- Découverte du changement conformationnel à grande échelle dans la dynamique moléculaire sans connaissance préalable (en anglais seulement)
Product defect detection:
Analyse de Bitcoin et de la chaîne de bloc :
- Désanonymisation de la chaîne de bloc Bitcoin
L’algorithme HDBSCAN est-il prêt pour la production?
L’algorithme HDBSCAN est actuellement à l’état de repos. Il est stable et différentes personnes s’efforcent de l’améliorer et de l’adapter au code de source ouverte.
Mission
Découvrez la mission impressionnante du CST
Carrières
Joignez-vous à notre équipe et aidez à assurer la sécurité des Canadiens
Reddition de comptes
Voyez comment nous rendons des comptes aux Canadiens