Clear Sky Science · fr

CLTD-LP : une approche de regroupement optimisée top-down avec arbres préfixes linéaires pour la découverte densembles fréquents à grande 9chelle dans de grands jeux de donnE9es

· Retour à l’index

DE9celer les motifs cachE9s dans les donnE9es du quotidien

Chaque fois que nous faisons des achats en ligne, jouons E0 un jeu ou utilisons un service numE9rique, nous laissons une trace de clics et de choix. EnterrE9s dans ces traces se trouvent des motifs rE9currents qui peuvent rE9vE9ler quels produits sont souvent achetE9s ensemble, quels E9vE9nements systE8me prE9cE8dent une dE9faillance, ou comment les gens se comportent sur un site web. Cet article prE9sente un nouvel algorithme informatique, appelE9 CLTD-LP, conE7u pour repE9rer ces combinaisons rE9pE9tE9es rapidement et avec moins de mE9moire, mEAme dans des jeux de donnE9es trE8s grands et complexes.

Figure 1
Figure 1.

Pourquoi les combinaisons rE9pE9tE9es comptent

Les organisations modernes collectent dE9sormais dE9normes journaux dE9vE9nements : achats dE9picerie, sessions web, connexions rE9seau, dossiers mE9dicaux, et plus encore. Une tE2che basique en analyse de donnE9es consiste E0 dE9couvrir des « ensembles ditems frE9quents » E2 — des groupes dE9lE9ments qui ont tendance E0 apparaEEtre ensemble dans de nombreux enregistrements, comme confiture, sauce et beurre dans un panier dE9picerie, ou un ensemble de clics souvent effectuE9s pendant une session dachat en ligne. Ces groupes sont la matiE8re premiE8re des moteurs de recommandation, de la dE9tection de fraude, de lanalyse des accidents de la route et de la dE9couverte biologique. Cependant, E0 mesure que les donnE9es croissent, les mE9thodes traditionnelles pour trouver de tels motifs peuvent devenir douloureusement lentes et exiger de grandes quantitE9s de mE9moire.

Limites des mE9thodes dextraction antE9rieures

Les gE9nE9rations prE9cE9dentes dalgorithmes, comme Apriori et FP-growth, parcourent les jeux de donnE9es pour construire des structures qui suivent quelles items coEFncident. Apriori fonctionne de bas en haut en gE9nE9rant et testant de nombreuses combinaisons candidates, ce qui peut exploser en nombre. FP-growth amE9liore cela en construisant un arbre spE9cial qui compresse les parties rE9pE9tE9es des transactions, mais il sE9appuie toujours sur la construction rE9pE9tE9e de ce quB4on appelle des arbres conditionnels et des bases de motifs pour chaque item. Des variantes plus rE9centes, y compris LP-growth, OFIM et SSFIM, tentent de rationaliser ces E9tapes, mais elles peinent encore lorsque les jeux de donnE9es sont E0 la fois volumineux et creux, oF9 de nombreux items sont rares et les transactions longues et variE9es.

Regrouper dE9sormais, puis construire un arbre plus intelligent

Lapproche CLTD-LP commence par remodeler le jeu de donnE9es avant toute construction darbre. Elle traite chaque transaction, comme un panier dE9picerie ou une session utilisateur, comme un simple schE9ma on/off des items et regroupe les transactions similaires par clustering. Les auteurs utilisent une mesure de similaritE9 courante (le coefficient de Jaccard) et rE9glent le nombre de clusters pour que les enregistrements E0 l02intE9rieur d02un cluster se ressemblent tandis que les clusters diffE8rent entre eux. Dans chaque cluster, les items apparaissant trop rarement sont E9laguE9s, et les transactions vides ou quasi vides sont jetE9es. Ce qui reste est un jeu de donnE9es plus petit et plus propre qui prE9serve toutefois le comportement de base. Ces donnE9es prunE9es par cluster alimentent ensuite un arbre prE9fixe linE9aire E0 — une structure compacte de type tableau qui stocke des chemins ditems dans un ordre cohE9rent, E9vitant une grande partie du surcoFBt de pointeurs des conceptions darbres classiques.

Explorer de haut en bas plutF4t que de bas en haut

Une fois larbre prE9fixe linE9aire construit, CLTD-LP extrait des motifs en utilisant une stratE9gie top-down. PlutF4t que de commencer par le bas de larbre et de reconstruire de nouveaux arbres conditionnels pour chaque item, la mE9thode parcourt depuis les items les plus courants vers le bas, en utilisant des « tables sous-en-tEAte » comme rE9sumE9s temporaires. Ces tables suivent la frE9quence dapparition conjointe des items le long des chemins incluant un item donnE9, sans recrE9er darbres supplE9mentaires. En mettant E0 jour les dE9comptes directement sur la structure existante et en E9vitant la reconstruction rE9pE9tE9e de sous-arbres, CLTD-LP rE9duit fortement la charge de travail. Dans un exemple de type E9picerie, lalgorithme met rapidement en E9vidence des ensembles comme {noix de cajou, sauce, confiture} ou {sauce, confiture, beurre, crE8me} en suivant les liens E0 travers larbre et en agrE9geant les dE9comptes le long des chemins partagE9s.

Figure 2
Figure 2.

DE9montrer des gains de vitesse et de mE9moire

Pour tester la nouvelle mE9thode, les auteurs appliquent CLTD-LP E0 trois jeux de donnE9es de rE9fE9rence : une base de donnE9es de parties dchecs, un jeu de donnE9es demographie public (Pumsb), et un vrai jeu de donnE9es dachats en ligne quB4ils ont construit. Pour chaque jeu, ils font varier le seuil de frE9quence nE9cessaire pour quB4un motif soit pris en compte et comparent leur algorithme E0 LP-growth, OFIM et SSFIM. Sur les trois ensembles, CLTD-LP termine systE9matiquement plus rapidement et utilise moins de mE9moire, surtout lorsque le seuil de frE9quence requis est bas et que de nombreux ensembles ditems doivent EAtre explorE9s. Les auteurs E9tayent ces observations par des exE9cutions rE9pE9tE9es, un choix soignE9 des paramE8tres de clustering, et des tests statistiques montrant que les amE9liorations ne sont pas dues au hasard.

QuEA cela signifie pour la fouille de donnE9es en conditions rE9elles

ConcrE8tement, CLTD-LP offre une maniE8re plus efficiente de trouver des combinaisons significatives dans de grandes collections denregistrements. En regroupant dabord les transactions similaires, en E9laguant les items peu probables, puis en explorant un arbre simplifiE9 de haut en bas, la mE9thode E9vite une grande partie du gaspillage observE9 dans les algorithmes plus anciens. Pour les entreprises et les chercheurs qui traitent des volumes croissants de journaux et de donnE9es transactionnelles, cela se traduit par des analyses plus rapides et une empreinte mE9moire plus petite, sans sacrifier la prE9cision. Lapproche exige encore un rE9glage attentionnE9 des paramE8tres de clustering, mais elle indique la voie vers des outils E0 lE9chelle capables de suivre les traces numE9riques toujours croissantes de la vie moderne.

Citation: Sinthuja, M., Diviya, M. & Saranya, P. CLTD-LP: an optimized top-down clustering approach with linear prefix trees for scalable frequent pattern discovery in large datasets. Sci Rep 16, 9918 (2026). https://doi.org/10.1038/s41598-026-37338-9

Mots-clés: extraction densembles ditems frE9quents, algorithmes de fouille de donnE9es, analyse de panier dAAchats, dE9couverte de motifs, mE9thodes de regroupement