Clear Sky Science · fr
CLTD-LP : une approche de regroupement optimisée top-down avec arbres préfixes linéaires pour la découverte densembles fréquents à grande 9chelle dans de grands jeux de donn E9es
D E9celer les motifs cach E9s dans les donn E9es du quotidien
Chaque fois que nous faisons des achats en ligne, jouons E0 un jeu ou utilisons un service num E9rique, nous laissons une trace de clics et de choix. Enterr E9s dans ces traces se trouvent des motifs r E9currents qui peuvent r E9v E9ler quels produits sont souvent achet E9s ensemble, quels E9v E9nements syst E8me pr E9c E8dent une d E9faillance, ou comment les gens se comportent sur un site web. Cet article pr E9sente un nouvel algorithme informatique, appel E9 CLTD-LP, con E7u pour rep E9rer ces combinaisons r E9p E9t E9es rapidement et avec moins de m E9moire, m EAme dans des jeux de donn E9es tr E8s grands et complexes.

Pourquoi les combinaisons r E9p E9t E9es comptent
Les organisations modernes collectent d E9sormais d E9normes journaux d E9v E9nements : achats d E9picerie, sessions web, connexions r E9seau, dossiers m E9dicaux, et plus encore. Une t E2che basique en analyse de donn E9es consiste E0 d E9couvrir des « ensembles ditems fr E9quents » E2 — des groupes d E9l E9ments qui ont tendance E0 appara EEtre ensemble dans de nombreux enregistrements, comme confiture, sauce et beurre dans un panier d E9picerie, ou un ensemble de clics souvent effectu E9s pendant une session dachat en ligne. Ces groupes sont la mati E8re premi E8re des moteurs de recommandation, de la d E9tection de fraude, de lanalyse des accidents de la route et de la d E9couverte biologique. Cependant, E0 mesure que les donn E9es croissent, les m E9thodes traditionnelles pour trouver de tels motifs peuvent devenir douloureusement lentes et exiger de grandes quantit E9s de m E9moire.
Limites des m E9thodes dextraction ant E9rieures
Les g E9n E9rations pr E9c E9dentes dalgorithmes, comme Apriori et FP-growth, parcourent les jeux de donn E9es pour construire des structures qui suivent quelles items co EFncident. Apriori fonctionne de bas en haut en g E9n E9rant et testant de nombreuses combinaisons candidates, ce qui peut exploser en nombre. FP-growth am E9liore cela en construisant un arbre sp E9cial qui compresse les parties r E9p E9t E9es des transactions, mais il s E9appuie toujours sur la construction r E9p E9t E9e de ce qu B4on appelle des arbres conditionnels et des bases de motifs pour chaque item. Des variantes plus r E9centes, y compris LP-growth, OFIM et SSFIM, tentent de rationaliser ces E9tapes, mais elles peinent encore lorsque les jeux de donn E9es sont E0 la fois volumineux et creux, o F9 de nombreux items sont rares et les transactions longues et vari E9es.
Regrouper d E9sormais, puis construire un arbre plus intelligent
Lapproche CLTD-LP commence par remodeler le jeu de donn E9es avant toute construction darbre. Elle traite chaque transaction, comme un panier d E9picerie ou une session utilisateur, comme un simple sch E9ma on/off des items et regroupe les transactions similaires par clustering. Les auteurs utilisent une mesure de similarit E9 courante (le coefficient de Jaccard) et r E9glent le nombre de clusters pour que les enregistrements E0 l 02int E9rieur d 02un cluster se ressemblent tandis que les clusters diff E8rent entre eux. Dans chaque cluster, les items apparaissant trop rarement sont E9lagu E9s, et les transactions vides ou quasi vides sont jet E9es. Ce qui reste est un jeu de donn E9es plus petit et plus propre qui pr E9serve toutefois le comportement de base. Ces donn E9es prun E9es par cluster alimentent ensuite un arbre pr E9fixe lin E9aire E0 — une structure compacte de type tableau qui stocke des chemins ditems dans un ordre coh E9rent, E9vitant une grande partie du surco FBt de pointeurs des conceptions darbres classiques.
Explorer de haut en bas plut F4t que de bas en haut
Une fois larbre pr E9fixe lin E9aire construit, CLTD-LP extrait des motifs en utilisant une strat E9gie top-down. Plut F4t que de commencer par le bas de larbre et de reconstruire de nouveaux arbres conditionnels pour chaque item, la m E9thode parcourt depuis les items les plus courants vers le bas, en utilisant des « tables sous-en-t EAte » comme r E9sum E9s temporaires. Ces tables suivent la fr E9quence dapparition conjointe des items le long des chemins incluant un item donn E9, sans recr E9er darbres suppl E9mentaires. En mettant E0 jour les d E9comptes directement sur la structure existante et en E9vitant la reconstruction r E9p E9t E9e de sous-arbres, CLTD-LP r E9duit fortement la charge de travail. Dans un exemple de type E9picerie, lalgorithme met rapidement en E9vidence des ensembles comme {noix de cajou, sauce, confiture} ou {sauce, confiture, beurre, cr E8me} en suivant les liens E0 travers larbre et en agr E9geant les d E9comptes le long des chemins partag E9s.

D E9montrer des gains de vitesse et de m E9moire
Pour tester la nouvelle m E9thode, les auteurs appliquent CLTD-LP E0 trois jeux de donn E9es de r E9f E9rence : une base de donn E9es de parties dchecs, un jeu de donn E9es demographie public (Pumsb), et un vrai jeu de donn E9es dachats en ligne qu B4ils ont construit. Pour chaque jeu, ils font varier le seuil de fr E9quence n E9cessaire pour qu B4un motif soit pris en compte et comparent leur algorithme E0 LP-growth, OFIM et SSFIM. Sur les trois ensembles, CLTD-LP termine syst E9matiquement plus rapidement et utilise moins de m E9moire, surtout lorsque le seuil de fr E9quence requis est bas et que de nombreux ensembles ditems doivent EAtre explor E9s. Les auteurs E9tayent ces observations par des ex E9cutions r E9p E9t E9es, un choix soign E9 des param E8tres de clustering, et des tests statistiques montrant que les am E9liorations ne sont pas dues au hasard.
Qu EA cela signifie pour la fouille de donn E9es en conditions r E9elles
Concr E8tement, CLTD-LP offre une mani E8re plus efficiente de trouver des combinaisons significatives dans de grandes collections denregistrements. En regroupant dabord les transactions similaires, en E9laguant les items peu probables, puis en explorant un arbre simplifi E9 de haut en bas, la m E9thode E9vite une grande partie du gaspillage observ E9 dans les algorithmes plus anciens. Pour les entreprises et les chercheurs qui traitent des volumes croissants de journaux et de donn E9es transactionnelles, cela se traduit par des analyses plus rapides et une empreinte m E9moire plus petite, sans sacrifier la pr E9cision. Lapproche exige encore un r E9glage attentionn E9 des param E8tres de clustering, mais elle indique la voie vers des outils E0 l E9chelle capables de suivre les traces num E9riques toujours croissantes de la vie moderne.
Citation: Sinthuja, M., Diviya, M. & Saranya, P. CLTD-LP: an optimized top-down clustering approach with linear prefix trees for scalable frequent pattern discovery in large datasets. Sci Rep 16, 9918 (2026). https://doi.org/10.1038/s41598-026-37338-9
Mots-clés: extraction densembles ditems fr E9quents, algorithmes de fouille de donn E9es, analyse de panier d AAchats, d E9couverte de motifs, m E9thodes de regroupement