Clear Sky Science · fr

HiCoBERT : un cadre hiérarchique basé sur Transformer pour la segmentation des sections des jugements pakistanais avec des éclairages XAI multi-niveaux

2026-04-07 · Retour à l’index

Pourquoi il est important de découper les décisions judiciaires

Lorsque les juges rédigent des décisions, ils racontent généralement une longue histoire dense : d’abord le contexte, puis les questions en litige, ensuite des pages de motivation, et enfin le dispositif. Pour les avocats, les citoyens ou les outils logiciels qui cherchent un passage clé, ce mur de texte peut être écrasant. Cet article présente HiCoBERT, un nouveau cadre d’intelligence artificielle qui segmente automatiquement les jugements de la Cour suprême du Pakistan en quatre parties signifiantes — contexte, questions, motifs et décision — afin que l’information juridique puisse être recherchée, résumée et analysée avec plus de précision.

Transformer les récits juridiques en blocs clairs

Les auteurs partent d’une observation simple : la plupart des modèles de langage modernes lisent un document comme un flux plat de mots, en ignorant que les jugements sont naturellement organisés en étapes. Des travaux antérieurs ont montré que respecter cette structure interne — séparer les faits de l’analyse juridique, par exemple — améliore des tâches comme la summarisation et la prédiction d’issue. S’appuyant sur cette idée, l’équipe définit un modèle pratique en quatre parties qui correspond à la façon dont de nombreux tribunaux rédigent réellement : une présentation concise de l’affaire, les points que la cour doit trancher, les motifs détaillés et la décision finale. Leur objectif est d’apprendre à un système d’IA à retrouver cette structure automatiquement, même en l’absence de titres ou d’indices visuels.

Constitution d’un nouveau jeu de données à partir de la plus haute cour du Pakistan

Pour entraîner et tester leur méthode, les auteurs ont constitué LeJA, un nouveau jeu de données de jugements de la Cour suprême du Pakistan. Après avoir retiré les métadonnées telles que numéros de dossier et dates, des experts juridiques ont annoté chaque jugement selon les quatre sections fonctionnelles, en veillant à ce que les parties soient ordonnées, non chevauchantes et cohérentes entre les documents. Parce que les décisions judiciaires sont bien plus longues que ce que les modèles d’IA standard peuvent lire d’un seul coup, les textes ont été ensuite découpés en morceaux plus petits d’environ 128 tokens (approximativement plusieurs phrases), en utilisant une stratégie dynamique qui préserve l’intégrité des phrases tout en gardant la complexité de calcul raisonnable.

Comment le modèle hiérarchique lit de longs jugements

HiCoBERT aborde chaque jugement en deux étapes. D’abord, il traite chaque segment de texte comme un mini-document et utilise une version spécialisée en domaine juridique du modèle BERT (LegalBERT) pour en extraire le sens local. Cela produit un vecteur résumé compact pour chaque segment. Ensuite, au lieu de s’arrêter là, il alimente la séquence complète de résumés de segments dans un Transformer supplémentaire et un réseau récurrent bidirectionnel. Ces couches permettent au modèle de comparer chaque segment au reste du document, apprenant comment le contexte initial, les questions intermédiaires et les raisonnements tardifs se relient typiquement entre eux. Un classifieur final attribue alors l’un des quatre rôles fonctionnels à chaque segment, guidé à la fois par son contenu et par ses voisins.

Devancer les modèles rivaux et vérifier le raisonnement du modèle

Sur le jeu de données LeJA, HiCoBERT a atteint environ 80 % de précision et un score macro-F1 de 0,70, surpassant des alternatives robustes telles que Longformer, BigBird, LongT5 et un modèle LegalBERT couplé à un tagger de séquence traditionnel. Il s’est également bien comparé à des modèles de langage de grande taille modernes utilisés par prompting, incluant GPT-4o, Gemini Pro et DeepSeek-V3, notamment lorsqu’on cherche un équilibre de performances sur les quatre types de section plutôt que de se focaliser sur la seule portion dominante « motifs ». Les auteurs ont ensuite sondé la façon dont HiCoBERT prend ses décisions à l’aide d’outils d’IA explicable. Des analyses au niveau du token ont montré que le modèle se concentre sur les détails factuels dans le contexte, sur les formulations de question dans les points en litige, sur les citations juridiques et le vocabulaire argumentatif dans les motifs, et sur les formulations décisives dans le dispositif. Des tests au niveau du segment ont révélé que les segments voisins, en particulier ceux immédiatement précédant la décision, influencent fortement l’étiquetage d’une section, confirmant l’importance du contexte.

Tester la robustesse au-delà des frontières et perspectives

Pour vérifier si leur approche se généralise au-delà du Pakistan, les chercheurs ont évalué HiCoBERT sur LegalSeg, un jeu de données public de jugements indiens présentant des rôles rhétoriques similaires. Sans réentraînement, le modèle a conservé des performances raisonnables, notamment sur les sections de motifs et de décision, bien qu’il ait eu plus de difficulté avec les énoncés brefs et ambigus des questions en litige. Cela suggère que le modèle capture des schémas généraux d’écriture juridique, tandis que la détection plus fine des questions peut dépendre du style rédactionnel local. Les auteurs notent aussi des limites pratiques : une longueur maximale de document fixe, un fort déséquilibre de classes en faveur des motifs, et des confusions occasionnelles près des frontières de section, ce qui motive des améliorations futures telles que des fenêtres de contexte adaptatives et une attention consciente des limites.

Ce que cela signifie pour l’usage courant de l’IA juridique

En termes clairs, l’étude montre que considérer les jugements comme des récits ordonnés plutôt que comme un texte indifférencié produit des outils d’IA plus précis et interprétables. La conception hiérarchique de HiCoBERT permet de scinder de longues décisions en parties signifiantes qui correspondent à la manière dont avocats et juges raisonnent naturellement sur les affaires. Cela facilite la construction de systèmes capables d’extraire rapidement les faits, d’isoler les questions, de retracer le raisonnement ou d’aller directement au dispositif. À mesure que ces modèles mûrissent et sont étendus à d’autres juridictions et langues, ils pourraient devenir une base importante pour des archives juridiques consultables, des outils d’aide à la décision transparents et des applications d’IA plus justes et compréhensibles dans le domaine de la justice.

Citation: Bibi, M., Rehman, ZU., Awan, K. et al. HiCoBERT: a hierarchical transformer-based framework for Pakistan legal judgment section segmentation with multi-level XAI insights. Sci Rep 16, 11393 (2026). https://doi.org/10.1038/s41598-026-45259-w

Mots-clés: traitement automatique du langage juridique, segmentation des jugements judiciaires, transformers hiérarchiques, IA explicable, Cour suprême du Pakistan