11 2024 Juin

L’IA générative juridique doit être améliorée

Georges MorellPar Georges Morell

 

« Sans hallucinations ? Évaluation de la fiabilité des principaux outils de recherche juridique en matière d’IA » est l'étude récente et controversée de l'Université de Stanford qui a analysé les outils de recherche juridique dotés de fonctionnalités d'intelligence artificielle (IA) générative (LexisNexis et Thomson Reuters, entre autres) et a conclu que les outils sont assez impressionnants, malgré ce qui est annoncé.

Les outils comparés, après une extension de l’étude, ont été :

– Lexis+ IA

–Recherche assistée par l’IA de Westlaw

–Demandez à l’IA de droit pratique

GPT4 Plus a également été inclus pour voir comment il répondait aux outils spécialisés.

Il faut penser que ChatGPT est estimé qu'en matière juridique Vous pouvez avoir des hallucinations entre 58 % et 82 % du temps, ce qui constitue un problème sérieux sans surveillance. Et ce d'autant plus que des études récentes indiquent que dans le secteur juridique anglo-saxon entre 15 et 35 % des avocats utilisent déjà l’IA générative, même hebdomadaire.

Les outils spécialisés que le secteur juridique commence à proposer prétendent prévenir 100% des hallucinations lors de l'utilisation « génération augmentée par récupération » ou RAG, une technique vendue comme la grande solution à l’utilisation de l’IA générative dans des domaines de connaissances spécifiques.

Le « truc » utilisé par RAG consiste à inclure entre le prompt (les instructions données) et le résultat obtenu, 2 étapes intermédiaires, d'un côté la reprise et de l'autre la génération. Une grande particularité est que la récupération prend en compte les documents spécifiques à l'utilisateur, et non l'ensemble de données général de l'IA générative.

Autrement dit, l’invite (par exemple, quelle est la décision qui a généré le droit à l’oubli en Europe ?) est utilisée pour rechercher dans Westlaw des documents pertinents à la question (comme s’il s’agissait d’une recherche normale).

Ensuite, l'invite + ces documents sont envoyés au LLM pour générer (la deuxième phase, « génération ») le résultat. Mais pas selon son ensemble de données nébuleuses et génériques mais plutôt par rapport à celui qui est théoriquement beaucoup plus adapté grâce aux documents récupérés dans la première phase. C'est comme alimenter le système avec des informations pertinentes et spécifiques par sujet avant de générer la réponse.

C'est pourquoi on dit que RAG devrait éliminer en grande partie les hallucinations.

L'étude de Stanford indique que RAG améliore les résultats de choses comme ChatGPT4, mais que le niveau d’hallucination n’est pas « 100% gratuit » comme annoncé, et en fait, c'est parfois considérable.

En ce sens, il est important deacar qu'il une étude définit les hallucinations telles que les fausses réponses mais aussi celles qui prétendent faussement qu'une source soutient une affirmation. En outre, il comprend également les réponses incomplètes, c'est-à-dire celles qui sont négatives ou infondées.

Par exemple, lorsque vous pratiquez avec différents outils, L’une des questions était de savoir quelles étaient les opinions les plus populaires ?acajours du juge Luther A. Wilgarten. L'outil Lexis+ AI a répondu en citant une affaire datant de 2010, dans laquelle la décision a été rendue et ce qui est arrivé à l'appel.

Le problème survient lorsque, bien que le cas cité soit réel, il n'a pas été écrit par le juge Luther A. Wilgarten, qui n'existe pas réellement et était une invention :p De plus, la réponse a contredit la mention en citant un autre juge de manière incorrecte. Et si c'était le cas ce n'est pas suffisant, il n'a pas respecté la prémisse demandée, puisque cet avis n'a pas été considéré comme l'un des plus remarquables par le juge Brinkema, qui l'a réellement rédigé.

Bref, la réponse était un recueil d’hallucinations et d’erreurs.

Cela dit, Qui a donné le pourcentage de réponses correctes le plus élevé selon l’étude ?

– Lexis+ IA -> 65% correct

– GPT-4 -> 49% correct

– Recherche assistée par l'IA de Westlaw -> 42% correct

– Demandez à Practical Law AI -> 20% correct

L’étude analyse les résultats de manière beaucoup plus détaillée, mais tire des conclusions qu’il est bon de garder à l’esprit :

- le Le système RAG permet aux IA génératives légales d’échouer moins en général que ChatGPT4, mais il est quand même deuxième dans le classement mondial.

– Les outils sont généralement se tromper davantage sur des questions liées au temps, à la juridiction et surtout aux fausses prémisses, des questions qui incluent une erreur dans la compréhension de la loi par la personne qui la pose.

- Alors que la réponse est plus longue offert par l'outil, un plus grand nombre d'erreurs.

- Alors que moins de documents et un ensemble de données pire Si l’outil est en phase de « Récupération », plus l’outil d’IA générative juridique propose d’erreurs.

– Les réponses incluent encore généralement de nombreux échecs de compréhension juridique de base: l'identification des parties ou la hiérarchie des instances judiciaires, par exemple.

En conclusion, Il est clair que ces outils sont une bonne première étape et que la technologie utilisée pour améliorer les hallucinations (RAG) y contribue, mais ils nécessitent toujours la même ou plus de supervision qu'un ChatGPT normal et bien sûr, ils ne sont pas exempts d'erreurs car ils faire de la publicité, ce qui est certainement problématique.

Il semblerait que l'avocat de Skynet doive encore attendre.

Partagez: