11 juny 2024

La IA generativa legal necessita millorar

Jorge MorellPer Jorge Morell

 

“Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools” és el recent i controvertit estudi de la Universitat de Stanford que ha analitzat eines de cerca legal amb característiques d'intel·ligència artificial (IA) generativa (LexisNexis i Thomson Reuters, entre d'altres) i ha conclòs que les eines al·lucinen força, malgrat el que han publicitat.

Les eines comparades, després d'una ampliació de l'estudi, van ser:

– Lexis+ AI

– Westlaw AI-Assisted Research

– Ask Practical Law AI

També s'incloïa GPT4 Plus per veure com responia davant d'eines especialitzades.

Cal pensar que ChatGPT s'estima que en temes legals pot al·lucinar entre el 58% i el 82% de les ocasions, el que és un problema seriós sense supervisió. I més quan estudis recents indiquen que al sector legal anglosaxó entre el 15 i 35% dels advocats ja està usant IA generativa, fins i tot setmanalment.

Les eines especialitzades que el sector legal està començant a proporcionar diuen evitar el 100% de les al·lucinacions en fer servir “retrieval-augmented generation” o RAG, una tècnica venuda com la gran solució a l'ús d'IA generatives en camps de coneixement específic.

El “truc” utilitzat per RAG consisteix a incloure entre el prompt (les instruccions donades) i el resultat obtingut, 2 passos intermedis, d'una banda la recuperació i de l'altra la generació. Una particularitat gran és que en la recuperació es tenen en compte documents específics de lusuari, no el dataset general de la IA generativa.

És a dir, el prompt (per exemple, quina és la sentència que va generar el dret a l'oblit a Europa?) es fa servir per buscar a Westlaw els documents rellevants a la pregunta (com si es tractés d'una cerca normal).

Després el prompt + aquests documents s'envien al LLM perquè generi (la segona fase, “generation”) el resultat. Però no d'acord amb el seu nebulós i genèric dataset sinó pel que fa a un en teoria molt més adequat gràcies als documents recuperats a la primera fase. És com alimentar el sistema d'informació rellevant i específica per matèria abans de generar la resposta.

Per això es diu que RAG hauria d'eliminar en bona part les al·lucinacions.

L'estudi de Stanford diu que RAG millora els resultats de coses com ChatGPT4, però que el nivell d'al·lucinació no és “100% free” com es publicita, i de fet de vegades és considerable.

En aquest sentit, és importantacar que el estudi defineix al·lucinacions com les respostes falses però també les que afirmen falsament que una font recolza una afirmació. A més, inclou també les respostes incompletes, consistents en aquelles que són negatives o infundades.

Per exemple, en fer pràctiques amb les diferents eines, una de les preguntes era quines eren algunes de les opinions més destacadesacadones del jutge Luther A. Wilgarten. L'eina Lexis+ AI va respondre citant un cas del 2010, on es va decidir i què va passar amb el recurs.

El problema ve quan, si bé el cas citat és real, no va ser escrit pel jutge Luther A. Wilgarten, que en realitat no existeix i era una invenció: a més, la resposta contradeia la menció en citar un altre jutge de forma errònia i per si fos poc incomplia la premissa sol·licitada, ja que aquesta opinió no era considerada com una de les notables per part del jutge Brinkema, que de debò l'havia escrita.

En resum, la resposta era un compendi d'al·lucinacions i errors.

Dit l'anterior, qui va donar més percentatge de respostes correctes segons l'estudi?

– Lexis+ AI -> 65% d'encerts

– GPT-4 -> 49% d'encerts

– Westlaw AI-Assisted Research -> 42% d'encerts

– Ask Practical Law AI -> 20% d'encerts

L'estudi analitza molt més detalladament els resultats, però extreu conclusions que és bo tenir presents:

- El sistema RAG fa que en general les IA generatives legals fallin menys que ChatGPT4, però tot i així aquest queda segon al rànquing global.

– Les eines solen errar més en preguntes relatives a temps, jurisdicció i especialment falses premisses, preguntes que inclouen un error en la comprensió de la llei per part de qui la planteja.

– Mentrestant més llarga la resposta oferta per l'eina, més quantitat d'errors.

– Mentrestant menys documents i pitjor dataset tingui l'eina a la fase de “Recuperació”, més errors ofereix l'eina d'IA generativa legal.

– Les respostes encara inclouen en general molts fallades de comprensió legal bàsica: la identificació de les parts o la jerarquia d'organismes judicials, per exemple.

En conclusió, és clar que aquestes eines són un bon primer pas i que la tecnologia usada per millorar les al·lucinacions (RAG) hi ajuda, però segueixen necessitant igual o més supervisió que un ChatGPT normal i per descomptat no estan lliures d'errors com publiciten, cosa que sens dubte és problemàtic.

Sembla que l'Skynet advocat encara haurà d'esperar.

Comparteix: