Artigo

Processamento de Linguagem Jurídica

A tecnologia pode ajudar o profissional do Direito a lidar com informações no formato de texto, mas é preciso adaptar as ferramentas...

Escrito por Igor Macedo · 2 min read >
Texto jurídico é pouco explorado pela tecnologia

Ao contrário do que mostram os filmes, o trabalho do profissional da área jurídica no Brasil não costumar acontecer em debates orais entre advogados, juízes e promotores. Na verdade, boa parte do tempo desses profissionais é dedicado à leitura e à produção de textos, que podem ser petições, sentenças ou pareceres. Geralmente um processo contém dezenas de documentos e, se considerarmos que há quase 80 milhões de ações judiciais em tramitação no Brasil, é fácil perceber o enorme volume de dados em formato escrito que temos, bem como o grande potencial de uma tecnologia que permita “acessar” esse conteúdo.

O Processamento de Linguagem Natural está na fronteira entre a Ciência da Computação e a Linguística. Explicando de forma resumida, a máquina consegue separar palavras e expressões relevantes, estabelecer relacionamento entre estas e até identificar automaticamente o nome de pessoas, organizações e datas contidas em um texto ou mesmo na fala. Alguns exemplos do emprego dessa tecnologia são as assistentes virtuais Siri (da Apple) e Cortana (da Microsoft) e serviços como o Google Tradutor.

Embora o Processamento de Linguagem Natural esteja evoluindo rapidamente para abranger novas demandas, pouca atenção está sendo dedicada a domínios específicos da linguagem. O Direito e seus profissionais têm expressões peculiares, especialmente em um país de tradição formalista como o Brasil. Não é difícil perceber que, como essas expressões particulares são desconhecidas da tecnologia atual, parte do sentido do texto termina sendo ignorada e fica “perdida”. Para exemplificar esta afirmação, é interessante observar a seguinte experiência: utilizando a Cloud Natural Language API da Google Cloud, foi realizado um teste de análise deste trecho de uma decisão do Supremo Tribunal Federal:

“Efetivamente, o Tribunal de origem, com fundamento na legislação ordinária e no substrato fático constante dos autos, manteve a condenação do recorrente pela prática da conduta descrita no art. 337-A, inciso III, do Código Penal (crime de sonegação de contribuição previdenciária). Trata-se de matéria situada no contexto normativo infraconstitucional, de forma que eventuais ofensas à Constituição seriam meramente indiretas (ou mediatas), o que inviabiliza o conhecimento do referido apelo.
Ademais, o acolhimento do recurso passa necessariamente pela revisão das provas. Incide, portanto, o óbice da Súmula 279 (para simples reexame de prova não cabe recurso extraordinário)”

A resposta obtida foi:

Exemplo da Cloud Natural Language do Google Cloud fazendo reconhecimento de entidades em um texto jurídico.

Como é possível observar, em razão de não ter sido preparada para lidar com textos jurídicos, a tecnologia do poderoso Google deixou de identificar, por exemplo, “crime de sonegação de contribuição previdenciária“, que é uma expressão muito relevante para a decisão. De maneira fracionada, a máquina só conseguiu apontar “crime”, “sonegação” e “contribuição” (separadas assim elas não têm o mesmo sentido). Aliás, quando se observa os detalhes, verifica-se que houve erro porque, por exemplo, a palavra “sonegação” foi entendida como um “evento” (“event“) e muitos dos outros termos importantes foram classificados como “outros” (“other“), categoria utilizada pela máquina para casos em que ela não consegue identificar a classe de palavra.

Entidades encontradas pela Cloud Natural Language do Google Cloud no texto de uma decisão do Supremo Tribunal Federal.

É importante esclarecer que o português é um dos idiomas suportados pela tecnologia do Google, logo essa não é a fonte do problema.

Nos textos dos bilhões de documentos que dormemem berço esplêndido” nos escritórios de advocacia, departamentos jurídicos e fóruns, é preciso que profissionais do Direito vejam uma oportunidade criada por uma tecnologia que permita explorar o potencial da informação jurídica.

O desenvolvimento do Processamento de Linguagem Jurídica já está em andamento e, se houver interesse, pretendo compartilhar mais alguns detalhes com vocês aqui.

Escrito por Igor Macedo
Bacharel em Direito/UFRN e mestre em Direito Tributário Internacional pela NYU. Bolsista das Fundações Hauser e Starr. Co-fundador da JurisIntel e do Legal Hackers Natal. Interessado também em Python, Análise de Dados, Big Data e Processamento de Linguagem Jurídica. Profile

Covid-19 nas decisões do STF

Igor Macedo em Artigo
  ·   13 min read