Janus: uma arquitetura de middleware para detecção e anonimização de PII em grandes modelos de linguagem no contexto da LGPD

A integração de Grandes Modelos de Linguagem (LLMs) em ambientes corporativos oferece ganhos significativos de produtividade, mas introduz riscos críticos à privacidade e à conformidade com a Lei Geral de Proteção de Dados (LGPD), especialmente no manuseio de Informações Pessoais Identificáveis (PII). Este trabalho propõe e valida a arquitetura Janus, um middleware de segurança projetado para interceptar, anonimizar e restaurar dados sensíveis em interações com provedores de IA externos. A solução adota uma estratégia de "Defesa em Profundidade", orquestrando três camadas de filtragem: determinística (Expressões Regulares), probabilística (Reconhecimento de Entidades Nomeadas - NER) e semântica (LLM Local Llama 3). A metodologia experimental envolveu testes de estresse progressivos, culminando na análise de 500 prompts do domínio de Recursos Humanos (RH), totalizando mais de 4.500 entidades processadas. Os resultados demonstraram que o sistema atinge uma estabilidade operacional com um F1-Score global próximo a 0.60 em cenários de alta complexidade. A análise evidenciou que, embora o filtro NER apresente desafios de precisão, a arquitetura prioriza a segurança (Recall), mitigando o risco de vazamento de dados. Conclui-se que o sistema Janus oferece uma solução viável de "Privacidade por Design", permitindo o uso seguro de IA Generativa sem comprometer o sigilo das informações corporativas.