
recentemente, a openai lançou um novo modelo chamado privacy filter, projetado para ajudar desenvolvedores a desidentificar de forma eficaz informações pessoalmente identificáveis em textos. com 150 milhões de parâmetros e uma arquitetura de mistura de especialistas, o modelo foi disponibilizado como código aberto sob a licença apache 2.0 no hugging face e no github, permitindo que os desenvolvedores o baixem, personalizem e utilizem livremente para fins comerciais.
a principal vantagem do privacy filter reside em suas capacidades avançadas de compreensão da linguagem, permitindo identificar informações sensíveis em textos não estruturados com base no contexto. diferentemente das ferramentas tradicionais de filtragem de privacidade baseadas em regras, este modelo consegue preservar com precisão as informações públicas, mascarando ou desidentificando apenas os dados sensíveis associados a indivíduos específicos, auxiliando assim os desenvolvedores a construir mecanismos de proteção à privacidade mais robustos em pipelines de treinamento, processos de indexação, registros e fluxos de auditoria. o modelo suporta uma janela de contexto de até 128 mil tokens e utiliza um algoritmo de viterbi restrito para decodificar segmentos coerentes. no teste de benchmark pii-masking-300k, o privacy filter alcançou uma pontuação f1 de 96%, que chegou a 97,43% após a correção de problemas de anotação, demonstrando sua alta eficiência na identificação de informações pessoais sensíveis.
no entanto, a openai esclarece explicitamente que o privacy filter não é uma ferramenta de anonimização e não pode substituir a certificação de conformidade. em áreas altamente sensíveis, como direito, saúde e finanças, a revisão humana e a avaliação e o ajuste fino específicos ao domínio continuam sendo essenciais. além disso, o modelo foi projetado para rodar em dispositivos locais, de modo que os usuários não precisam se preocupar com vazamentos de informações pessoais ao utilizar ferramentas de ia.