Clear Sky Science · pt

Rumo a uma união privada ampliada resistente a vazamentos e mais eficiente

2026-02-21 · Voltar ao índice

Por que compartilhar listas pode ameaçar a privacidade

Muitas organizações mantêm listas sensíveis — como endereços IP suspeitos, IDs de clientes ou participantes de estudos médicos — que gostariam de combinar com a lista de outra parte sem expor seus próprios dados. Uma ferramenta chamada união privada de conjuntos promete exatamente isso: permite que dois lados aprendam a lista combinada de itens únicos, e nada mais. Este artigo mostra que mesmo versões de ponta dessa ferramenta podem vazar silenciosamente informações extras durante a execução, e apresenta um novo projeto que preserva os benefícios enquanto reduz fortemente esses riscos ocultos e o custo computacional.

O que a união privada de conjuntos busca proteger

Imagine duas empresas comparando listas negras de ataques cibernéticos. Cada uma quer obter a lista completa de todos os endereços IP suspeitos observados por qualquer das partes, para proteger melhor suas redes. Ao mesmo tempo, os métodos de detecção de cada empresa — e, portanto, sua lista negra exata — são segredos comerciais. Se alguém conseguir inferir quais endereços a outra parte tem ou não tem, isso pode revelar esses métodos. Protocolos clássicos de união privada de conjuntos já ocultam a sobreposição direta entre as listas, mas pesquisas recentes mostraram que eles ainda podem revelar pistas durante o próprio cálculo ou por meio de padrões em como os itens são organizados em estruturas internas de dados.

Vazamentos ocultos em métodos anteriores rápidos

Esquemas escaláveis anteriores dependiam de um procedimento que primeiro verificava, item por item, se cada elemento de uma lista aparecia na outra, e então usava essas respostas para entregar apenas os itens “novos”. Trabalhos posteriores mostraram que esse processo revela, antes do término do protocolo, quantos itens as listas compartilham. Um participante curioso pode explorar isso abortando e reiniciando o protocolo com entradas levemente modificadas, aprendendo gradualmente quais itens específicos se sobrepõem. Outros esquemas rápidos usaram hashing — colocando itens em compartimentos conforme uma função de hash — para organizar os dados. Uma vez que uma parte aprende quais dos itens da outra são únicos, ela pode cruzar o padrão de compartimentos cheios e vazios para deduzir quais de seus próprios itens certamente não aparecem na outra lista, uma forma de vazamento “baseado em hash”.

Bloqueando itens atrás de disfarces aleatórios

O novo protocolo enfrenta ambos os problemas ao mesmo tempo. Antes de qualquer hashing, cada parte executa uma troca criptográfica que transforma todo item em um token com aparência aleatória. A propriedade crucial é que itens idênticos nas duas listas são transformados em tokens idênticos, enquanto itens diferentes produzem tokens não relacionados — e nenhuma das partes aprende a chave secreta que vincula tokens de volta aos valores reais. Esses tokens disfarçados são então colocados em tabelas baseadas em hash e passados por uma série de etapas cuidadosamente estruturadas e randomizadas que decidem, na prática, se os tokens correspondem, sem revelar qual token está em qual compartimento. Repetir esse processo com aleatoriedade nova a cada execução impede que um atacante correlacione informações entre múltiplas execuções.

Reduzindo o custo com uma estrutura de dados mais inteligente

A segurança por si só não basta se um protocolo for pesado demais para uso em escala. Os autores, portanto, redesenharam um dos componentes mais caros: um módulo interno que antes dependia de um primitivo criptográfico por lotes para comparar muitos itens de uma vez. Eles o substituem por um armazenamento de chave‑valor oblivious “bidirecional”, uma estrutura compacta que permite a uma parte codificar pares chave–valor de modo que a outra possa consultá‑los sem aprender nada além de a presença ou não de uma chave. Ao dispor duas dessas codificações interagindo entre si, o protocolo pode detectar quando tokens se alinham nas duas listas enquanto evita trabalho em compartimentos vazios ou fictícios. Essa mudança reduz tanto a quantidade de dados enviados pela rede quanto o tempo de computação, especialmente para listas grandes.

O que os experimentos mostram na prática

Para testar suas ideias, os autores implementaram o protocolo e o compararam com o melhor projeto existente de união privada de conjuntos ampliada sob os mesmos objetivos de privacidade mais estritos. Em uma ampla faixa de tamanhos de listas e condições de rede, seu método reduziu consistentemente a comunicação em cerca de 1,1 a 3 vezes e acelerou o tempo de execução em aproximadamente 1,0 a 1,7 vezes. Importante: esses ganhos se mantêm mesmo após adicionar a camada criptográfica extra que previne o vazamento baseado em hash, algo que esquemas eficientes anteriores ignoravam. Os resultados sugerem que proteção mais forte não precisa implicar uma grande penalidade de desempenho.

Por que isso importa para o compartilhamento de dados no mundo real

Em termos simples, este trabalho mostra como duas partes podem combinar listas sensíveis limitando fortemente o que cada uma pode inferir sobre os dados da outra — mesmo a partir de efeitos colaterais sutis durante o protocolo. Ao disfarçar itens antes do hashing e usar estruturas internas mais econômicas, o novo projeto fecha canais de vazamento conhecidos e continua rápido o suficiente para conjuntos de dados muito grandes. Isso torna a união preservadora de privacidade de listas negras, IDs de clientes ou outros identificadores mais prática para empresas e instituições que precisam colaborar sem expor os padrões contidos em seus próprios dados.

Citação: Liu, Q., Bae, J. & Lee, JW. Towards an improved efficient leakage-resilient enhanced private set union. Sci Rep 16, 10134 (2026). https://doi.org/10.1038/s41598-026-40531-5

Palavras-chave: união privada de conjuntos, privacidade de dados, protocolos criptográficos, compartilhamento seguro de dados, resiliência a vazamentos