A necessidade

O compartilhamento de conjuntos de dados confidenciais apresenta desafios de utilidade e de privacidade. Os métodos de anonimização podem não capturar estatísticas precisas nem proteger contra todos os tipos de vazamento de privacidade, enquanto a privacidade diferencial não disponibiliza conjuntos de dados para análise irrestrita com proteção de privacidade em nível de grupo.

A ideia

Acreditamos que, em muitos casos, o método mais prático para compartilhamento de informações confidenciais não seja o compartilhamento dos conjuntos de dados reais, mas o compartilhamento de interfaces que mostram conjuntos de dados derivados que são, por natureza, anônimos.

A solução

Desenvolvemos a Demonstração de dados sintéticos de código aberto, um pipeline automatizado para gerar conjuntos de dados sintéticos e agregados que conservam a utilidade do original, juntamente com painéis para visualizar e explorar esses conjuntos de dados derivados.

Combatendo o tráfico com dados sintéticos

Esse desafio surgiu por meio da participação da Microsoft no Tech Against Trafficking (TAT) , uma coligação de empresas de tecnologia que trabalham no combate ao tráfico com tecnologia. Trabalhamos juntos para apoiar o CTDC (Counter Trafficking Data Collaborative) , uma iniciativa da OIM (Organização Internacional para as Migrações) para criar o maior banco de dados do mundo sobre vítimas de tráfico identificadas que serviriam para formar a política baseada em evidências contra o crime de tráfico humano.

Explore como trabalhamos para permitir que os criadores de políticas visualizassem e explorassem esses dados de maneira que preserva a privacidade de grupos de titulares de dados, preserva a utilidade dos conjuntos de dados e os mantêm acessíveis a todos as partes interessadas nos dados.

Saiba mais sobre o TAT Saiba mais sobre o CTDC

Detalhes técnicos para a Demonstração de dados sintéticos

Os conjuntos de dados sintéticos são criados usando nosso conceito de -anonimato sintético e um algoritmo para isso. O algoritmo cria registros sintéticos, cujos valores de combinação de atributos aparecem em, pelo menos, um número pré-determinado de vezes, k, no conjunto de dados confidenciais original. As combinações de atributos que não atendem a esta resolução de privacidade não são divulgadas para impedir a identificação de titulares dos dados individuais ou vincular pequenos grupos de titulares a indivíduos conhecidos no mundo real.

Os dados sintéticos são complementados com dados agregados pré-calculados para combinações de atributos curtas e relatáveis que aparecem no conjunto de dados confidenciais. Permitimos a seleção de uma resolução de privacidade k que fornece um limite mínimo de relatórios e precisão de arredondamento para evitar a revelação de pequenas contagens que possam colocar a privacidade em risco.

Os dados sintéticos e agregados são carregados automaticamente em uma interface do Power BI para a exploração de dados interativa e que preserva a privacidade. Capazes de ser facilmente personalizados para atender a objetivos de visualização específicos, esses painéis permitem análises avançadas e sem código, independentemente da experiência em ciência de dados.

A Demonstração de dados sintéticos começou como um projeto em nossa iniciativa Tecnologia Contra o Tráfico, e acreditamos que sua capacidade de melhorar a representação de grupos de risco pode nos ajudar a resolver problemas sociais urgentes e construir um mundo mais resiliente.

Temos o prazer de anunciar que a Demonstração de dados sintéticos foi adotada pela Organização Internacional para as Migrações (OIM) das Nações Unidas.

Projetos relacionados à Demonstração de dados sintéticos

Saber mais

Explore as possibilidades da IA

Concretize a inteligência artificial em seus negócios hoje mesmo.