Два метода к de-identify большим терпеливым наборам данных значительно снизили риск переидентификации

«Исследователи, как правило, получают доступ к de-identified данным, то есть, данным без любой личной информации об идентификации, такой как имена, адреса и Номера социального страхования. Однако это может не быть достаточно, чтобы защитить частную жизнь людей, участвующих в изыскании», сказал Арсин.У терпеливых наборов данных часто есть конфиденциальные данные, такие как информация о здоровье человека и диагнозе болезни, который человек может не хотеть разделять публично, и хранители данных, ответственны за охрану такой информации, добавил Арсин. «Люди, у которых есть разрешение получить доступ к таким наборам данных, должны соблюдать законы и этические рекомендации, но всегда есть эта озабоченность, что данные могли бы попасть в неправильные руки и неправильно использоваться», добавила она. «Как хранитель данных, это – мой худший кошмар».

Чтобы проверить силу их de-идентификационного метода, Ursin и коллеги использовали показ данных, содержащих 5 693 582 отчета от 911 510 женщин в норвежской Программе обследования на Рак шейки матки. Данные включали даты рождения пациентов, и цервикальные даты показа, результаты, названия лабораторий, которые запустили тесты, последующие диагнозы рака, если таковые имеются, и дату смерти, если покойный.Исследователи использовали инструмент под названием ARX, чтобы оценить риск переидентификации, приближаясь к набору данных, используя «сценарий обвинителя», в котором инструмент предполагает, что нападавший знает, что некоторые данные о человеке находятся в наборе данных.

Нападение считают успешным, если значительная часть людей в наборе данных могла бы быть повторно определена кем-то, у кого был доступ к части информации об этих людях.Команда оценила переидентификационный риск тремя различными способами: Сначала они использовали оригинальные данные, чтобы создать реалистический набор данных, который содержал всю вышеупомянутую терпеливую информацию (D1). Затем, они «k-anonymized» данные, изменяя все даты в отчетах к 15-му из месяца (D2).

В-третьих, они fuzzied данные, добавляя случайный фактор между-4 к +4 месяцам (кроме ноля) к каждому месяцу в наборе данных (D3).Добавляя нечеткий фактор к отчетам каждого пациента, месяцы рождения, показа и других событий изменены; однако, интервалы между процедурами и последовательностью процедур сохранены, который гарантирует, что набор данных все еще применим в целях исследования.

«Мы нашли, что изменение дат, используя стандартную процедуру k-anonymization решительно уменьшило возможности re-identifiying большинство людей в наборе данных», отметил Арсин.В D1 средний риск обвинителя, опознающего человека, составлял 97,1 процентов.

Больше чем 94 процента отчетов пациентов были уникальны, и поэтому те пациенты рискнули повторно опознаваться. В D2 средний риск обвинителя, опознающего человека, спал до 9,7 процентов; однако, 6 процентов отчетов были все еще уникальны и рискнули повторно определяться. Добавление нечеткого фактора, в D3, не понизило риск переидентификации далее: средний риск обвинителя, опознающего человека, составлял 9,8 процентов, и 6 процентов отчетов рискнули повторно определяться.

Это означало, что было столько же уникальных отчетов в D3 сколько в D2. Однако борьба месяцев всех отчетов в наборе данных, добавляя нечеткий фактор делает более трудным для обвинителя связать отчет от этого набора данных до отчетов в других наборах данных и повторно опознать человека, объяснил Арсин.

«Каждый раз, когда исследовательская группа просит разрешение получить доступ к набору данных, хранители данных должны задать вопрос, ‘Что информация, им действительно нужно и что является деталями, которые не требуются, чтобы отвечать на их вопрос исследования’ и прилагать все усилия, чтобы разрушиться и нечеткий данные, чтобы обеспечить защиту частной жизни пациентов», сказал Арсин.Терпеливые данные в целом очень хорошо гарантированы, и переидентификация еще не большая угроза, добавил Арсин. «Однако, учитывая недавнюю тенденцию в обменивании данными и объединении наборов данных для больших анализов данных – который является хорошим развитием – всегда есть шанс информации, попадающей в руки кого-то со злонамеренным намерением. Хранители данных, поэтому, справедливо обеспокоены потенциальными будущими проблемами и продолжают проверять превентивные меры».

Согласно Ursin, главное ограничение исследования – то, что подходы, чтобы анонимизировать данные в этом исследовании характерны для используемого набора данных; такие подходы уникальны для каждого набора данных и должны быть разработаны на основе природы данных.