Деперсонализация данных
Защита персональных данных — это многогранная и сложная деятельность. Но для ее комплексного восприятия следует иметь четкое представление как о правовых, так и сугубо технических мерах. Данная статья призвана осветить общеизвестный, но не такой простой, как кажется на первый взгляд, вопрос о деперсонализации данных.
Ряд документов прямо требуют того, чтобы операторы соблюдали принципы минимизации обрабатываемых данных и внедряли технические меры безопасности по умолчанию. По этой причине мы рассмотрим подходы по деперсонализации данных, которые рекомендованы NIST.
Для этого мы обратимся к публикациии NISTIR 8053 De-Identification of Personal Information, подготовленной National Institute of Standards and Technology (NIST). Описание данного документа гласит, что — “при деперсонализации из набора данных удаляется идентифицирующая информация, поэтому отдельные данные не могут быть связаны с конкретными лицами. Деперсонализация может снизить риск нарушения конфиденциальности, связанный со сбором, обработкой, архивированием, распространением или публикацией информации. Таким образом, деперсонализация представляет собой попытку сбалансировать противоречивые цели использования и обмена личной информацией при одновременной защите неприкосновенности частной жизни”.
Как и в любой сфере сначала определимся с терминологией. В большинстве источников посвящённых данному вопросу используются три основных термина: деперсонализация анонимизация и псевдонимизация. Я рекомендую использовать их определения из международного стандарта ISO 25237:2017
деперсонализация – общее название любого процесса удаления связи между совокупностью идентифицирующих данных и субъектом данных
анонимизация (обезличивание) – действия, в результате которых удаляется связь между совокупностью идентифицирующих данных и субъектом данных
псевдонимизация – особый случай обезличивания, при котором помимо удаления прямой связи с субъектом данных создается связь между конкретной совокупностью характеристик этого субъекта и одним или несколькими псевдонимами
Несмотря на появление инструментов, позволяющих работать с неструктурированными данными, подавляющие большинство действительно значимой информации содержится в структурированном виде. Для примера возьмем таблицу, содержащую информацию о клиентах медицинского центра.
Источник
Деперсонализация базы MySQL. Интересная техника
В компании, где я работаю, мы используем деперсонализированную базу с Production-a. Ее суммарный объем на данный момент около 30 ГБ. Обфускация ruby скриптом занимала около 6 часов. Ускорение обработки можно добиться, если переписать это все в хранимую процедуру (stored procedure). Но у нас в проекте они запрещены… Увы и ах.
Тогда я задался вопросом: можно ли ускорить процесс по максимуму, деперсонализировать всю базу (или хотя бы полностью одну таблицу) используя только один оператор update? Проблема в том, что некоторые поля д.б. уникальными, а некоторые случайными значениями из списка.
Оказалось можно. Немного подумав, пришло решение с помощью пользовательских переменных, генератора псевдослучайных чисел и оператора case.
Ниже немного кода и пояснения:
Пусть есть таблица users с полями:
first_name
gender
last_name
address_1
address_2
home_phone
birthdate
ssn
password
После обфускации должно быть:
first_name одно из: женское — Patricia, Taylor, Susan, Lisa, Linda, Sandra, Carol, Debra, Teresa, Rebecca, Diana, Veronika, Helen, Alexandra, Svetlana, Elona, Marina, Mila, Olga, Vasilisa, Marta
мужское — David, John, Robert, Steven, William, Mark, Thomas, Michael, Richard, Kevin, Donald, Andrew, Ruslan, Eugene, Sergey, Alexandr, Yura, Ivan, Daniel
gender: без изменений
last_name: Johnson, Anderson, Reed, Erickson, Frank, Lucas, Jenkins, Watson, Morgan, Kim, Kovalinen, Konovalov, Tereshko, Urchik, Kuleshov, Kisliakov, Areshnik, Pekar, Matroskin, Gallagher
address_1: 123 Main Street
address_2: если в оригинале ничего нет, то после обфускации должен быть NULL, в противном случае адрес 123 Main Street
home_phone: если в оригинале ничего нет, то после обфускации должен быть NULL, в противном случае телефон 111-111-2222
birthdate: оставить год рождения тем же, а дату и месяц изменить
ssn: случайное уникальное для каждой строки значение из девяти символов, начинающееся с ’30’
password: NULL
Как видно из кода, выбрать случайное значение из списка можно с помощью ELT(FLOOR(1+RAND() * 21). ), где FLOOR(1+RAND() * 21) выбор случайного значение в диапазоне от 1 до 21. ELT — выбирает соответствующую стоку с указанным индексом.
CASE помогает выбирать отдельно женские и мужские имена в зависимости от пола. Таких функций управления ходом выполнения, которые можно использовать в отдельном операторе четыре CASE, IF, IFNULL(), NULLIF().
Из того, что стоит еще упомянуть — это генератор случайного уникального значения. В качестве начального значения генератора было выбрано простое число (276821) и записано в пользовательскую переменную rand. Следующее значение устанавливается непосредственно в операторе CASE: rand:=( rand + 609673*2) % 1048576. Выражение CONCAT(’30’,LPAD( rand, 7, ‘0’)) формирует окончательный вид значения rand.
Заключение:
Чего мы добились таким способом деперсонализируя базу?
1) Скорость выполнения сократилась с 6 часов до 4х минут.
2) Не используются хранимые процедуры.
3) Понятная (не сложная) логика работы и весь код собран в одном месте.
Источник
Обезличивание данных: сохранение баланса между правами граждан и развитием инноваций
waider.list.ru / Depositphotos.com |
Повсеместное использование информационных технологий поднимает вопросы, возникающие в связи с обработкой персональных прав граждан. Особенно остро встает проблема защиты персональных данных при их обработке государством или частными компаниями, в том числе с помощью технологий искусственного интеллекта. Напомним, что персональные данные – это любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (ч. 1 ст. 3 Федерального закона от 27 июля 2006 № 152-ФЗ «О персональных данных», далее – Закон № 152-ФЗ). Одним из методов решения проблемы защиты данных является процедура их обезличивания. В соответствии с законом обезличивание персональных данных представляют собой действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных (ч. 9 ст. 3 Закона № 152-ФЗ). Как на практике выполняется процедура обезличивания, действительно ли она может обеспечить защиту персональных данных и как соблюдается баланс между интересами граждан, государства и компаний – в нашем материале.
В ходе пленарного заседания, организованного в рамках Петербургского Международного Юридического Форума 9 3/4, информационным партнером которого является компания «Гарант», президент Ассоциации участников рынка больших данных Анна Серебряникова обратила внимание на то, что сейчас тема обезличивания данных в первую очередь должна рассматриваться как механизм защиты прав граждан, а уже после этого – как стимулирование развития бизнес-сектора. Важность темы понимается и на федеральном уровне – государство демонстрирует разнообразие обсуждаемых и принимаемых инициатив по вопросу оборота данных при использовании информационных технологий, например, для развития технологии искусственного интеллекта. В настоящее время процедура обезличивания данных активно применяется, при этом эксперт считает, что ее нужно отрегулировать таким образом, чтобы, с одной стороны, не остановить технический прогресс, с другой – защитить граждан от деобезличивания.
В ходе обсуждения Татьяна Матвеева, начальник управления президента РФ по применению информационных технологий и развития электронной демократии, отметила, что на сегодняшний день метода, который мог бы полностью обезличить данные с сохранением ценности таких данных, не существует. Связано это с тем, что текущий уровень развития информационных технологий при сборе нескольких наборов данных (в том числе, обезличенных) и при последующей математической обработке могут быть опять персонализированы. Таким образом, обезличивание персональных данных выступает методом снижения рисков нарушения прав граждан при обработке персональных данных, например, при их утечке. Но гарантии полной защиты прав граждан не происходит, подчеркивает эксперт.
Напомним, что в РФ процедура по обезличиванию персональных данных регламентирована Приказом Роскомнадзора от 5 сентября 2013 г. № 996 «Об утверждении требований и методов по обезличиванию персональных данных». Так, в соответствии с Приказом, к наиболее перспективным и удобным для практического применения относятся следующие методы обезличивания:
- введение идентификаторов – замена части сведений идентификаторами с созданием таблицы соответствия идентификаторов исходным данным;
- изменение состава или семантики – изменение состава или семантики персональных данных путем замены результатами статистической обработки, обобщения или удаления части сведений;
- декомпозиция – разбиение множества персональных данных на несколько частей с последующим раздельным хранением подмножеств;
- перемешивание – перестановка отдельных записей, а так же групп записей в массиве персональных данных.
С другой стороны, использование данных, которые являются важнейшим инструментом для развития информационных технологий, в том числе с использованием искусственного интеллекта, необходимо. Для регулирования требуется принятие определенных правил, методов и стандартов, понятных для всех участников рынка, заметила Татьяна Матвеева. В частности, на данный момент в первом чтении рассматривается законопроект по регулированию обезличенных персональных данных 1 . Согласно пояснительной записке, законопроект направлен на обеспечение благоприятных правовых условий для сбора, хранения и обработки данных с использованием новых технологий, в том числе в части установления порядка обезличивания персональных данных. Предлагается уточнить полномочия Роскомнадзора по утверждению требований и методов обезличивания персональных данных и регламентировать их на уровне нормативного акта Роскомнадзора.
Также запущен Федеральный проект «Искусственный интеллект», разработанный Минэкономразвития России в целях реализации Национальной стратегии развития искусственного интеллекта на период до 2030 года (утв.Указом Президента Российской Федерации от 10 октября 2019 г. № 490), который уточняет условия использования данных в рамках экспериментальных правовых режимов (ЭПР), так называемых регуляторных песочниц. Подробнее об ЭПР читайте в нашем материале: «Проблемы защиты персональных данных в рамках экспериментальных правовых режимов». Заместитель руководителя Роскомнадзора Милош Вагнер отметил, что введение таких режимов является результатом ответа на запрос бизнеса о желании воспользоваться данными – такие режимы позволяют с учетом послаблений апробировать методики обезличивания.
Важно обратить внимание, что есть различие между обезличенными и анонимизированными данными. Как объясняет Анна Серебряникова, полностью анонимизированные данные представляют собой статистику, которая доступна в свободном доступе и относится к открытым данным. Аналогичной позиции придерживается Татьяна Матвеева, приводя в пример таких данных статистику Росстата и соцопросы – такие данные являются «загрубленными» с точки зрения социально-демографического портрета опрашиваемой аудитории. По мнению Анны Серебряниковой, такие данные не несут той же ценности, как обезличенные, на основании которых можно определить некоторые особенности разных видов социальных групп. Эксперт приводит в пример анализ поведенческих особенностей малых социальных групп, прогнозирование возрастных трендов, измерение настроения людей и определение их отношения к тем или иным явлениям – все эти функции на основании анонимизированных данных невозможны. Другими словами, полностью анонимизированные данные не представляют ценности для бизнеса, а для некоторых областей искусственного интеллекта даже обезличенные данные не представляют ценности – для его обучения требуется опыт, а если такой опыт с пробелами, его обучение будет соответственным, объяснила Анна Серебряникова.
Руслан Ибрагимов, вице-президент по взаимодействию с органами государственной власти и связям с общественностью ПАО «МТС» считает, что основная проблема, связанная с обезличиванием персональных данных, – расхождение в определении того, что представляют собой такие данные. Государственные органы не видят разницы между персональными и обезличенными данными, что создает ряд юридических проблем. На практике такой подход может ужесточать оборот обезличенных персональных данных. При подходе, согласно которому такие данные являются отдельной частью персональных данных, такие данные могут быть свободно пущены в оборот. Эксперт считает, что следует достичь консенсуса при решении вопроса о том, какой из этих подходов должен быть использован в отношении обезличивания персональных данных.
Анна Серебряникова считает, что для обучения искусственного интеллекта нужны более широкие дата-сеты, включающие такие данные, которые будут соблюдать баланс – с одной стороны, не нарушать права субъектов персональных данных, с другой – предоставлять для бизнеса максимально полные данные для развития технологий. Обработка персональных данных в любом случае сопряжена с потенциальными рисками для субъектов, при этом такие риски могут возникать не только рамках исполнения бизнес-задач, но и при других неправомерных действиях, резюмировала Татьяна Матвеева. В связи с этим решения по условиям обработки и обезличиванию данных следует принимать и оценивать через призму защиты прав граждан. Помимо нормативного государственного регулирования разработка отраслевых стандартов и кодексов по работе с обезличенными данными позволит повысить внутреннюю цифровую культуру компаний, работающих с данными, а также увеличить уровень доверия граждан, заключила эксперт. С коллегой согласился Милош Вагнер – регулирование должно осуществляться как со стороны надзорного органа (в соответствии со ст. 23 Закона № 152-ФЗ), так и со стороны операторов (в соответствии со ст. 18.1 Закона № 152-ФЗ), то есть должен присутствовать также внутренний контроль за соблюдением положений законодательства, считает эксперт.
1 С текстом законопроекта № 992331-7 О внесении изменений в Федеральный закон «О персональных данных» (в части уточнения порядка обработки персональных данных) и материалами к нему можно ознакомиться на официальном сайте Госдумы.
Источник