Anonimizacja danych dla każdego biznesu. Jak wykonać ją prawidłowo?

DevOps

18 listopada 2020 • 29 min czytania

  Rozporządzenie o ochronie danych w mniejszym lub większym stopniu wpływa na działania, które musi podjąć każda firma. Dane wrażliwe, którymi dysponuje, powinny być odpowiednio zabezpieczone. Kiedy wprowadzano pierwsze regulacje z tym związane, anonimizacja danych była na bardzo podstawowym poziomie. Ręczne zakrywanie danych osobowych w niektórych przypadkach stosuje się jednak do dziś, chociaż jest to mało efektywne rozwiązanie. W przypadku przetwarzania nawet dość małej ilości danych cyfrowa anonimizacja przyspiesza cały proces i gwarantuje maksymalne bezpieczeństwo informacji. Jak obecnie wykorzystuje się anonimizację danych i jakie narzędzie warto do tego wykorzystać?

  Co to jest anonimizacja?

  Potrzeba anonimizacji danych wynika z konieczności ich zabezpieczenia przed osobami trzecimi. W Polsce obecnie odpowiada za to unijne Ogólne rozporządzenie o ochronie danych (inaczej Rozporządzenie o ochronie danych osobowych, w skrócie RODO), obowiązujące od 2018 roku.

  Sama anonimizacja danych to proces pozwalający na uniemożliwienie identyfikacji osoby przez pryzmat tych danych. Są to nieodwracalne działania, na skutek których dane są odpowiednio przekształcane lub ukrywane, co pozwala na dalsze korzystanie z danego dokumentu czy bazy danych, lecz nie daje możliwości uzyskania szczegółowych informacji na temat osoby, której one dotyczą. Warto wiedzieć też, że to, czy zbiór konkretnych danych można zakwalifikować jako dane osobowe, w dużej mierze zależy od kontekstu. Zbiór informacji dotyczących płci, wieku czy koloru skóry i oczu w teorii nie powinien wskazywać na konkretną osobę, ale zależy to od kontekstu, w jakim znajdują się te informacje. Umieszczone w niewielkiej bazie, np. zbiorze pracowników firmy, pozwalają na dość szybkie i dokładne zidentyfikowanie konkretnej osoby.

  Najprostszym i stosowanym od lat sposobem na anonimizację dokumentów jest fizyczne zaczernianie w nich danych. Do ukrycia pożądanych informacji można użyć korektora, a następnie zeskanować dokument – już bez widocznych danych wrażliwych. To jednak bardzo czasochłonna metoda, która sprawdza się tylko w przypadku przetwarzania bardzo małej ilości danych i operowania fizycznymi dokumentami, co jest coraz rzadziej spotykane.

  Zdecydowanie efektywniejsze jest skorzystanie z programu do anonimizacji dokumentów, który pozwala na pełną automatyzację procesu ukrywania danych osobowych i informacji wrażliwych z dokumentów elektronicznych, przechowywanych w plikach PDF. Taki system może zanonimizować m.in.:

  • imiona i nazwiska,
  • numery PESEL,
  • numery dowodów osobistych,
  • numery telefonu,
  • adresy.
  Jakie dane trzeba anonimizować? Imiona i nazwiska; numery PESEL; numery dowodów osobistych; numery telefonu; adresy

  Anonimizacja dokumentów elektronicznych jest nieodwracalna – nie ma też kluczy, które umożliwiłyby rozszyfrowanie raz zanonimizowanych już danych.

  Anonimizacja baz danych

  Szczególnym rodzajem anonimizacji jest anonimizacja baz danych. Proces tworzenia nowego oprogramowania czy wprowadzania zmian do istniejącego już środowiska wymaga zweryfikowania go w warunkach testowych. Powinny być one maksymalnie zbliżone do tych, które będą obecne w środowisku produkcyjnym. W tym przypadku program do anonimizacji jest w stanie wygenerować dane dla środowisk testowych.

  Program do anonimizacji pozwala też przeanalizować dowolną strukturę danych (np. bazę danych lub zasoby plikowe) pod kątem występowania w niej danych osobowych, które należy zanonimizować.

  Anonimizacja a pseudonimizacja

  Różnica pomiędzy anonimizacją a pseudonimizacją polega głównie na trwałości anonimizowania danych. Anonimizacja zakłada nieodwracalne zaszyfrowanie danych, dzięki czemu możemy mieć pewność, że dokumenty lub bazy danych po przeprowadzeniu tego procesu przestaną zawierać dane osobowe w świetle RODO. Dokumenty można więc udostępniać osobom trzecim, gdy jest to potrzebne, bez naruszenia przepisów o ochronie danych osobowych. Takie dokumenty lub bazy mogą być też przechowywane przez nieograniczony czas, a firma, jako ich administrator, jest zwolniona ze zbierania zgód na przetwarzanie danych osobowych.

  Po wejściu w życie najnowszego rozporządzenia o ochronie danych wprowadzono nowy rodzaj anonimizacji – pseudonimizację. To alternatywa dla anonimizacji, umożliwiająca odwracalną anonimizację, czyli chwilowe „ukrycie” danych osobowych. W przypadku pseudonimizacji trzeba pamiętać o tym, by klucz umożliwiający odczytanie danych był przechowywany osobno od danych, i bardzo dobrze zabezpieczony. Pseudonimizację wykonuje się w celu utrudnienia identyfikacji określonej osoby. Po jej wdrożeniu nadal mamy do czynienia z przetwarzaniem danych osobowych.

  Anonimizacja danych w biznesie

  Obecnie trudno znaleźć branżę, która nie musiałaby chociaż w małym stopniu korzystać z anonimizacji danych. Przyjrzyjmy się różnym przykładom biznesów, dla których skuteczna anonimizacja jest szczególnie istotna.

  IT – systemy testowe

  Wykonywanie testów wydajnościowych to częsta praktyka w działach IT, które chcą sprawdzić obciążenie dużą ilością danych podczas tworzenia oprogramowania czy wprowadzania w nim dużych zmian. Aby przeprowadzić test na jak najbardziej zbliżonym do rzeczywistego zestawie danych należałoby skorzystać z realnej bazy użytkowników czy klientów. Nie jest to jednak możliwe z uwagi na ochronę danych osobowych. Jedną z opcji w takim przypadku jest zamówienie podobnej bazy do celów testowych. To rozwiązanie ma jedną wadę – taka baza nigdy nie będzie odpowiadała w 100% danym obecnym w środowisku produkcyjnym.

  Rozwiązaniem i w tym przypadku jest skorzystanie z anonimizacji bazy, co pozwoli na zasymulowanie prawdziwego środowiska aplikacji bez obaw o działania na danych wrażliwych. Program do anonimizacji po połączeniu z naszą bazą danych generuje skrypt inicjalny, a algorytmy sztucznej inteligencji analizują zawartość bazy i wskazują wrażliwe segmenty zbioru: dane osobowe, biznesowe, numery identyfikacyjne, dane finansowe, hasła, a nawet notatki zawierające dane wrażliwe. Po ocenie stopnia wrażliwości danych system przechodzi do tworzenia nowej bazy wygenerowanej z bazy pierwotnej. W ten sposób administrator otrzymuje bazę danych idealnie skrojoną pod wykonywanie testów obciążeniowych, zgraną z początkową bazą klientów czy użytkowników, a jednocześnie całkowicie wolną od konieczności przetwarzania danych.

  Sektor publiczny

  Z rozwiązań cyfrowej anonimizacji danych, w szczególności dokumentów, na co dzień korzystają też organizacje z szeroko pojętego sektora publicznego. Konieczność publikowania danych po rozstrzygnięciu przetargu powoduje problem z ujawnianiem danych wrażliwych. Przez potrzebę ochrony danych osobowych instytucje korzystają więc z pełnej anonimizacji udostępnianych publicznie dokumentów. Dokument stanowi wtedy informację publiczną, a jednocześnie nie narusza przepisów związanych z RODO.

  Podobna konieczność anonimizacji pojawia się w przypadku administracji i sądownictwa. Przykładowo, orzeczenia sądowe są podawane do wiadomości publicznej ze zanonimizowanymi danymi: pełne imię i nazwisko zastępuje się inicjałami. Anonimizacji podlegają też numery dokumentów, nazwy ulic, daty, nazwy własne, nazwy urządzeń czy pojazdów, symbole i inne informacje, które mogłyby posłużyć do zidentyfikowania konkretnej osoby. Wyszukiwanie takich danych wrażliwych ręcznie to niezwykle mozolne, a na większą skalę po prostu niewykonalne zadanie. Korzystanie z programu do cyfrowej anonimizacji dokumentów pozwala na automatyczne skanowanie dokumentów w różnych rozszerzeniach i identyfikację, a następnie anonimizację danych wrażliwych.

  Finanse i bankowość

  Sektory finansowy i bankowy borykają się z kolei z kwestią tajemnicy bankowej, czyli zabezpieczania wszystkich informacji uzyskanych podczas negocjacji, zawierania i podpisywania umów. Do wrażliwych danych objętych tajemnicą bankową zaliczamy zarówno dane osobowe, które pozwalają na identyfikację klienta, jak i te opisujące jego sytuację prawną i finansową. Banki przechowują też informacje dotyczące daty i wysokości wykonywanych przelewów, ale też informacje o aktywności klientów na portalach społecznościowych. Całe te bazy muszą podlegać pełnej anonimizacji w celu maksymalnej ochrony danych. W tym przypadku ręczna anonimizacja jest niemożliwa dla każdego banku i instytucji: przetwarzane dane stanowią zbyt duże, a także zbyt istotne zbiory, by mogły być poddawane ręcznemu, nie zawsze idealnemu, zaczernianiu.

  Ochrona zdrowia

  Szpitale, przychodnie i prywatne praktyki generują ogromną ilość niezwykle wrażliwych danych. Są to nie tylko podstawowe dane osobowe, ale też informacje o istniejących i przebytych chorobach, preferencjach seksualnych, dostępie do ubezpieczenia i inne. Dodatkowo placówki te mają do czynienia z informacjami na temat organizacji, w tym dane finansowe obecne w przetargach. W przypadku branży medycznej potrzebę anonimizacji można zauważyć na wielu płaszczyznach:

  • ochrony danych pracowników,
  • ochrony danych pacjentów,
  • ochrony danych firmowych.

  Są one przechowywane zarówno w ustrukturyzowanych bazach danych, w dokumentach, jak i w nieustrukturyzowanych systemach, które, niekontrolowane na bieżąco, mogą zawierać dostęp do danych wrażliwych, które ręcznie bardzo trudno jest odnaleźć i zidentyfikować.

  Anonimizacja będzie w tym przypadku przydatna do automatycznego, cyklicznego skanowania baz danych (takich jak bazy pacjentów, systemy rejestracyjne przychodni) w poszukiwaniu danych wrażliwych, które nie powinny się tam znaleźć. Następnie program anonimizuje bazę: może np. dokonać zmian semantycznych (np. zamiana imienia Jan na Henryk) czy dokonać pełnej randomizacji (np. Jan na Xyz). Z kolei anonimizacja dokumentów będzie przydatna do trwałego ukrywania danych osobowych pacjentów, pracowników i firm współpracujących z daną placówką.

  Sektor inwestycyjny

  W sektorze inwestycyjnym kwestia ochrony danych osobowych i danych wrażliwych firmy ma duży związek z przeprowadzaniem badania due dilligence. Kompleksowe badanie kondycji przedsiębiorstwa jest niezwykle przydatne zewnętrznym inwestorom do zidentyfikowania i oszacowania ryzyka związanego z inwestycją. Stosuje się je również w przypadku sprzedaży akcji lub udziałów w firmie, połączenia spółek czy sprzedaży przedsiębiorstwa. Jako że dokumentacja nie może zostać przekazana z ujawnionymi w niej danymi osobowymi, firmy również w takiej sytuacji korzystają z anonimizacji dokumentów. W ten sposób transakcja może dojść do skutku dzięki ujawnionej dokumentacji, która wcześniej została pozbawiona danych wrażliwych. Wówczas nawet gdy transakcja z daną firmą nie zostanie zfinalizowana, nie musimy obawiać się o ujawnianie żadnych danych osobowych.

  NeoCrypter – program do anonimizacji dokumentów i baz danych

  Programem obsługującym zarówno anonimizację baz danych i anonimizację dokumentów, jak i generującym bazy na potrzeby testów obciążeniowych, jest NeoCrypter. System składa się z dwóch modułów:

  1. NeoCrypter DB pozwala na wykonywanie automatycznych audytów baz danych, anonimizację wykrytych tam informacji, a także generację danych testowych np. na potrzeby procesów TEM (Test Environment management),
  2. NeoCrypter GUI wykonuje anonimizację danych zawartych na dokumentach poprzez interfejs GUI.
  NeoCrypter to narzędzie cyfrowe do anonimizacji danych składające się z modułów DB i GUI. Pierwszy automatycznie monitoruje bazy danych, anonimizuje dane wrażliwe i potrafi generować dane anonimowe do środowisk testowych. Drugi natomiast pozwala na szybkie wyszukiwanie danych wrażliwych w dokumentach oraz ich anonimizację poprzez interfejs graficzny.

  NeoCrypter DB

  Moduł DB jest szczególnie przydatny na potrzeby wykonywania testów obciążeniowych w działach IT. Program wykonuje audyt zbioru danych, analizując nazwenictwo tabel, kolumn i ich zawartości. Wskazuje dane wrażliwe, takie jak:

  • dane osobowe: imiona, nazwiska, adresy, numery telefonu, adresy zamieszkania,
  • dane biznesowe: nazwa firmy, adresy WWW, fax,
  • numery identyfikacyjne: numery kont, PESEL, NIP, REGON,
  • dane finansowe: przychody, zyski, salda, pensje, wartości walutowe;
  • hasła,
  • teksty, notatki zawierające dane wrażliwe, takie jak dane medyczne czy prawne.

  System ma też możliwość samodzielnej oceny stopnia wrażliwości danych, które bywa potrzebne m.in. do analizy ryzyka wymaganego przez RODO. Oprócz tego program wykrywa powiązane z bazami pliki, takie jak dokumentacje PDF/TIFF/MS OFFICE. Następnie program może zanonimizować dane, używając jednego z ponad 30 różnych konwerterów. Dodatkowo, za pomocą technologii OCR (optycznego rozpoznawania znaków) NeoCrypter może zanonimizować teksty występujące w skanach dokumentów lub zastąpić cały skan tzw. pustym dokumentem o tym samym typie.

  NeoCrypter GUI

  Przeznaczeniem NeoCryptera GUI jest pełna automatyzacja procesu ukrywania danych osobowych i informacji wrażliwych w dokumentach cyfrowych. Program ma szerokie zastosowanie w administracji jakiejkolwiek firmy, ponieważ każda z nich podlega rozporządzeniu o ochronie danych osobowych. Moduł GUI jest intuicyjny w użyciu, dlatego nie wymaga przeprowadzania szkoleń w zespołach przed rozpoczęciem korzystania z systemu.

  Anonimizator przy użyciu wspomnianej technologii OCR „skanuje” dokument i wykrywa wszystkie potencjalne miejsca wystąpienia danych osobowych i wrażliwych. Następnie użytkownik może zweryfikować, czy zostały odnalezione wszystkie pola: ma możliwość dodania swoich elementów wymagających anonimizacji, a także usunięcia tych, które nie muszą być poddane zaczernieniu. Kolejne procesy poszukiwania danych osobowych są przeprowadzane jeszcze sprawniej – wbudowany algorytm uczenia zapamiętuje słowa wskazane manualnie przez użytkownika jako poufne i osobowe, dzięki czemu podczas kolejnych „skanów” wykrywa te informacje. System może być używany również w przypadku operowania wieloma dokumentami; wykonuje on anonimizację kilku dokumentów z nieograniczoną liczbą stron jednocześnie.

  Dlaczego NeoCrypter?

  Wybór odpowiedniego narzędzia do anonimizacji dokumentów i baz danych pozwala na znaczne przyspieszenie pracy i wyeliminowanie błędu ludzkiego. NeoCrypter to wszechstronne narzędzie, które może być wykorzystywane w niemal każdej branży. Rozwiązanie jest też niezwykle elastyczne – pozwala na rozszerzenie systemu o własne konwertery i analizatory, potrzebne do anonimizacji w specyficznych branżach, np. do anonimizacji numerów dyplomów lekarzy. Istnieje również możliwość integracji Anonimizatora ze skarbcami poświadczeń, przydatnych zwłaszcza w przypadku korporacji.

  Chcesz dowiedzieć się więcej o działaniu NeoCryptera i tego, jak może wpłynąć na Twój biznes? Skontaktuj się z nami i umów na demo produktu.

  Czytaj więcej:

  [contact-form-7 404 "Not Found"]