Ślepe analizy umożliwiają korzystanie z dużych zbiorów danych bez narażania ochrony danych i zaufania użytkowników. Jest to możliwe dzięki rozdzieleniu uprawnień do danych.

Ten artykuł został napisany przez Luigi Scorzato, kierownika ds. inżynierii danych i Stefana Rustlera, konsultanta ds. analityki w Accenture Digital.

W XIX wieku średnia długość życia noworodka wynosiła 40 lat. Dziś w krajach rozwiniętych mija około 80 lat. Postęp naukowy - v. a. w medycynie – skutecznie dała nam drugie życie. Osiągnięcie to byłoby nie do pomyślenia bez systematycznej analizy danych medycznych i innych danych wrażliwych. Dane są podstawą medycyny, nauki i bogactwa.

W ostatnim czasie nowe metody i stale rosnąca moc obliczeniowa umożliwiły nam gromadzenie i ocenę dużych ilości danych w wielu różnych obszarach. Rezultatem jest odpowiednia poprawa, na przykład w dziedzinie zdrowia, edukacji, komunikacji lub transportu.

W celu osiągnięcia dalszych ulepszeń nie można uniknąć wykorzystywania danych wrażliwych lub osobowych. A te ulepszenia są konieczne, ponieważ trudno sobie wyobrazić funkcjonujący świat z 10 miliardami ludzi, który nie jest oparty na danych. Już zbliżamy się do granic naszych zasobów, presja na optymalizację wciąż rośnie.

Istnieją jednak uzasadnione obawy dotyczące prywatności i potencjalnych nadużyć w przypadku danych osobowych. Niestety wiele organizacji nie zajmuje się odpowiednio takimi problemami, a prawodawstwo pozostaje w tyle. Próba uspokojenia użytkownika usługi może nawet przynieść odwrotny skutek: wiele umów o użytkowanie jest przytłaczających ze względu na ich rozmiar. Jeśli dojdziesz do fragmentów, w których wyjaśniono inne zastosowania, są one sformułowane niejasno. Nawet wykluczenie przekazywania danych stronom trzecim uspokaja tylko w ograniczonym zakresie: co tak naprawdę jest dzisiaj w dużych międzynarodowych organizacjach i poza nimi?

Nawet zapewnienie, że dane osobowe zostaną zanonimizowane, jest często niewystarczające. Ponieważ w wielu przypadkach należy właściwie mówić o pseudonimizacji: Oczywiście wrażliwe pola, takie jak nazwiska czy adresy, są usuwane lub zastępowane kluczami pomocniczymi. W niektórych sytuacjach jest to wystarczające, ale generalnie nie gwarantuje, że indywidualne tożsamości nie będą mogły zostać odtworzone z danymi, które początkowo wydają się nieszkodliwe. Na przykład, jeśli analizujesz dane połączenia telefonu komórkowego na słabo zaludnionym obszarze, poziom agregacji w odniesieniu do lokalizacji może być zbyt niski, aby zapewnić wystarczającą anonimizację.

Jednak pełna anonimizacja również nie jest rozwiązaniem uniwersalnym, ponieważ czasami do sensownej analizy potrzebne są bardzo szczegółowe lub indywidualne informacje. Na przykład, aby zoptymalizować miejską sieć elektryczną, potrzebne są dokładne dane dotyczące lokalnych i czasowych profili użytkowania. Rozwiązanie tego dylematu między rzeczywistą ochroną danych a użyteczną analizą danych jest warunkiem wstępnym na drodze do lepszej przyszłości.