Vedoucí Czech HTA oddělení Fakulty biomedicínského inženýrství ČVUT Aleš Tichopád na konferenci Zdravotnického deníku k ekonomice zdravotnictví v říjnu 2022. Foto: Radek Čepelák

Anonymita dat je relativní pojem a určuje se vždy v poměru k riziku, že se něco stane, vysvětluje Aleš Tichopád z ČVUT

Díky naší anketě, kterou jsme připravili v návaznosti na nález Ústavního soudu, se na stránkách Zdravotnického deníku často v minulých dnech objevilo téma poskytování zdravotnických dat. Co to ale vlastně v praxi znamená poskytovat data? Jaký je rozdíl mezi informacemi a daty? Jak se data anonymizují a lze anonymizovat absolutně? Jaký je rozdíl v tom, pokud o data žádá novinář, farmaceutická firma nebo vědec? A jakou mají data vlastně cenu? O tom všem jsme si povídali s Alešem Tichopádem, vedoucím Czech HTA oddělení Fakulty biomedicínského inženýrství ČVUT. V českém zdravotnictví se podle něj často objevuje extrémní výklad nařízení EU o ochraně osobních údajů (GDPR) a ochrany pacientských práv. „Jde ale o smutný paradox. Pacienti ve skutečnosti díky netransparentnosti na právech spíše strádají,“ je přesvědčený Tichopád.

Ve svém vyjádření pro anketu Zdravotnického deníku o poskytování zdravotnických dat jste důsledně rozlišoval mezi informacemi a daty. Jaký je v tom rozdíl?

Informace je něco, co zjistím na základě dat a jsem schopen sdělit několika slovy: průměrná váha novorozence je 3,3 kilogramů, riziko smrti na covid u kuřáků je dvojnásobné oproti nekuřákům, průměrný náklad na trombektomovaného pacienta s cévní mozkovou příhodou během primární hospitalizace je 220 tisíc korun. Na posledním příkladu vidíte, že už ta specifikace musí být dost podrobná, aby informace měla smysluplné uplatnění. Informace o „nákladech na pacienta s mozkovou mrtvicí“ by byla nejednoznačná. Naproti tomu data jsou strukturované a pokud možno úplné informace na úrovni jednoho konkrétního člověka – subjektu.

Abych dostal správně informaci, která se zakládá na datech, musím položit správně otázku. Musím rozumět komplexitě za tou otázkou a také tomu, jak jsou data, z nichž má být vytěžena požadovaná informace, strukturovaná, co v nich je a co není. Podle toho pak mohu očekávat, že ona informace bude více či méně přesná a správná. Pokud však mám data, mohu informaci pomocí statistické analýzy získat sám ve formě a s přesností, kterou potřebuji.

Čili to je něco, co je třeba v případné žádosti o poskytnutí informace/dat důsledně rozlišit.

Pro mě jako kvalifikovaného žadatele je určitě lepší vždy žádat o data, protože z nich si tu informaci, pokud to umím, vytěžím sám pomocí statistiky. Pokud žádám o informaci, tak bych si měl být alespoň částečně vědom toho, zda ten, koho žádám, tu informaci z dostupných dat může vytěžit, s jakou přesností a správností. A ty dvě věci, přesnost a správnost, nemusí být z různých důvodů stoprocentní. Data nemusí být kompletní, nemusí pokrývat celou republiku, mohou v nich být chyby, náhodné, systematické nebo dokonce záměrné (například při vykazování výkonů).

Jako typický příklad mohu uvést debaty o tom, kolik lidí umíralo na covid-19, zda to bylo přímo na tuto infekci, či se umíralo s covidem a jako roli v jejich úmrtí sehrála jiná nemoc. Pokud není dotaz jasně vyspecifikován, mohu dostat jinou informaci, než chci.

Jak by měl být správně vyspecifikován dotaz na úmrtí s covidem?

Mimo ty, kteří zemřeli zjevně s diagnózou covid-19 bez jiného onemocnění, se budu třeba také ptát na úmrtí lidí, kteří byli dlouhodobě těžce chronicky nemocní a tudíž v akutním riziku smrti. Ty nemoci bych měl ideálně vydefinovat. Následně pak mohu spekulovat, že pokud tito lidé zemřeli v průběhu covidu, tento na tom měl pravděpodobně jistý podíl. Tak dostanu informaci, která je vědecky validní. A i přesto zde bude nadále určitá nejistota ve výsledném údaji, neboť příčinu úmrtí nedokážeme u každého stoprocentně určit. V tomto smyslu chápu jistou opatrnost, co se poskytování zdravotnických informací týče. Protože už ze samotného dotazování může být patrné, že tazatel si jen nedostatečně uvědomuje komplexitu toho, na co se ptá. Nemám ale vůbec pochopení pro to, že se tazatel nakonec nedopídí ničeho nebo roky marně čeká na reakci a je nucen se obrátit na soud. Konstruktivní zpětná vazba poskytovatele dat nebo informací je zde nezbytná pro finální vyspecifikování dotazu nebo požadavku na data. Musí tam probíhat interakce s žadatelem.

A jak by to mělo ideálně vypadat, abych si nemusela lámat hlavu nad tím, jak formulovat dotaz?

V úplně ideálním světě by to mělo být tak, že se na data vůbec netážu, protože ona někde leží, na úrovni jednotlivých pacientů, ovšem upravená, resp. anonymizovaná do míry nezbytně nutné k tomu, aby šance, že ten, kdo si na ně sáhne, tu identitu nemohl rozkrýt za použití „rozumně předpokládatelných“ prostředků, řečeno terminologií GDPR. Anonymizovaná data totiž nejsou osobní údaje – může s nimi tedy pracovat každý. A chci zdůraznit, že pod pojmem anonymizovaná data mám stále na mysli data na úrovni jednotlivce a nikoliv agregované statistiky, například podle krajů nebo let. To nejsou data ale informace, ty samozřejmě jsou anonymní, avšak vědecky silně ochuzené a pro vědu často až bezcenné. Agregované informace by měly být poskytované bez výhrad, je-li dotaz specifický a jasný.

Někoho mohu v datech najít i náhodou

Zmínil jste rozumně předpokládatelné“ prostředky. Takže i GDPR předpokládá, že anonymizovat nelze stoprocentně?

Ano. To je ten základní princip – „rozumně předpokládatelné prostředky“. Nelze stoprocentně vyloučit, že subjekt nemůže být někdy ztotožněn, tedy že recipient bude mít nějaké další informace, třeba z jiných databází, které mu to umožní. A od tohoto předpokladu se pak odvíjí to, do jaké míry je nutné data anonymizovat. Nejrizikovější je samozřejmě vždy veřejné vystavení, tam je třeba počítat se „zloduchy“, někým, kdo chce udělat demonstrační útok. Tedy že si třeba vyhledá známou zpěvačku, která porodí dítě ve vysokém věku, a když vím, kdy to bylo, v které porodnici a kde bydlí, tak jsem schopen ji najít. Druhá taková tam nebude. A to je nejrizikovější.

Mnohem pravděpodobnější – a méně riziková – je ovšem situace, kdy tam někoho najdu náhodou. To může být případ akademického pracoviště, které pracuje s velkými data sety, opět na individuální úrovni. Co je velmi důležité zmínit je, že riziko záměrného útoků nebo spontánního ztotožnění lze do jisté míry kvantifikovat. Jsou popsány vědecké postupy a existují o tom empirické údaje. Anonymizace následně probíhá tak, že se její rozsah přizpůsobuje tomuto riziku.

Jak vypadají anonymizovaná data, která jdou na úroveň pacienta?

Záleží, o jaký typ dat se jedná a k jakému záměru budou sloužit. Vždy je jednodušší anonymizovat data pro jasně definovaný účel do rukou spolehlivého recipienta. Například když o ně žádá univerzita pro účely hledání vztahu mezi prevencí a benefitem. Naopak nejrizikovější je otevření dat veřejnosti.

Primárně se musí vždy odstranit nebo upravit přímé identifikátory – údaje ke konkrétní osobě, jako je jméno, příjmení a rodné číslo, popřípadě emailová adresa, bydliště nebo telefon. Důležité je ale také rozpoznat tzv. kvazi-identifikátory, třeba přesný věk, vzácné diagnózy nebo mimořádné zdravotnické výkony, které by mohly být úzce spojené s konkrétní osobou. Všechny tyto identifikátory se buď odstraní, pokud to neublíží záměru, nebo se mohou náhodně nebo exaktně modifikovat či generalizovat, třeba věk se zobecní na úroveň pětiletého období.

Pokud jsou data subjektu navíc rozložena na časové ose, jako je tomu například u dat o pojištěncích, mluvíme o tzv. longitudinálních datech. Těm je s ohledem na riziko ztotožnění třeba věnovat větší pozornost. Například známe spolupracovníka nebo souseda, který chodí v konkrétní dny na pravidelné kontroly k lékaři specialistovi. Přesná časová stopa může sloužit právě jako kvazi-identifikátor, který může případný stalker zneužít. I tyto longitudinální data ale lze dostatečně anonymizovat, a přitom téměř zcela zachovat jejich vědeckou hodnotu. Existují k tomu rigorózní vědecké postupy.

Do jaké míry lze tedy anonymizovat, aby to bylo bezpečné?

V principu se vždy dívám, které údaje jsou v datech natolik zřídkavé, aby charakterizovaly jednu osobu nebo jen příliš úzkou skupinu, a tím umožnily ztotožnění nebo velmi pravděpodobné ztotožnění. V tomto kontextu se asi nejčastěji jako kvazi-identifikátory zmiňují údaje o vzácných onemocněních. Takový kvazi-identifikátor v kombinaci s jiným, třeba konkrétním věkem, pak může existovat jen u jediné osoby. My ale chceme, aby všechny v datech existující kvazi-identifikátory ve svých kombinacích vedly ke vzniku stále dostatečně velkých skupin subjektů tak, aby v nich potenciální útočník ztratil stopu. Těm skupinám říkáme ekvivalentní třídy a to, jak mají být velké, záleží na tom, jak velké riziko útoků nebo náhodného ztotožnění osoby v datech je.

Můžete uvést nějaké konkrétní příklady, abychom si to mohli lépe představit?

Pokud je osoba v datech spojena s konkrétními daty návštěv, lze tyto například všechny posunout o shodné jednociferné náhodné číslo vpřed či vzad tak, aby se nezpřeházelo pořadí událostí (operace by se neměla dostat před přijetí do nemocnice). Také například nemusí být vidět, ve které nemocnici k vyšetření došlo nebo v jakém městě daný pacient bydlí. Vždy se nabízí možnost zobecnění věku do širšího intervalu. A už máme v datech místo jedné konkrétní osoby třeba čtyřicet osob stejného věku a pohlaví se stejnou diagnózou, u nichž jsou data návštěv u lékaře náhodně pozměněny, a tedy nepoužitelné pro ztotožnění.

Nebo jiný příklad – zajímají mě rodičky a porodní váhy dětí. To je jednoduchý průřezový (cross-sekční) data set (na rozdíl od lingitudinálního), data se váží k jednomu okamžiku. U průřezového data setu je anonymizace snazší. Takže bych odstranil přímé identifikátory jako jméno, příjmení a rodné číslo dítěte, pak i ty nepřímé kvazi-identifikátory jako narození matky a navíc bych děti s porodní váhou pod 2 kg v každém kraji sloučil do společné kategorie < 2. Nebo pokud k analýze potřebuji rok narození matky, tak dám dohromady data z nemocnic z celého kraje. A najednou by tam maminek, které jsou narozené v roce 1990 a současně porodily dítě 1. 1. 2023 bylo třicet namísto tří. Slídivá sousedka se tak nic nedoví o porodní váze dítěte a jeho rizicích. Co je ale zásadní, takto upravený data set by mohl být dostupný nejen odborníkům ale i široké veřejnosti, navíc se spoustou dalších hodnotných medicínských a ekonomických proměnných.

Také je možno agregovat longitudinální data sety na ty průřezové. Tím se téměř zcela eliminuje možnost identifikovat osobu na základě sekvence události a přesných dat. Tento postup tak může plně uspokojit například žadatele o data pro účely analýzy nákladu na onemocnění, což je častá potřeba farmaceutických firem v procesu žádosti o stanovení ceny a úhrady. Poskytovatel dat sečte na úrovni každého pacienta jeho celkový počet dní v nemocnici, počty balení léků, počty návštěv u specialisty atd. a samozřejmě odstraní přímé identifikátory. Data však dále neagreguje, ale poskytne je na úrovni pacienta. Žadatel si pak data vyhodnotí sám dle své potřeby.

Předpokládám, že v případě individuálních žádostí hraje při rozhodování o míře anonymizace roli i to, kdo o ně žádá.

Ano, posuzuje se rizikovost žadatele. Pokud je to univerzitní pracoviště o deseti lidech, bez známého případu fraudu na datech, nepracuje tam někdo podezřelý a není důvod předpokládat, že bude spolupracovat třeba s bulvárem, pracuje se s mírou rizika, které souvisí s náhodným rozkrytím osoby, jak jsem o tom hovořil. Náhodná identifikace osoby je vždy možná, ale dá se relativně dobře kvantifikovat a tím pádem na ni napasovat rozsah nutné anonymizace. Navíc se data často poskytují za konkrétním analytickým účelem. Při anonymizaci tak víme, které proměnné lze snadno obětovat a které ne. Lze se tedy zbavovat mnoha kvazi-identifikátorů.

Vedle tohoto rizika ale i nadále předpokládám, že hrozí riziko záměrného útoku. Zkrátka že tam někde ten darebák pracuje a bude se snažit dohledat konkrétní osobu. Musím tedy udělat kvalifikované rozhodnutí o velikosti tohoto rizika a podle toho data anonymizuji do dostatečně velkých ekvivalenčních tříd, v nichž se darebák ztratí a hledanou osobu v nich nerozpozná. Takto provedená anoynymizace je vědeckou metodou a jsem přesvědčen, že je i soudně obhajitelná. Existuje k tomu mnoho odborné literatury.

Nemůže se stát, že například při dlouhodobém výzkumu, jak postupně data přibývají, přestanou již jednou anonymizované údaje být anonymní, protože se v jedné chvíli propojí?

Ano, ohledně rizika je třeba přemýšlet také v čase. Data anonymizovaná teď nemusí být anonymní za dva roky. To se řeší například tak, že pracoviště získá požadovaná data jen na určitou dobu a smluvně se zaváže, že je pak smaže. Anonymita a ochrana osobních údajů tedy není jen technická, ale vedle toho i administrativně-smluvní záležitost. Pracoviště by také mělo disponovat postupy skladování a likvidace dat tak, aby nedocházelo k postupné kompletaci identifikátorů a kvazi-identifikátorů.

Pro výzkum potřebuji data na úrovni pacientů a v čase

Zdůrazňujete, že jde o poměrně kvalifikovaná rozhodnutí. Asi nelze očekávat, že se teď Ústav zdravotnických informací a statistiky (ÚZIS) vrhne na všechna data, která jsou v Národním zdravotnickém informačním systému (NZIS), a vyskladní je v dohledném čase do otevřených datových sad na úrovni pacienta. To je i při nejlepší vůli nereálné.

To asi ani není cesta, bylo by to příliš velké riziko. Určitě by do začátku ale stálo za to vybrat relevantní průřezová data a jednoduchými, ale spolehlivými, metodami je anonymizovat. Potom by mohla následovat data longitudinální, tam to bude náročnější, ale je to možné. Dánové to dokázali, dokážeme to také. Na ty se my analytici nejvíce těšíme a ty jsou i pravým pokladem pro hodnocení procesů a technologií.

ÚZIS již vyskladnil přes padesát datových sad ohledně covidu-19.

Tam ale nevidíte do úrovně pacienta. Takže se nebavíme o datech, ale o agregovaných informacích.

Počty nakažených, hospitalizovaných, vyléčených, provedených testů, očkovaných, úmrtí….

To je pro statistika již produkt statistické analýzy. Pro vědecký výzkum to má extrémně omezenou hodnotu. Nemohu se podívat na některé epidemiologické charakteristiky pacientů nebo třeba proléčenost pacientů, kteří byli hospitalizovaní a už vůbec nejsem schopen analyzovat, jestli některé skupiny pacientů s covidem dobře reagovaly na včasnou na léčbu třeba inhalačními kortikoidy. Přitom taková data existují a ve své době mohla být nesmírně cenná při hledání snadno dostupných léků a v boji s hoaxy. Agregované informace mají možná novinářskou hodnotu, ale jejich vědecké využití je silně limitováno. Takže já to nepovažuji za přílišný přínos. A vůbec nepovažuji za férové tomu říkat data.

Pokud chci dělat výzkum, jako je odpověď na léčbu či na určité procesní změny ve zdravotnictví, dopad očkování nebo preventivních screeningů, tak to určitě chci vidět na úrovni pacientů a v čase. Uvedu jiný příklad. Z dat na úrovni pacienta třeba vidím, jak si pacienti vyzvedávají léky. Jsem schopen z toho zjistit, že významná část českých pacientů si nevyzvedává, a tím pádem nebere léky na vysoký cholesterol tak, jak má, a dochází k neefektivní léčbě, kterou stát platí. Pokud ovšem informaci o předepsaných statinech vydám formou agregovaných informací, tedy že tolik a tolik pacientů bere ty a ty dávky statinů, agreguji to třeba podle dávky, tak se z toho o adherenci nic nedovím.

Pokud tedy ÚZIS hovoří o tom, že začne vyskladňovat data formou otevřených datových sad, o čem se tedy mluví?

To já právě úplně nevím, protože se tu nepoužívá správná nomenklatura. Dokud se nezačne mluvit o datech jako o datech a informacích jako o informacích, tak někdo začne poskytovat informace na svém webu a bude tomu říkat data. Pak se bude mluvit o open datech, které budou v podstatě koláčové grafy. Data jsou na úrovni pacienta. Tak o tom hovoří i GDPR a návrh nařízení EU o evropském prostoru pro sdílení zdravotnických dat (EHDS). V tomhle častou tápou i žadatelé o data, a snižují tak svou šanci na kladné vyřízení.

Jak to vypadá v jiných zemích, které jsou známy datovou otevřeností, jako třeba Dánsko?

Mají samozřejmě různé zdroje dat s různou mírou podrobnosti, ale data poskytují na úrovni pacientů. V Dánsku mají jakousi platformu, portál, který dává přístup do obrovské databáze, prolinkované podle určitých klíčů a já sám si nadefinuji, co hledám. Čím více dat, tím více zajímavých souvislostí najdu. Velká data přináší velké výsledky. V Dánsku si na tomto mj. vytváří image vysoce inovativní průmyslové země a láká na investice. Ne náhodou hodně úspěchů farmaceutického průmyslu je z Dánska. A podle mého je tohle něco, co by i Česku enormně slušelo.

O velmi granulární data jsme také úspěšně žádali z maďarské státní zdravotní pojišťovny NEAK. Mají jednoduché pravidlo – pokud se požadovaná data týkají skupiny, která je menší než třicet osob, tak mi je nedají. Takže třeba data k nějakým ultra vzácným orphanům nedostanu.

Zákon by měl stanovit práva a povinnosti poskytovatelů i příjemců dat

Kudy vede hranice mezi anonymizovanými a pseudonymizovanými daty?

Pseudonymní data by měla být stejně neztotožnitelná jako data anonymní, ale já, pokud jsem správce či vlastník, to dokážu, neboť mám klíč. U anonymních dat toho již schopen nejsem. Čili stejná data mohou být pro někoho pseudonymní a pro jiného už anonymní, pokud neexistuje šance, jak se ke klíči dostat. Zdravotní pojišťovna poskytne například univerzitě data, která nějak pseudonymizuje. Pojišťovna je tedy dokáže znovu navázat na pacienta, ale univerzita již ne. Pokud je smluvně zajištěno, že univerzita se nedokáže k tomu klíči dostat, tak na ně může pohlížet jako na anonymní, tedy neosobní, data. A zase jde o nějaké kvalifikované rozhodnutí, jak ty data pseudonymizuji s ohledem na míru rizika. Anonymita je relativní a určuje se vždy v poměru k riziku, že se něco stane, navíc se může měnit v čase. Osobně si navíc myslím, že to riziko by se mělo rovněž posuzovat v poměru ke společenskému přínosu. Ten je jiný při sledování podílu léku na trhu podle nemocnic a jiný u analýzy efektu antivirotika.

Na rozdíl od anonymních ale GDPR považuje pseudonymizovaná data stále za osobní údaje.

Podle GDPR je možné poskytovat pseudonymizovaná data bez souhlasu pacienta, ale musí to být explicitně upraveno zákonem. To u nás zatím není. Jde o to stanovit práva a především povinnosti jak poskytovatelů dat, tak i jejich příjemců, například aby interními prostředky zabránili a minimalizovali riziko samotného ztotožňování osob, ale i například fraudů, dezinformací, nepodložených útoků, tedy škodlivých aktivit.

Do jaké míry detailu může zákon jít, aby to bylo ještě účelné? O určitou úpravu se teď pokusilo ministerstvo zdravotnictví v připravované novele zákona o zdravotních službách, ale ta je opravdu jen velmi obecná a navíc byla podrobena značné kritice.

Mělo by se především jasně rozlišovat mezi informacemi a daty, a pak mezi anonymními a pseudonymními a průřezovými a longitudinálními daty. To jsou různé úrovně složitosti. Dalo by se třeba říct, že průřezová data lze vyskladnit jako open data pro veřejnost a ta longitudinální – s časovou stopou – by se měla řešit individuálně s ohledem na žadatele a záměr. Ta totiž nesou skutečnou informaci, tam dokážete studovat vztahy typu intervence – odpověď, ale bohužel i snadněji ztotožnit osobu.

Pak lze odlišit typy recipientů, podle míry spolehlivosti, resp. rizika útoku či zneužití získané informace. Veřejnost, výzkumné instituce, odborné společnosti, právníci nebo jiné agentury a komerční subjekty, jako jsou farmaceutické společnosti nebo výrobci zdravotnických prostředků, se budou lišit co do záměru, tak i v rizikovosti zneužití nebo více či méně záměrné dezinterpretace dat. Firmy mohou mít naprosto legitimní zájem žádat čísla například k čerpání zdrojů u léčby pro farmakoekonomické účely. Jiné to ale bude v případě agentur analyzujících data pro čistě marketingově-prodejní účely, například pro lepší cílení komunikace na vybrané nemocnice. Vlastně jakékoliv porovnávání poskytovatelů zdravotní péče je velmi citlivé téma a anonymizace by měla být zvažována proti společenskému zájmu i v této proměnné.

A co veřejnost?

Tam jsou rizika relativně nejvyšší. Může to být soukromý badatel, novinář nebo i paranoidní kverulant vyzbrojený právníky, který se rozhodne se takto bavit. Mezi nimi se může skrývat útočník s potenciálem demonstrativního útoku na nějakou známou, jiným nepodobnou osobu, jak jsem o tom již mluvil. Veřejnosti bych asi hned neposkytoval longitudinální data formou open dat, pouze ta průřezová. U longitudinálních dat je totiž anonymizace do značné míry vytvářená na míru účelu. Prakticky je nelze zobecnit.

Proč?

Práce s longitudinálními daty je náročná statistická disciplína a měla by vycházet z nějaké hypotézy a mít jasný cíl. Tomu se pak podřídí způsob anonymizace. Rozhodně by to nemělo by tak, že se v těchto velmi citlivých datech prostě jen brouzdáme a něco tam hledáme. U širší veřejnosti nepředpokládám doménovou znalost a ani větší zájem na těchto datech něco ušlechtilého dělat. A pokud už to bude chtít třeba nějaký datový novinář, může se spojit s univerzitou, vyhledat odbornou skupinu, která tomu rozumí. Tím se zajistí erudovaný přístup a eliminuje riziko, že novinář dostane do ruky nějaký blud, a tím dojde k nějaké zjevné dehonestaci pracoviště, dezinformacím o léčbě, prevenci atd. Bezpochyby je tu dost zájemců, kteří by v datech dokázali dohledat dílo iluminátů.

Takový zákonný rámec by byl vlastně základním seznamem důvodů, proč nějaká data někomu neposkytnout, jak o tom mluví i Ústavní soud.

Spíše bych řekl, jak data někomu poskytnout, ale s náležitou mírou anonymizace. To může být jakási tabulka se stupnicí podle míry detailu dat a míry rizika v rukou různých typů žadatelů. Nic složitého. A někde by se řeklo, že míra anonymizace bude stanovena dle konkrétního účelu.

Pomohly by společné doporučené postupy

Připusťme, že už takový zákonný rámec existuje. I tak se bude stále jednat o poměrně kvalifikované rozhodnutí, které by se asi mělo řídit nějakými společnými doporučenými postupy?

To určitě ano. Metodiky existují, svoje postupy má USA nebo v Evropě třeba Německo. Za zmínku stojí rozhodně americká HIPAA (Health Insurance Portability and Accountability Act) z roku 1996. Jsou i volně k dohledání na internetu. Je to obor, který se velmi rychle vyvíjí. A subjekty poskytující data by měly mít minimálně jednoho poučeného experta, který dokáže posoudit onu míru rizika a určit podle toho i úroveň anonymizace.

Měl by se tedy někdo chopit vzniku takových doporučených postupů i v Česku? Kdo?

Ideální by asi bylo, kdyby vznikla nějaká mezioborová pracovní skupina, zřejmě pod ministerstvem, kde by o tom diskutovaly různé osoby s různými pohledy. Zástupci lékařů, pacientů, farmaceutického průmyslu či akademických výzkumných pracovišť. Nejprve by ale bylo nutné si vyjasnit základní pojmosloví. Teď ho každý používá jinak. Navíc je tu poměrně častý extrémní výklad GDPR a ochrany pacientských práv. Tady jde o smutný paradox. Pacienti ve skutečnosti díky netransparentnosti na právech spíše strádají. Ale obávám se, že o anonymizaci jako cestě k datům tady zatím mluvím sám.

Nemůže v případné neochotě data poskytovat hrát roli i to, že daná instituce jednoduše neví, jak na to?

Ta neochota může vyplývat ze souhry více důvodů. Prvním může být nejistá definice toho, co žadatel chce, spojená automaticky s rizikem, že poskytnu informaci, která není správná nebo dokonce zavádějící, a bude využita a komunikována dále zavádějícím způsobem. Viz snahy různých skupin a jejich právních zástupců využít hysterie kolem covidu a případných nežádoucích účinků vakcín. Nebo to může být i nevinný neznalý dotaz typu: kolik stojí pacient s Guillainův–Barrého syndromem na léčbě? Ale má to být za celý život, akutně, před diagnózou, po diagnóze? Takový dotaz se neobejde bez dalšího kontaktu se žadatelem a bez upřesňování dotazu, tedy bez shovívavosti, vůle a ochoty vyhovět v celospolečenském zájmu.

Druhý důvod může být naprosto zištný, ne každá neprosvícená neefektivita musí nezbytně vadit. Nemyslím si ale, že tohle je dominantní motivace neposkytovat data. Třetím je pak ona obava z ohrožení práv na ochranu soukromí, kdy není úplně jasné, do jaké míry mám ta data modifikovat a snížit jejich informační hodnotu, abych eliminoval riziko, které hrozí. K tomu už potřebujete expertízu.

Kam všude se vlastně může zájemce o zdravotnické informace obrátit? Primárně asi na ÚZIS kvůli NZIS, kde jsou shromážděna data ze všech zdravotních pojišťoven?

Je otázkou, zda by to mělo jít jen takhle přes jednu instituci. Jestli těch „trusted bodies“, jak o tom mluví i návrh EHDS, tu nemůže být více, třeba univerzita, která může fungovat na pomezí zdravotní pojišťovny jako garant metodiky anonymizace. Riziko útoku na osobní informace v podobě osoby s nekalým úmyslem nemusí sedět jenom venku, může být i pod hodně velkou lampou. Obzvláště, když se tam všechno spojuje a hromadí. Nemyslím, že musíte všechno pořídit v jednom obchodě.

Ale jinak ano – pokud chci data ze zdravotních pojišťoven, tak je logické obracet se na ÚZIS, tedy na jedno a nikoli sedm míst. Pak tu ale máme také data z individuálních registrů, i když tam můžeme mít pochyby o jejich kvalitě a úplnosti, jestli všechna zapojená pracoviště vyplňují stejně poctivě.

A co poskytovatelé, třeba nemocnice?

Ano, také, tam by šly žádosti přes stošestku. Ty ale mohou mít kapacitní problém, pokud byste například žádala o longitudinální data. Nemocnice je primárně poskytovatel péče, nikoli dat. Ale zase – mohou se domluvit s nějakým externím subjektem, který to udělá za ně.

Mělo by se za poskytnutí dat platit? Současný zákon o zdravotních službách to předpokládá.

Mělo by to být hrazené. To je jako se zdravotní péčí, data mají svou hodnotu a i k tomu zpracování potřebujete nějaké know-how. Méně by to stálo u průřezových dat, více u těch longitudinálních. A pokud vytvářím anonymizovaný longitudinální datový set se stovkami tisíců subjektů za deset let, může se to pohybovat i v horních desítkách nebo stovkách tisíců korun. Tohle je ale asi hodně o mém vlastním subjektivním vnímání skutečné hodnoty dat.

Helena Sedláčková