Generativní AI, rizika pro ochranu údajů a jak jim předcházet

Co to vlastně je generativní umělá inteligence (AI), jak pracuje, co umí a co neumí? Jaká jsou její rizika obecně a pro ochranu osobních údajů zvláště?

Vznik tzv. generativní umělé inteligence („GenAI“) je dalším technologickým stupněm systémů pracujícími s daty. Systémy GenAI se prostřednictvím strojového učení ze zdrojových dat učí pracovat s tzv. vstupními daty, neboli daty vloženými uživatelem systému GenAI, a na jejich základě vytvářejí nová (původní/originální) data.

Poradenská společnost McKinsey ve svém nedávném průzkumu odhaduje, že dopad užití systémů GenAI na produktivitu uživatelů těchto systémů (včetně B2B segmentu) by mohl přinést roční růst globální ekonomiky o 2,6 – 4,4 trilionů amerických dolarů.

S rostoucím využíváním systémů GenAI roste i nutnost řešit otázky rizik souvisejících s ochranou osobních údajů. Evropská unie pracuje na samostatné regulaci, AI Actu, která některé otázky vyjasní.  AI nástroje ale na regulaci nečekají a jejich využití strmě roste. Proto je vhodné popsat si alespoň ta hlavní rizika z pohledu ochrany osobních údajů. 

Co je GenAI?

Zjednodušeně řečeno, GenAI je kategorií systémů umělé inteligence využívající složité algoritmy strojového učení, která slouží ke generování obsahu napodobujícího lidskou kreativitu. Typickými příklady je psaní textů, skládání hudby, malování obrazů či vizualizací, příprava prezentací atd.

Typy systémů GenAI

Na trhu existuje aktuálně několik typů systémů GenAI, které slouží různým účelům a tvoří součást kreativních aplikací. Patří mezi ně nástroje pro:

  • generování textu (např. ChatGPT, Google Gemini);

  • generování obrázků (např. Dall.E 2, Adobe Firefly);

  • generování hudby (např. AIVA, Soundful);

  • generování videa (např. Gen-1 Runway, Invideo);

  • generování hlasu (např. AI Voice Cloning Generator – ElevenLabs); a další

Fungují tak, že generují odpovědi na příkazy (tzv. prompt) poskytnuté uživatelem. Systém GenAI bere při generování odpovědi (výstupu) v potaz výsledky předchozího zadání a algoritmy, které systému dále umožňují vytvořit kontextově relevantní a koherentní text, obrázek nebo jiný výstup. Generované odpovědi jsou založeny na vzorcích a informacích získaných během procesu učení systému GenAI, což systému umožňuje generovat kreativní výstupy založené na požadavku uživatele a obsahu uživatelem vložených vstupních dat.

Rizika spojená s GenAI

Užití systémů GenAI může představovat následující rizika pro ochranu osobních údajů:

  • Porušení zabezpečení osobních údajů: Pokud ten, kdo GenAI nástroj využívá, nepřijme odpovídající technická a organizační opatření k ochraně osobních údajů, může docházet k neoprávněnému přístupu či sdílení osobních údajů zpracovávaných v systému GenAI. Např. velké jazykové modely (tzv. LLMs) se učí na trilionech slov napříč jazykovým spektrem. 

  • Nedostatečná anonymizace údajů: Systémy GenAI mohou pro: (i) učení svých modelů; a/nebo (ii) generování výstupů využívat osobní údaje, včetně zvláštních kategorií osobních údajů. Pro zvýšení efektivity učení modelu mohou být využívána tzv. syntetická data umožňující učení modelu na uměle vytvořených datasetech (neobsahujících osobní údaje).

    Užití skutečných osobních údajů pro učení modelu bez dostatečné anonymizace představuje riziko, že model do generovaného výstupu promítne obsah zdrojových dat, včetně osobních údajů. V rámci B2B segmentu uživatelů může mít takové pochybení poskytovatele systému GenAI za důsledek, že se uživatel systému stane správcem osobních údajů (čl. 24 GDPR) promítnutých v generovaném výstupu a ponese s nimi související povinnosti správce (srov. čl. 6, 9, 13 a násl. GDPR). To však platí jen v případě, že uživatel systému GenAI bude tyto výstupy obsahující osobní údaje neoprávněně zpřístupněné poskytovatelem systému, nadále využívat (zpracovávat) pro své vlastní účely.

  • Zákonnost a transparentnost zpracování: Pokud provozovatelé systémů GenAI v rámci datasetů určených pro učení modelu a uživatelé ve vztahu ke vstupním údajům nezbytným pro generování výstupů, nedisponují dostatečným právním základem pro zpracování údajů či neposkytují dostatečně transparentní informace subjektu údajů (např. rozsah shromažďovaných údajů, účely zpracování, sdílení se třetími stranami apod.), dochází k porušování práv subjektů údajů a ztrátě důvěry v daný systém GenAI. 

  • Neadekvátnost uchování osobních údajů, neoprávněné sdílení údajů s třetími stranami a ovlivněné/diskriminační výstupy ze systému GenAI lze zařadit mezi rizika související s užitím zdrojových dat určených pro účení modelů a s nimi souvisejícími generovanými výstupy.

Jak chránit osobní údaje při využití GenAI?

Systémy a nástroje GenAI budou v mnoha případech po uživatelích vyžadovat přístup k údajům, včetně osobních údajů či zvláštních kategorií osobních údajů. Společnosti užívající systém GenAI z pozice zákazníka nesmí zapomenout přijmout nezbytná organizační opatření pro ochranu svých osobních údajů, ať už jsou jimi osobní údaje zaměstnanců společnosti, jejích obchodních partnerů či klientů.

Typickými opatřeními jsou:

Smluvní záruky a garance: Poskytovatelé systémů GenAI v praxi obvykle zaručují, že: (i) jejich systém GenAI nebude užívat osobní údaje zákazníků pro učení systému; (ii) systém GenAI je poskytován v souladu s právními předpisy na ochranu údajů; (iii) výstupy ze systému GenAI neobsahují osobní údaje; či (iv) užitím systému nedojde k porušení práv třetích osob (zejména ve vztahu k problematice autorského práva); apod.

Sandbox/testování systému GenAI: Existují-li pochybnosti o zákonnosti zpracování údajů v rámci systému GenAI, může společnost přistoupit k testování systému GenAI v rámci kontrolovaného omezeného provozu, tzv. sandboxu, nebo v omezeném pilotním provozu. V obou případech je vhodné nastavit interní podmínky pro využití daného nástroje a sledovat jejich dodržování.

Užití systému GenAI pro komerční účely:  Obdobně jako v případě sandboxu budou společnosti nuceny přijmout dodatečná opatření pro pokrytí rizik (souvisejících mimo jiné s vypořádáním autorských práv ke generovanému výstupu a ochranou osobních údajů obsažených ve vstupních datech) v případě komerčního užití systému GenAI, tj. zejména: (i) sjednat si dostatečné smluvní záruky s poskytovateli systémů GenAI; a (ii) implementovat interní postupy, procesy, kontroly, školení zaměstnanců pro mitigaci interních rizik.

Systémy GenAI a pověřenec pro ochranu osobních údajů

Jaká témata, otázky a výzvy přináší stále se rozšiřující využití systémů GenAI pro pověřence pro ochranu osobních údajů? Zejména v organizacích, které tyto systémy nasazují nebo o jejich využití reálně uvažují?

  • GDPR compliance: Bez ohledu na komplexnost systémů GenAI a jejich implementaci do struktury a obchodního modelu společnosti, je hlavním úkolem pověřence (DPO) zajistit, že veškeré zpracování osobních údajů prostřednictvím systému GenAI probíhá v souladu s GDPR, popřípadě dalšími právními předpisy na ochranu údajů.

  • Data Governance: DPO hraje hlavní roli v nastavení procesů kombinujících ochranu údajů (data protection) a strategickou správu dat (data governance).

  • Data Flow/Vstupní data: DPO musí mít povědomí a poskytovat společnosti poradenství o osobních údajích, které lze a nelze zpracovávat prostřednictvím systému GenAI.

  • Vývoj GenAI: DPO by měl sledovat vývoj GenAI a přizpůsobovat interní postupy a poradenství novým rizikům, které souvisí s technologickým vývojem umělé inteligence.

  • FRIA vyhodnocení rizik: S blížící se regulací umělé inteligence prostřednictvím AI Actu bude rolí DPO potenciálně přispívat k vyhodnocení rizik systému GenAI – Fundamental Rights Impact Assessment (FRIA), jehož cílem je obdobně jako v případě Posouzení vlivu na ochranu osobních údajů (DPIA) ve vztahu k osobním údajům, posoudit rizika vyplývající z použití systému umělé inteligence pro společnost. Z praktického pohledu bude možné provést vyhodnocení rizik FRIA a DPIA v rámci jednoho společného posouzení a rovněž využití zkušeností a znalostí pověřence s tímto způsobem řízení rizik.    

Vliv dozorových úřadů na faktickou regulaci GenAI

Stěžejní roli v regulaci GenAI v současné době hrají dozorové úřady pro ochranu osobních údajů. Vzhledem ke zvyšující se míře užívání systémů GenAI (a umělé inteligence obecně) přistoupily dozorové úřady v rámci plnění úkolů a výkonu svých pravomocí ke kontrolám týkajícím se zpracování osobních údajů v systémech GenAI, či přijaly lokální strategie a přístupy pro vypořádání se s technologickým rozvojem AI. Například francouzský dozorový úřad CNIL jako první zřídil specializované oddělení na problematiku AI v EU.

Aktuálně jsou známa pouze nápravná opatření přijatá vůči OpenAI (ChatGPT) v Itálii a v Jižní Korei. Italský dozorový úřad (Garante) vydal 30. března 2023 nouzový příkaz k zákazu zpracování osobních údajů [čl. 58 odst. 1. písm. f) GDPR] společností OpenAI v Itálii. Důvodem bylo potenciální porušení GDPR ve vztahu k zákonnosti, transparentnosti, uplatnění práv subjektu údajů, zpracování osobních údajů dětí a ochrany údajů. Garante zákaz o měsíc později zrušil, jakmile OpenAI oznámila změny implementace požadavků dozorového úřadu. Vyšetřování však stále probíhá.

Evropský sbor pro ochranu osobních údajů (EDPB) v návaznosti na vydání příkazu italským dozorovým úřadem vytvořila EDPB dne 13. dubna 2023 pracovní skupinu na „podporu spolupráce a výměny informací“ ve vztahu k vyřizování stížností a vyšetřování OpenAI a ChatGPT na úrovni EU.

Vyšetřování některých provozovatelů AI nástrojů však probíhají dále i v Kanadě, Španělsku, Polsku, Japonsku a Spojených Státech.

Až do konečného přijetí AI Actu, vyjasnění všech pravidel a určení úřadů, které budou jejich dodržování kontrolovat, je důležité pečlivě sledovat aktivity a závěry dozorových úřadů pro ochranu osobních údajů. Ty totiž aplikují už existující regulaci, GDPR, kterým se musí řídit každý, kdo GenAI systémy hodlá využívat.

článek je převzat z gdpr.cz

Chcete získat dárek k narozeninám?