Byl to zřejmě největší podvod v australských dějinách: Firma Firepower prodávala řidičům zázračnou pilulku. Podle reklamy ji stačilo vhodit po natankování do nádrže auta a jeho spotřeba rázem klesla. Snížil se obsah škodlivin ve výfukových plynech, zvýšila se životnost i výkon motoru. Na průhledný trik se nenachytali jen prostí lidé, ale také politici a ministerští úředníci v Canbeře, Londýně, Moskvě či Bukurešti. Podvodníci si přišli na desítky milionů dolarů.

Když se skandál před pěti lety provalil, začali detektivové zkoumat, kdo na podfuku vydělal nejvíc. Stopy je však dovedly jen k anonymní společnosti Firepower Holdings Group Ltd registrované na Britských Panenských Ostrovech. Za mizivý administrativní poplatek si ji může v jednom z desítek "daňových rájů" zaregistrovat kdokoli. Zařídit se to dá i přes internet a na počkání. Příjmy, které se superbohatí celého světa snaží skrýt před zdaněním či před zákonnou kontrolou, dosahují podle loňské zprávy britské organizace Tax Justice Network ročně 21 trilionů (tedy milionů milionů) dolarů, byť ne všechny pocházejí z kriminální činnosti.

Daňové ráje - mapa

Daňové ráje vyhledávané nejčastěji českými firmami

Mezi novináři, kteří se o případ zázračné australské pilulky pro automobily zajímali, byl i Gerard Ryle. Tehdejší zástupce šéfredaktora deníku Sydney Morning Herlad je dnes šéfem Mezinárodního konsorcia investigativních novinářů (ICIJ) se sídlem ve Washingtonu. Ze všech pátračů byl nejtrpělivější a nakonec i nejúspěšnější: o kauze Firepower napsal sérii článků i knihu a nakonec se mu podařilo odhalit jména a propojení mezi 130 tisíci lidmi, kteří své majetky v daňových rájích schovávají. A také dvanácti tisíc bílých koní a zprostředkovatelů, kteří se schováváním peněz před policií a daňovými úřady zabývají na plný úvazek. Výsledky zveřejnila média zapojená do pátrání minulý čtvrtek.

Prosít gigabajty hlušiny

Nejrozsáhlejší systematické pátrání v dějinách datové žurnalistiky odstartoval anonymní zdroj, který před rokem poslal Ryleovi poštou balíček s harddiskem plným výbušných informací. Celkem na něm bylo 260 gigabajtů dat. To je v hrubém objemu stošedesátkrát víc než všechny tajné zprávy, které unikly v roce 2010 z amerického ministerstva zahraničí při aféře WikiLeaks. Na rozdíl od diplomatických kabelogramů byla data tentokrát extrémně “špinavá”, tedy plná chyb, chybějících částí a bez jasné struktury, která by umožnila se v nich snadno zorientovat a vybrat z nich to nejzajímavější.

Kdybychom 260 gigabajtů dat jednoduše přepočítali na normostrany, dojdeme k ohromujícímu číslu 155 milionů stránek. Musíme ovšem odečíst prostor, který zabrala metadata a také zhruba 40 procent duplicitních informací. I tak zbylo novinářům k prozkoumání přes dva miliony e-mailů a půl milionu dalších souborů: naskenované smlouvy a účtenky, fotografie, texty i webové stránky.

Analyzovat takové množství informací není v silách jednotlivce, ani žádné redakce. Ryle proto se spolupracovníky vytvořil síť 86 investigativních reportérů, datažurnalistů a programátorů ve 46 zemí. Propojil je pomocí zabezpečného komunikačního programu a dal se s nimi do mravenčí práce, která nakonec trvala celý rok.

Nejprve bylo nutné ručně projít vzorek několika tisíc dokumentů a z nich zjistit, na které státy se má zaměřit další pátrání. Tuto práci odvedli spolupracovníci ICIJ na Novém Zélandu a jejím výsledkem byl seznam 46 států, v nichž ICIJ oslovil spolupracovníky pro další pátrání. Česká republika v něm není, proto se žádné české médium do projektu nezapojilo.

Software nejen pro tajné služby

Při analýze takového množství informací nelze postupovat nahodile. Tým investigativců potřeboval software typu FTR (“free text retrieval”), který umožňuje v kvantu dat napříč různými druhy souborů nacházet styčné body (například shodná jména lidí, názvy firem, adresy či jiné opakující se vzorce). Podobný software využívají tajné služby, čím dál častěji ale také velké korporace, když už se nedokážou vyznat ve spleti dat, jež jejich zaměstnanci shromažďují.

Pátrající novináři si pro tento projekt vybrali americký dtSearch a australský NUIX. Druhý jmenovaný také proto, že jim výrobce poskytl coby neziskové organizaci několik licencí zdrama – pro komerční použití může cena za podobný systém dosáhnout několika milionů.

Program nejprve projde všechny textové a na text převoditelné informace a podobně jako vyhledávače na webu je “indexuje”, tedy vytvoří databázi všech v nich obsažených slov i čísel. Díky ní je pak možné v mase dat bleskově vyhledávat a nacházet styčné body nebo vytvářet kupříkladu časové osy různých typů událostí.

“Zní to komplikovaně, ale v jádru jde stále o hledání odpovědi na jednu z klíčových otázek investigativních novinářů: Kdo co věděl a kdy?” vysvětlují autoři projektu.

Pro další čištění a čtení dat potom vyvinuli němečtí, britští a kostaričtí programátoři spolupracující s konsorciem několik dalších  nástrojů. Tím hlavním je zabezpečená on-line databáze Interdata, v níž mohou všichni spolupracovníci prohledávat všechny dokumenty získané z harddisku, který Gerard Ryle před rokem našel v poště. Všichni, kdo na projektu spolupracovali, v ní za rok provedli 28 tisíc vyhledávání a stáhli si z ní 53 tisíc dokumentů.

Mugabe i zubaři

"Každý do ní nejdřív zkusí zadat jméno svého prezidenta. Potom pár politiků, byznysmenů, bývalé prezidenty – všichni jsme si touto fází prošli," řekla serveru Nieman Journalism Lab Ryleova zástupkyně Marina Walkerová Guevarová. Touto metodou se sice podařilo odhalit několik zajímavých jmen jako je prezident Zimbabwe Robert Mugabe nebo vdova po filipínském prezidetnovi Imelda Marcosová, hlavním zjištěním datové analýzy byl ale širší trend: "Vedle obvyklých podezřelých jde o stovky tisíc běžných občanů – například amerických doktorů či zubařů. Pochopil jsme, že využívání daňových rájů je daleko rozšířenější než jsme si mysleli. Majetky si do nich neukrývají jen zločinci či zkorumpovaní politici, ale velké množství obyčejných lidí, kteří mají pocit, že v jejich vlastní zemi nejsou jejich peníze v bezpečí. Rozšířené je také ukrývání majetků před vlastními manžely či manželkami," vysvětluje Walkerová Guevarová. 

Komplikovaná vlastnická struktura, do níž schoval rodinný majetek třetí ze čtyř manželu Brigitte Bardotové, fotograf, režisér a sběratel umění Gunter Sachs

Komplikovaná vlastnická struktura, do níž schoval rodinný majetek třetí ze čtyř manželu Brigitte Bardotové, fotograf, režisér a sběratel umění Gunter Sachs. Zdroj: interaktivní grafika na icij.org

Přečíst nečitelné kopie

Obrovskou technickou překážkou, kterou tým novinářů zdolal, byly desítky tisíc naskenovaných smluv, memorand či osobních dokladů. Aby bylo možné firmy a jednotlivce v nich zmíněné spolehlivě identifikovat, museli desítky tisíc takových dokumentů projít procesem zvaným OCR (“optical character recognition”), při němž si počítač “prohlíží” slovo po slovu a písmeno po písmenu celý naskenovaný dokument a pokouší se je převést na digitální text, v němž je možné vyhledávat.

Další na míru vyvinutý software potom v naskenovaných dokumentech hledal další shody v názvech firem, států, datech a jménech osob – a to i v případě, že v nich byly překlepy nebo byly kopie nekvalitní a části textu v nich chyběly. Podařilo se tak odhalit další desítky tisíc cest do daňových rájů.

Očekávání a rozčarování

Když se programátorům po mnoha měsících práce podařilo zrekonstruovat jednu z poškozených databázi, jež byly na harddisku také uloženy, doufali, jsou jen krok od cíle. Databáze měla obsahovat jména skutečných vlastníků anonymních firem a účtů. Když všaknovináři začali do vyhledávacích políček psát jména politiků či miliardářů, čekalo na ně rozčarování: Položka “skutečný vlastník” byla většinou prázdná, případně obsahovala jen jména bílých koní a zprostředkovatelských firem. “Prázdná políčka nebyla chybou v systému, byl to záměr jeho tvůrců,” konstatují autoři největší dosud provedené analýzy dat pro novinářské účely.

Přesto se nakonec v mnoha případech podařilo strukturu firem a prostředníků osvětlit. A když ne, novináři alespoň obecně popsali dosud neznámé druhy neprůhledných vlastnických struktur a metod ukrývání majetku. Může se jim to hodit při dalším pátrání v rychle se rozrůstajícím světě velkých a důležitých dat.