V současné době asi není problém mít "big data", ale vyznat se v nich. Jak se firmám daří využít big data?
Velká část firem má problém využít "malá data", natož aby se pouštěla do velkých dat. Reporting se stále často dělá v Excelu nebo nad malými databázemi, které vznikají po celé organizaci v různých odděleních. Navíc big data projekty jsou často řízené IT oddělením, pro které je důležité mít data pod kontrolou, se správně nastavenými přístupy a zabezpečením, takže smysluplné využití je až na druhém místě.
Na druhou stranu existuje spousta nástrojů, které i poměrně nezkušenému uživateli umožňují celkem jednoduše analyzovat velké objemy dat přímo z jeho počítače bez nutnosti znát programování. Tyto dva trendy jdou trochu proti sobě - analytici by i věděli, jak data využít, ale IT jim je nemůže nebo neumí zpřístupnit.
A kde je tedy chyba - na straně IT?
Postoj IT je legitimní - říká se, a my tomu věříme také, že data jsou nejcennějším aktivem firmy. A svá nejcennější aktiva si samozřejmě chcete chránit - nejen kvůli regulaci, jako je GDPR nebo ochrana osobních údajů, ale také kvůli konkurenční výhodě. IT tedy musí data kontrolovat a pečlivě sledovat přístupy a využití.
Na druhou stranu má IT často za úkol také data vlastnit a zpracovávat - včetně přípravy reportů a analýz pro obchodní oddělení, marketing nebo finance, a to už správně není. IT se pak typicky stává úzkým hrdlem, přes které se informace nedostávají k byznysu. Řešením může být rozdělení pravomocí - IT data spravuje a hlídá, zároveň ale vymezí uživatelům bezpečné hřiště pro vlastní analýzy, tzv. self-service analytics.
Mají uživatelé dost znalostí pro práci s daty? A jaká jsou úskalí self-service analytics?
Díky moderním analytickým nástrojům, jako je PowerBI, Qlik nebo Tableau, není problém analyzovat obrovské objemy dat v podstatě real time. Dokonce ani nebývá problém s přetížením serverů při nevhodně zadaných dotazech nebo špatně vytvořených reportech. Celá oblast self-service se zaměřuje na to, aby abstrahovala složité operace a zpřístupnila je i méně zkušeným uživatelům. Nástroje tohoto typu bývají dost intuitivní a pro základní práci (která je většinou dostačující) stačí jednoaž několikadenní zaškolení.
Problém je spíš s kvalitou dat a pak s jejich interpretací. Koncoví uživatelé daleko lépe než IT rozumí tomu, jakou informaci hledají, ale stává se, že nesprávně spojí datové soubory nebo přehlédnou chyby v datech, které pak zkreslí celkový výsledek.
Podle naší zkušenosti je nejlepší kombinace "IT/BI driven reportů" - regulatorních a mandatorních reportů, o které se stará IT nebo BI tým a ručí za jejich kvalitu a správnost - a pak "data discovery" - ad-hoc analytické reporty, které nemusí být zcela přesné, ale umožňují rychle identifikovat trendy nebo anomálie zajímavé pro byznys. Správné "data discovery" se definuje jako hledání otázek, a ne pouze odpovědí.
To se asi vztahuje i na standardní analytiku, nejen pro big data. Mění se nějak situace s big daty?
Trochu ano - ve smyslu: větší data, větší problém. Mnoho firem začalo big data projekt s cílem vytvořit "data lake" jako základnu pro pokročilé analytické úlohy a místo toho jim vznikla "data swamp" - bažina, ve které se prakticky nikdo nevyzná a získávat z ní informace je komplikovanější než v případě sice zastaralého, ale přece jen lépe organizovaného datového skladu.
Pro úspěch big data projektu je důležité k němu přistoupit i z byznys strany a nadefinovat si use cases, tj. kdo bude konečným uživatelem dat a jak s nimi bude pracovat. Zároveň je také vhodné vytvořit efektivní "data governance" - správu dat a metadat, která umožní udržovat přehled o datových zdrojích a propojit byznys a IT pohled.
Rozhovor byl publikován v magazínu ICT revue.
Přidejte si Hospodářské noviny mezi své oblíbené tituly na Google zprávách.
Tento článek máteje zdarma. Když si předplatíte HN, budete moci číst všechny naše články nejen na vašem aktuálním připojení. Vaše předplatné brzy skončí. Předplaťte si HN a můžete i nadále číst všechny naše články. Nyní první 2 měsíce jen za 40 Kč.
- Veškerý obsah HN.cz
- Možnost kdykoliv zrušit
- Odemykejte obsah pro přátele
- Ukládejte si články na později
- Všechny články v audioverzi + playlist