Pomáhá českým firmám zorientovat se v novinkách Googlu a efektivně je používat. Jeho firma AppSatori je oficiálním partnerem Googlu a díky tomu ví Ivan Kutil o trendech, které americký technologický gigant připravuje. Nástup umělé inteligence považuje za revoluční změnu naší komunikace, v rozhovoru pro HN ale zdůrazňuje, že je důležité učit se nové nástroje používat postupně. To je ostatně i strategie Googlu, který konkurenci nepředbíhá v rychlosti uvádění aplikací na trh, ale v jejich kvalitě a spolehlivosti. Klíčovým produktem je pokročilý virtuální asistent Gemini 1.5 Pro, který nabízí velké kontextové okno s milionem tokenů, což znamená, že v jedné konverzaci dokáže pracovat se zhruba 500 tisíci slovy. Do konce roku to mají být dva miliony tokenů.

Jak podle vás umělá inteligence změní náš způsob uvažování, komunikace nebo práce?

Je zajímavé sledovat, jak nás tyto nástroje učí pokládat správně otázky. Dřív jsme považovali za chybu toho druhého, když špatně pochopil, na co se ho ptáme. Velký jazykový model nás teď ale vede k tomu, abychom si uvědomili, že problém může být na naší straně. Je to takový trenažer, který může nakonec vylepšit i komunikaci mezi lidmi. Nutí nás to formulovat požadavky pomocí příkladů, protože právě na příkladech model lépe pochopí, co od něj očekáváme. Takže si myslím, že stejně jako Instagram nám změnil pohled na focení a vnímání vizuálů, tak velké jazykové modely nám změní způsob, jak vstřebáváme informace a posouváme je dál.

Když porovnám komunikaci s vámi a s umělou inteligencí, je to pořád dost velký rozdíl, protože virtuálnímu asistentovi musím vše upřesňovat a uvádět do kontextu, zatímco vy pochopíte, co chci říct, i když se vyjádřím třeba nedokončenou větou.

To je pravda a souvisí to s tím, že ten model vás nezná, nesdílí s vámi kulturní kontext, neví o vás nic, co mu přímo neřeknete. Zatím je to tak, že si pokaždé píšete s novým listem a celá komunikace vlastně začíná od nuly. Postupem času ale budou mít svoji paměť, která nebude uložena v externích databázích, ale přímo dotrénovaná v daném modelu. Takže budoucí verze už vás budou znát lépe. Může to změnit i způsob učení ve školách, protože každý žák může mít svého personalizovaného učitele, který bude vylepšovat jeho silné stránky.

Jak velkou paměť mají současné modely?

Velké jazykové modely teď mají paměť jeden milion tokenů, což je asi 500 tisíc slov. Odpovídalo by to zhruba čtyřem knížkám Osudy dobrého vojáka Švejka. Kdybych pokračoval v konverzaci v rámci jednoho chatu, model si bude pamatovat jen to, co se vejde do tohoto objemu dat. Do konce roku chce Google velikost kontextového okna zdvojnásobit na dva miliony tokenů a do budoucna má vizi, aby toto omezení vlastně neexistovalo vůbec. V tomto ohledu má Google velký náskok oproti konkurenčním modelům, které dosud nabízely maximálně 200 tisíc tokenů. Google je na rozšíření paměti připravený. Vytváří si vlastní čipy speciálně navržené pro strojové učení (takzvané TPU – tensor processing unit) a díky tomu je schopen takovou infrastrukturu zajistit.

Jaké další limity se tyto technologie snaží překonat?

Další výzvou je podle mě otázka multimodality. V současné době může být vstupem text, obrázek, audio nebo video, ale výstupem je vždycky text. Google teď pracuje na tom, aby byl schopen vytvořit z textu video nebo obrázek, aby ten výstup byl multimodální.

Umělá inteligence mnoho lidí fascinuje, ale často vlastně nevědí, k čemu by ji mohli používat. S jakými mýty a mylnými očekáváními se ve své praxi setkáváte?

Typicky se stává, že lidé přemýšlí hodně dopředu a v okamžiku, kdy jim daný nástroj nedá hned výstup, jaký si představovali, tak tu technologii zavrhnou. Řeknou si: Když to neumí udělat to, co chci, tak to nebudu používat. Přitom někdy stačí naučit se s umělou inteligencí správně komunikovat. Nebo počkat měsíc a zkusit to znovu, protože ty modely se zlepšují hrozně rychle. V řádu týdnů vznikají nové aplikace a funkce, které tu předtím nebyly.

Firmy mají strach, že jim ujede vlak, když nebudou umělou inteligenci používat. Zároveň nevědí, jak udělat první krok.

Po jakém typu aplikací je největší poptávka?

Případy využití jsou různé podle zaměření jednotlivých firem. Často lidé chtějí, aby za ně nějaký robot vytvářel prezentace, aby jim rovnou vygeneroval hotové slajdy. Nebo aby zpracoval určitý videoobsah a analyzoval v něm dané prvky. Nebo aby vytvářel nějaké články.  Především se ale setkávám s tím, že firmy mají syndrom FOMO (z anglického fear of missing out, pozn. red), tedy pocit, že jim něco unikne, když nebudou umělou inteligenci používat. Hodně se o tom tématu mluví a mnoho firem se bojí, že jim ujíždí vlak a že jejich konkurence už umělou inteligenci určitě používá. Zároveň nevědí, jak udělat první krok a chtěly by rovnou nějakou velkou věc, chtěly by používat nejpokročilejší nástroje, aby měly konkurenční výhodu. Moje zkušenost je ale taková, že tyhle technologie je třeba uvádět do praxe postupně. 

Někdy se vedou diskuse o tom, zda bude umělá inteligence samostatně přemýšlet jako člověk. Co to vlastně znamená?

Nástrojem, který používáme k přemýšlení, je náš mozek. Jenže ani u něj nedokážeme vysvětlit samotné přemýšlení. Pokud tedy nedokážeme vysvětlit naše přemýšlení, je otázkou, zda můžeme chtít vysvětlit přemýšlení nějakého stroje. Když v roce 2016 porazil AI model AlphaGo lidského hráče ve hře GO, často se zmiňuje tah 37, který byl odborníky označován jako kreativní a unikátní, a přesto by člověk takový tah nikdy netáhnul. A model se přitom učil na lidských partiích! I v hlavě máme vlastně jen určité mentální modely toho, co jsme zažili. Skládáme slova za sebou podle toho, jak jsme se to naučili. Na stejném principu fungují i modely umělé inteligence. Říká se, že tyto modely nedokážou být kreativní. Ale jak to dokážeme my? I my se přece v umění inspirujeme nějakou zkušeností. Když jsme chtěli začít létat, nejdříve jsme kopírovali ptáky. Pak jsme s pomocí naší invence zkoušeli, jak by to mohlo jít jinak. To je mechanismus, který používají i některé specializované modely, například AlphaFold, který dokáže generovat nové proteinové struktury, což výrazně posouvá výzkum v lékařství. Dá se tedy říci, že tyto specializované modely už jsou schopné něco vynalézt. Ale je to přemýšlení? Pravděpodobně ne, protože jsme jim dali úzce orientované zadání a ony jen dokážou díky své kapacitě dodat výstupy, na které by lidským zdrojům nestačil ani celý život.

S některými AI technologiemi přichází Google na trh později než konkurenční firmy. V čem se jeho strategie liší?

Pro Google je důležité mít nastavené bezpečnostní mechanismy, které se budou dodržovat. Je to etablovaná firma, která je na trhu dlouho, má miliardy uživatelů po celém světě, a proto je v tomto ohledu opatrnější. Nemůže si dovolit experimentovat jako nějaký start-up, přijít rychle na trh s novinkou a pak ji upravovat. Zároveň si Google dává hodně pozor na to, aby jeho model odpovídal „správně,“ tedy aby pokud možno nepodporoval zkreslení způsobené množstvím dezinformací na internetu. Z časového hlediska se tedy může zdát, že Google je za ostatními společnostmi pozadu. Technologicky ale rozhodně pozadu není. V poslední době Google výrazně změnil rétoriku a připravuje své uživatele na to, co přijde. Je velmi pravděpodobné, že Google už má mnohem lepší modely nebo nové služby, ale nechce je spustit ze dne na den, protože už teď existuje obrovský rozdíl mezi tím, co je možné a co lidé umí používat. Google to často úmyslně uvolňuje postupně, aby na to své uživatele naučil. Ti pokročilejší jsou samozřejmě netrpěliví, protože už vědí, jaké nástroje existují, a chtěli by si s nimi hrát. Ale pro běžné uživatele je dobré, aby se nejdřív naučili tu technologii používat a vstřebávali pokročilejší modely postupně.

Na jaké nové aplikace se můžeme těšit?

Zajímavá novinka, kterou Google připravuje, je plánovač dovolených. Vyberete si destinaci, zadáte vstupní data – například místa, která chcete navštívit, omezení nebo preference – a Google vám zpracuje kompletní plán. Vymyslí za vás, kam můžete jít na jídlo, pokud máte rádi ryby, vyhledá restauraci podle hodnocení, naplánuje vám odpolední návštěvu muzea podle jeho otevírací doby, a když si něco rozmyslíte, přeplánuje to podle vašeho zadání. Dalším trendem bude tvorba agentů, tedy virtuálních asistentů, kteří budou plnit určitou agendu a zároveň komunikovat mezi sebou. Vy pak budete mít třeba víc různých svých agentů, komunikovat s nimi a každý z nich bude mít svou specializovanou činnost.

Už teď se stává, že ve firmách nebo i veřejných institucích komunikujeme s chatboty nebo voiceboty místo živých zaměstnanců. Nemáte z lidského pohledu obavu, že nás to odnaučí zdvořilosti a empatii? Virtuální asistent nám přece poskytne stejnou informaci, i když mu za ni nepoděkujeme.

Robot může být naučený na empatické chování a tím vlastně ten laskavý tón interakce udávat. Ale umím si představit, že jednání s živým člověkem se stane určitým druhem luxusu. Když třeba budete volat do banky a požadovat kontakt s člověkem, může to časem být chápáno jako nadstandardní služba. Na druhou stranu víme, že člověk je tvor společenský a sociální interakce přirozeně vyhledává. Viděli jsme to po covidu, jak se lidé těšili na to, až se budou zase potkávat jinak než přes monitor. V tomto smyslu se nebojím, že bychom o setkávání s lidmi úplně přišli.

Brzy začne platit evropský zákon o umělé inteligenci. Jaký dopad bude mít na vaši práci a co se změní pro uživatele?

Uživatelům to přinese záruku ochrany jejich dat. Budou mít jistotu, že jejich obličej nebo hlas nebude natrénovaný pro nějaký velký model a že mu nehrozí zneužití. Z hlediska byznysu to ale samozřejmě není ideální, protože dravější ekonomiky, jako je třeba ta čínská, podobné regulace neřeší. Takže mohou mít lepší modely, kterým nebude možné konkurovat. Je to složitá otázka a povede pochopitelně k tomu, že se budeme ptát, proč tady nemáme tu a tu technologii, která ve světě funguje. A v důsledku se některé firmy třeba rozhodnou, že k nám vůbec nepůjdou, protože se nebudou chtít zatěžovat naší legislativou. Ale jak říkám, pro jednotlivce je určitě dobře, že myslíme do budoucna, hlídáme si potenciální rizika a řešíme to hned v počátku, kdy technologie vstupují na trh.

Text vznikl ve spolupráci se společností Google.

Tento článek máteje zdarma. Když si předplatíte HN, budete moci číst všechny naše články nejen na vašem aktuálním připojení. Vaše předplatné brzy skončí. Předplaťte si HN a můžete i nadále číst všechny naše články. Nyní první 2 měsíce jen za 40 Kč.

  • Veškerý obsah HN.cz
  • Možnost kdykoliv zrušit
  • Odemykejte obsah pro přátele
  • Ukládejte si články na později
  • Všechny články v audioverzi + playlist