Automatizace
Umělá inteligence prozkoumává virtuální světy, aby lépe obstála v tom reálném
Foto: Roozbeh Mottaghi a Allen Institute for AI
Během posledního desetiletí vedly pokroky v oblasti umělé inteligence, resp. deep learning, tedy hlubokého učení, spolu s vytvářením rozsáhlých a často i volně dostupných databází, na nichž se umělá inteligence cvičí a ladí (zlomovým momentem byl v tomto ohledu vznik databáze ImageNet – o ní více dále v článku), k pozoruhodnému vývoji v oblasti počítačového vidění – zcela zásadní podmínky pro to, aby umělá inteligence mohla dále sílit a vyzrávat. Tento pokrok vedl v minulých letech i k poměrně zásadní změně paradigmatu: do popředí zájmu expertů se začal dostávat tzv. embodied agent, tedy vtělený agent (jehož vnější formou je typicky robot na mnoho způsobů), který se prostřednictvím interakce se svým okolím a jeho aktivním zkoumáním učí kreativně řešit komplexní úkoly.
Vidění je stejně jako pro člověka, resp. velkou část živých tvorů, nejdůležitějším smyslem i pro agenty/roboty, a není proto divu, že se IT odborníci nechávají často přírodou inspirovat. Týká se to i umělých neuronových sítí, které se v robotice staly základem vizuálního rozpoznávání objektů. Inspirací pro ně byl zrakový systém savců, tedy struktura, jejíž základní složky byly u koček objeveny biology téměř před 60 lety. A právě její napodobení spolu se zmíněnou datovou sadou nastartovalo zhruba před deseti lety cosi, co lze nazvat dalším boomem umělé inteligence (první velká vlna zájmu o AI probíhala již v 50. letech minulého století).
Počátek nové éry
V roce 2009 vytvořila počítačová expertka z Princetonské univerzity Fei-Fei Liová spolu se svými kolegy rozsáhlou obrazovou databázi ImageNet, která zásadně změnila vývoj umělé inteligence v následujících letech. Tato datová sada se totiž velmi rychle ukázala být prubířským kamenem nově vyvinutých AI algoritmů a jejich testování na této sadě dostalo podobu každoroční soutěže o to, které algoritmy dokážou identifikovat objekty v obrázcích datové sady s nejnižší chybovostí.
„Posun paradigmatu, který iniciovala kolekce ImageNet, spočívá v tom, že zatímco mnoho lidí věnovalo a stále věnuje nejvíce pozornosti tvorbě rozhodovacích modelů, my jsme začali věnovat nemenší pozornost i vstupním datům. Data totiž mnohdy předefinují to, jak přemýšlíme o tvorbě modelů,“ uvedla Liová.
Tvorba databáze ImageNet trvala dva a půl roku. Po jejím dokončení ji tvořilo 3,2 milionu indexovaných obrázků, rozdělených do 5 247 kategorií a 12 podstromů, jako jsou obecné pojmy typu „savec“, „vozidlo“ nebo „nábytek“. Je však třeba dodat, že odborná veřejnost byla zpočátku k základní myšlence, že více dat pomůže vyvíjet lepší algoritmy, poměrně skeptická. Rychle však rozpoznala její potenciál a radikálně změnila názor. „Lidé, kteří trénovali své modely na sadě ImageNet, brzy začali s překvapením zjišťovat, že je mohou použít i k tvorbě modelů pro jiné rozpoznávací úlohy. To byl průlom jak pro neuronové sítě, tak pro strojové rozpoznávání obecně,“ uvedl Alex Berg, který se na projektu také podílel, pro internetový magazín Qurartz.
Rozhodujícím zlomem pak byla soutěž ImageNet Challenge v roce 2012 – její výsledky lze považovat za skutečný počátek boomu umělé inteligence, který dnes kolem sebe sledujeme. Tým, jejž tvořili Geoffrey Hinton, Ilya Sutskever a Alex Krizhevsky z University of Toronto, totiž přišel se zcela novou síťovou architekturou – s tzv. konvoluční neuronovou sítí (convolutional neural network – CNN nebo také Convnet) s názvem AlexNet, díky níž drtivě porazil zbytek soutěžního pole.
Dnes najdeme tyto konvoluční neuronové sítě v pokročilé robotice téměř všude – používají je například Google či Facebook a neobjedou se bez nich ani autonomní vozidla. Jsou klíčovou součástí v podstatě jakékoli technologie, která dokáže rozpoznat, co je na daném obrázku nebo v obrazové sekvenci daného videa.
Jak nejlépe napodobit zrak
Konvoluční neuronové sítě jsou kategorií umělých neuronových sítí. Jejich nejdůležitější vlastností je, že v prvních vrstvách dochází k detekci elementárních prvků obrazu, jako jsou například jeho konkrétní barevné body, okraje či vzory. Na jejich základě pak v hlubších vrstvách dochází k rozpoznávání obecnějších prvků daného zobrazení, jako jsou třeba uši nějakého zvířete nebo dopravní značky. Klíčové je, že tato síť dokáže daný objekt rozpoznat kdekoli na snímku bez ohledu na jeho polohu na trénovacích snímcích.
Rozpoznávací proces probíhá po technické stránce tak, že umělé neurony vytvářejí tzv. vážený součet vstupů, který následně určuje míru jejich aktivity (excitace) na výstupu. Váhy jednotlivých neuronových vstupů odpovídají činnosti synapsí v biologických neuronových sítích a rozhodují o tom, jak se konkrétní zkušenosti ukládají do paměti. Důležitým rysem CNN je také to, že dokážou výrazně snížit objem trénovacích dat, které jsou nezbytné k přesnému detekování objektů, tím, že pro mnoho neuronů se použijí stejné vstupní váhy, takže se tyto neurony aktivují pomocí stejného vzorce, ale s různými vstupy.
Tvorba databáze ImageNet trvala dva a půl roku. Po jejím dokončení ji tvořilo 3,2 milionu indexovaných obrázků, rozdělených do 5 247 kategorií a 12 podstromů, jako jsou obecné pojmy typu „savec“, „vozidlo“ nebo „nábytek“. Je však třeba dodat, že odborná veřejnost byla zpočátku k základní myšlence, že více dat pomůže vyvíjet lepší algoritmy, poměrně skeptická. Rychle však rozpoznala její potenciál a radikálně změnila názor. „Lidé, kteří trénovali své modely na sadě ImageNet, brzy začali s překvapením zjišťovat, že je mohou použít i k tvorbě modelů pro jiné rozpoznávací úlohy. To byl průlom jak pro neuronové sítě, tak pro strojové rozpoznávání obecně,“ uvedl Alex Berg, který se na projektu také podílel.
Svrchní vrstvy sítě jsou většinou trénovány pod dohledem a za pomoci tzv. zpětného šíření (backpropagation). Hodnoty obrazových pixelů vstupují do první vrstvy sítě a poslední vrstva sítě vytváří predikovanou kategorii. Pokud se vytvořený štítek této kategorie neshoduje se štítkem očekávaným, přepočítají se gradienty určující, jak by se váhy (tj. hodnoty v konvolučních filtrech) měly změnit, aby byla klasifikace správná. Když tento proces proběhne mnohokrát (většina těchto sítí je trénována na již zmíněné databázi ImageNet, tedy na velkém množství obrázků), vytvoří se modely, které mohou pracovat s velmi vysokou úrovní přesnosti. Sítě CNN tak dnes běžně dosahují chybovosti pod 5 %, což jsou lepší výsledky, než jakých při řešení obdobných úloh dosahují lidé.
Nová motivace
K překonání lidských rozpoznávacích schopností došlo někdy v roce 2015 a Fei-Fei Liová začala hledat novou motivaci, která by umělé inteligenci dala nový impuls směrem ke skutečné inteligenci, tedy inteligenci schopné řešit velmi různorodé a komplikované úlohy, analogické těm, které musíme každý den řešit v reálném světě.
Liová si uvědomila, že vidění u zvířat nikdy neprobíhá jen tak, ale že je vždy hluboce založeno (v angličtině embedded; odtud pak nový technický termín embedded agent, tedy agent schopný komplexně interagovat s okolím) v řadě tělesných funkcí daného tvora. Ten totiž neustále interaguje se svým okolím, protože se v něm potřebuje orientovat a pohybovat, zápasit o přežití, manipulovat s předměty nebo se zkrátka jen přizpůsobovat měnícímu se prostředí. Proto se zaměřila na zkoumání aktivnějších forem vidění. Výsledkem jejího úsilí jsou již zmínění vtělení agenti vybavení umělou inteligencí, kteří nepřijímají pouze statické obrázky z datové sady, ale mohou se pohybovat a interagovat se svým okolním prostředím v trojrozměrných virtuálních světech.
Tato interaktivita dává agentům zcela nový – a v mnoha případech i mnohem lepší – způsob, jak poznávat svět. Je to v zásadě rozdíl mezi hledáním možného vztahu mezi dvěma objekty a autonomně prováděným experimentováním, kdy agent sám způsobí, že tento vztah nastane.
Výzkumníci již dlouho snili o tom, že vytvoří když ne reálné, tak alespoň realistické virtuální světy, které vtělení agenti vybavení AI budou sami zkoumat. V posledních zhruba pěti letech se jim tento sen plní a oni tyto světy mohou opravdu budovat. Dodejme, že tyto nové možnosti se otevřely především díky inovacím v oblasti počítačové grafiky, vzešlým z filmového a videoherního průmyslu, tedy oblastí, které určují nejen nové trendy v oblasti zábavy, ale i řady technologií.
O několika zajímavých projektech v oblasti umělé inteligence, resp. embodied/embedded agents z nedávné doby si povíme v příštím článku.
NEJZAJÍMAVĚJŠÍ ČLÁNKY
Focus Automatizace Digitalizace Technologie a společnost |