Věda a inovace
Umělá inteligence hledá své tělo
Foto: Agrim Gupta
Následujícími řádkami volně navazujeme na článek, v němž jsme se pokusili velmi stručně popsat vývoj umělé inteligence, resp. jeho zlomové momenty, v posledních zhruba dvou desetiletích. V současnosti je jedním z jeho nejsilnějších proudů výzkum v oblasti tzv. vtělené inteligence/kognice (embodied intelligence/cognition), resp. vtělených agentů (embodied agents). Ve zmíněném článku jsme naznačili, jaké pohnutky experty na umělou inteligenci k tomuto zaměření vedly, a nyní se pokusíme přiblížit, v jaké fázi se jejich výzkum aktuálně nachází.
Inspirací vědcům byla v nemalé míře přírodní evoluce. Ta za posledních zhruba 600 milionů let na Zemi vytvořila velmi rozmanité formy života, z nichž celá řada vykazuje pozoruhodné rysy vtělené inteligence na základě toho, že využívá své specificky vyvinuté morfologie k učení se složitým úkolům. Právě to je předmětem studia „vtělené inteligence“, které předpokládá, že inteligentnímu chování se mohou rychle naučit právě ti „agenti“, jejichž morfologie je dobře přizpůsobena jejich životnímu prostředí. To je poněkud odlišný směr úvah, než jakým po řadu let kráčel hlavní proud výzkumu umělé inteligence, soustředěný především na zkoumání kognitivních funkcí oproštěných od těla, ať už byl doménou výzkumu jazyk, senzorika – především pak vizuální vnímání –, nebo herní dovednosti.
Hlavním cílem výzkumu v oblasti vtělené kognice je dokázat vysvětlit to, jak na sebe mysl, tělo a svět vzájemně působí a vzájemně se ovlivňují směrem ke kompetitivní adaptabilitě celého „organismu“. Důležitou roli v počátcích tohoto výzkumu sehrála Esther Thelenová, která se mimo jiné zabývala vývojem základních sensomotorických akcí. Již v roce 1994 si položila základní otázku: Jak se může někdo naučit to, o čem neví, že se to může naučit? Je tedy třeba specifikovat úkoly a cíle učení? Potřebuje dítě znát, co se má naučit, aby se to naučilo? Ve svém výzkumu Thelenová následně prokázala, že dítě dokáže objevit obojí: úkol i řešení skrze prozkoumávání svého okolí. Spontánní pohyb totiž vytváří jak úkoly, tak i příležitosti pro učení se tomu, jak tyto úkoly řešit. Tyto „nízkoúrovňové“ akce a pohyby jsou tedy chápány za nezbytné pro vývoj vyšších kognitivních schopností.
Inteligenci se daří tam, kde je to složité
V poslední době se v oblasti vtělené inteligence objevilo několik významných odborných prací, které stojí za pozornost i širší veřejnosti. Jsou to práce zaštítěné velmi renomovanými osobnostmi výzkumu v oblasti AI, takže o jejich významnosti není třeba pochybovat. Jednou z těchto prací je koncept s názvem Deep Evolutionary Reinforcement Learning (DERL), na jehož vývoji se podílí i již v minulém článku zmíněná Fei-Fei Li ze Stanford University. Ta se se svými kolegy Agrimem Guptou, Silviem Savaresem a Suryou Gangulim snaží objasnit některé principy řídící vztahy mezi komplexností prostředí, tělesnou morfologií a procesem učení se.
Silnou stránkou tohoto výzkumu je především to, že vytváří rámec umožňující nacházet paralelně různá morfologická řešení daných úkolů. AI agenti s různě vyvinutými morfologiemi se učili zvládat náročné lokomoční a manipulační úkoly ve složitých trojrozměrných prostředích. Museli vyřešit sadu osmi úloh rozdělených do tří domén, v nichž se testovala jejich hbitost (museli provést jednoduchou obhlídku terénu, dostat se co nejrychleji k určenému cíli, překonávat překážky a detailně prozkoumat terén), stabilita (únik a odklon od počátečního směru) a schopnost manipulace s předmětem (přesun krychle a koule na určené místo), tedy schopnosti zcela zásadně morfologicky podmíněné. Agenti se přitom každý úkol učili úplně od začátku, čímž bylo zajištěno, že rozdíly ve výkonu byly způsobeny právě výhradně rozdíly v jejich morfologiích.
Výzkum tak přesvědčivě ukázal, že složitost prostředí podporuje evoluci morfologické inteligence kvantifikovanou jako rostoucí schopnost učení se (mnoha) novým úkolům. V evolučních simulacích navíc rychle vítězí ty morfologie, které se učí rychleji, takže chování naučené v životě raných předků až relativně pozdě se u potomků dostává ke slovu již v rané fázi jejich života.
Učit se bez dozoru
Zmínili jsme již, že jedním z hlavních motorů vývoje AI je pokrok dosažený v oblasti strojového vidění. Tento obor se v nedávné době rozvinul do podoby tzv. internetového počítačového vidění, kde se výzkum a vývoj zaměřují na tvorbu trénovacích modelů v obousměrné interakci s internetovými daty. Tyto modely, založené na tzv. učení se pod dohledem (supervised learning), dokážou poměrně dobře klasifikovat, detekovat a segmentovat objekty v obrázcích na internetu. Tím však vyvstává vcelku logická otázka, zda je třeba v případě autonomních vtělených agentů začít znovu od nuly a shromáždit pro ně podobně rozsáhlé datové sady, na jejichž základě je bude možné „oživovat“, nebo zda půjde nějakým způsobem navázat na úspěchy dosažené v internetovém počítačovém vidění aplikovaném na poli supervised learning.
Odpověď na tuto otázku se snaží dát výzkum, o kterém byl v nedávné době publikován odborný článek a jenž nese název „SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency“. Jde o dílčí výsledek spolupráce týmu vědců z prestižních amerických akademických pracovišť Carnegie Mellon University, University of Illinois a University of California a ze společnosti Facebook AI Research. Jejich simulační koncept pracuje s AI modelem vnímání, který je trénován na internetových obrázcích (o tomto tématu jsme psali podrobněji v minulém článku), aby se tak připravil na aktivní, resp. autonomní průzkum trojrozměrného terénu. Díky tomuto aktivnímu průzkumu pak zpětně dochází k vylepšování samotného modelu vnímání.
Na základě tohoto dvoufázového procesu vědci vytvořili 3D sémantické mapy, aby s jejich pomocí agenty naučili vnímat i provádět akce zcela samostatně. Sémantická mapa se používá i k výpočtu agentovy odměny, resp. vnitřní motivace k tréninku. Agent je povzbuzován k tomu, aby nacházel nové objekty, pozoroval je z různých úhlů pohledu a z „nasbíraných“ perspektiv vybral tu nejvěrohodnější.
Jedním z hlavních motorů vývoje AI je pokrok dosažený v oblasti strojového vidění. Tento obor se v nedávné době rozvinul do podoby tzv. internetového počítačového vidění, kde se výzkum a vývoj zaměřují na tvorbu trénovacích modelů v obousměrné interakci s internetovými daty. Tyto modely, založené na tzv. učení se pod dohledem (supervised learning), dokážou poměrně dobře klasifikovat, detekovat a segmentovat objekty v obrázcích na internetu. Tím však vyvstává vcelku logická otázka, zda je třeba v případě autonomních vtělených agentů začít znovu od nuly a shromáždit pro ně podobně rozsáhlé datové sady, na jejichž základě je bude možné „oživovat“, nebo zda půjde nějakým způsobem navázat na úspěchy dosažené v internetovém počítačovém vidění aplikovaném na poli supervised learning.
Koncept SEAL tak podle amerických vědců umožňuje uzavřít smyčku akce-percepce: umožňuje totiž agentovi neustále zlepšovat svou schopnost detekce objektů a jejich segmentace pouhým pohybem v tréninkovém prostředí, a to i díky tomu, že spíše než prozkoumávat objekty izolovaně jeden po druhém (jak tomu u podobných agentů bývalo až doposud) se agenti učí zkoumat celou 3D scénu takříkajíc naráz. Na rychlosti růstu rozpoznávacích schopností se tato změna přístupu prý zřetelně projevila.
Schopnost učit se způsobem se zcela autonomní supervizí je však, jak vědci přiznávají, možná jen za cenu určitých omezení. Kvalita 3D sémantické mapy totiž závisí na výkonnosti předem natrénovaného modelu vnímání. Pokud však určitý objekt nebyl během tréninku detekován (tzn. není obsažen ani v souboru „perspektiv“ s nižší mírou jistoty), nemá agent k dispozici žádnou instrukci, jak objekt rozpoznat, nevstoupí-li do hry supervize z vnějšku. Podobně, pokud model vnímání dělá špatné předpovědi s vysokým skóre, tyto chyby budou následně ještě zesíleny šířením špatných „štítků“ do sémantické mapy.
Na závěr zmiňme ještě jeden zajímavý výzkum, o kterém podali zprávu letos na jaře vědci z Columbia University, University of Washington a z Allen Institute for AI. Ti vyvinuli nástroj s názvem Continuous Scene Representations (CSR), který dokáže průběžně aktualizovat reprezentaci objektů spolu s tím, jak se agent pohybuje po dané scéně. Omezení tradičních scénových grafů totiž vědci vyřešili tak, že jako reprezentaci vztahů mezi objekty zavedli spojité vektory. K tomu, aby mohl agent následně plně interaktivně v tomto prostoru a bez předchozího tréninku provádět různé manipulační úlohy, vytvořili vědci také jistou relativně jednoduchou strategii plánování.
Vytvoření takovéto interaktivní reprezentace scény však přineslo i nové problémy. Graf by totiž měl být schopen přizpůsobovat se novým objektům a vztahy s jinými objekty by měly být přímo z grafu odvoditelné. Algoritmus by měl také být schopný určit, kdy detekce odpovídají stejnému objektu, jen z různých perspektiv. Vědci se ale s těmito potížemi dokázali vypořádat, rozhodli se totiž určovat objektové relace prostřednictvím uzlů (objekty) a hran (vztahy mezi objekty) grafu dané scény. Modelování tak není omezeno na předem definovanou množinu symbolů a dokáže sledovat objekty v průběhu času v reálném prostředí, které obsahuje i objekty během počátečního tréninku nepoznané.
Na několika příkladech jsme tedy v letmém náznaku mohli vidět, jak současné pokročilé možnosti virtuálních simulací reálného prostoru včetně možností jeho zaplnění nejrůznějšími objekty a pohybu mezi nimi (a interakce s nimi) vydatně pomáhají umělé inteligenci pozvolna, krok za krokem se vpravovat do různých tělesných schránek a takříkajíc si je „zkoušet“. Možná nepříliš vzdálená budoucnost ukáže, která z nich jí bude nejlépe sedět i ve světě reálném.
NEJZAJÍMAVĚJŠÍ ČLÁNKY
Focus Automatizace Digitalizace Technologie a společnost |