VELKÉ JAZYKOVÉ MODELY V PRAXI


Konverzační umělé inteligenci prospívá propojení výzkumu a praxe 

Oblast dialogových systémů zaznamenala v posledních letech pozoruhodný pokrok, který způsobil revoluci v interakcích mezi člověkem a počítačem. Tým CIIRC ČVUT, který se zabývá zpracováním přirozeného jazyka (Natural Language Processing – NLP) je jedním z průkopníků ve vývoji dialogových systémů. V roce 2015 tým studentů vedený Janem Šedivým začal pracovat na jednoduchém konverzačním botovi, kterého pojmenoval podle jedné z postav Čapkovy hry RUR, Alquist.

Autor: Jan Šedivý, CIIRC ČVUT

ALQUIST AI

První Alquist byl velmi jednoduchý interaktivní systém, který dovedl vést dialog na deset různých témat. Povídal si s uživatelem například o sportu, filmech či politice… Cílem bylo poskytnout pokud možno aktuální informace, takže už první verze dovedla číst výsledky sportovních zápasů z internetu. Rok za rokem se tematické okruhy postupně rozšiřovaly. Pro rozhodování, kam postupovat v jednoduché stromové struktuře předem připraveného dialogového stromu, používal první Alquist sémantickou podobnost. Uživatele se stále dotazoval, a to mělo velkou výhodu: uměli jsme v předpovědět možné odpovědi, a navíc jsme pořád udržovali rozhovor. Tato strategie tvorby dialogu nám vydržela několik let. Ke konci minulého desetiletí se ale začaly objevovat jazykové modely, které uměly generovat výstupy na základě kontextu věty. Nejprve dost neuměle, se zvyšujícím se počtem parametrů se kvalita a smysluplnost generovaných vět neustále vylepšovala. Tyto modely jsme v kombinaci s dialogovými stromy poprvé začali používat někdy kolem roku 2021 a nakonec se staly klíčovou technologií, která týmu pomohla vyhrát prestižní soutěž Amazon Alexa Prize v roce 2021. Někteří uživatelé chytrých reproduktorů Alexa si s naším Alquistem dokázali příjemně povídat i více jak deset minut.

Aktuálně se tým Alquist umístil na bronzové pozici, když uspěl mezi dvěma stovkami akademických týmů v dalším ročníku. Alquist číslo pět ještě více spoléhá na generativní jazykové modely, podobně jako OpenAI GPT, ale s mnohem menším počtem parametrů.

Úspěch Alquista zajistil mediální popularitu a začali nás oslovovat zájemci o dialogové technologie. Nejprve nadšenci a později firmy, které chtěly zajistit lepší služby pro své zákazníky. Spolupráce se skutečnými zákazníky je pro pracovníky z akademického prostředí velmi důležitá. Přinese zpětnou vazbu od skutečných uživatelů a ukáže slabá místa. Zákazníky jsme našli zejména v oblasti automotive. Komunikace hlasem je v prostředích, kde ruce i oči jsou zaměstnány řízením, jediným zbývajícím komunikačním kanálem. Použili jsme technologii Alquista a vytvořili jsme boty, které řidiči během jízdy oznamovaly, jaký zámek nebo hrad vidí po pravé straně nebo jak se jmenuje řeka, přes kterou právě přejel. Použili jsme i informace z kontaktů v mobilním telefonu a z navigace z předchozích cest. Kombinací kontextů jsme mohli řidiče upozornit třeba na fakt, že když jel naposledy navštívit babičku, koupil jí po cestě kytici květin. Hlasový společník dovede přečíst programy kin, televize atd. a upozornit na  další zajímavosti. Hlasová navigace vám může pomoci hledat v manuálu a krok za krokem vám pomoci vyměnit pneumatiku. Možností je opravdu hodně a jsou stále na začátku.

Tým Alquist: zleva Petr Marek, Ondřej Kobza, Jan Šedivý, Tommaso Gargiani, David Herel a Jan Čuhel. Foto: J. Ryszawý, ČVUT

Promethist.ai řeší i dobrou náladu

Postupem času přicházejí nové nápady na další aplikace využívající dialogy. Několik doktorandů založilo v roce 2019 startup, který bude pomáhat lidem udržet si dobrou náladu. Ten nazvali Promethist.ai. Hlavním produktem je aplikace pro mobilní telefony Elysai. Vede s uživateli dialog zaměřený na řešení různých problémů, především vztahových. Aplikace se vyvíjí velmi živelně, neustále se rozšiřují okruhy témat i kvalita dialogů. Na  začátku vývoje byla Elysai založena na hierarchických dialozích, dnes obdobně jako Alquist používá i generativní modely. Pro CIIRC NLP skupinu je práce Promethistu velmi cenná. Dozvídáme se od skutečných uživatelů, co je třeba měnit a co vylepšit. Velkým úspěchem je i druhý produkt Promethist.ai – vývojový systém Flowstorm. Jedná se o grafickou drag and drop aplikaci umožňující velmi rychlý návrh dialogů založených na stromové struktuře. Flowstorm je tak uživatelsky přívětivý, že si ho osvojili i uživatelé z humanitních oborů, např. psychologové, kteří intenzivně přispívají k dalšímu rozvoji celé aplikace.

Nejnověji se Elysai pyšní technologií zobrazující na obrazovce fotorealistické postavy, které dokáží s uživatelem navázat těsný kontakt. Někteří uživatelé si na avatary tak zvyknou, že je považují za své kamarády. Generování realistických postav a synchronizace pohybu úst s promluvami je technologicky velmi náročný problém, který se Proemthist.ai podařilo efektivně vyřešit. Už teď je jasné, že tyto zkušenosti a technologii skupina CIIRC NLP využije i v některých výzkumných projektech. Na technologii avatarů pracoval také Lukáš Marek v rámci své bakalářské práce, za kterou dostal cenu děkana Fakulty informačních technologií.

Aplikace Elysai

Rychlá nápověda místo listování objemnými manuály

Se studenty a zaměstnanci CIIRC posouváme technologii stále dopředu a nabízíme tyto inovace i našim průmyslovým partnerům. Jedním z hlavních témat na CIIRC ČVUT je Průmysl 4.0, který se zabývá vývojem automatických výrobních linek a robotikou. Jedná se o složité technologické celky. Návrh, nastavení, obsluha a opravy těchto celků vyžadují pracovníky s hlubokými znalostmi dané problematiky. Každá technologická část automatické linky je popsána rozsáhlým manuálem, který obsahuje mnoho pokynů. Komplexita je velmi vysoká a zaučit nové pracovníky trvá dlouho, navíc pracovníci si nemůžou pamatovat všechny detaily. Pro správnou funkci linky je také důležité provádět systematickou údržbu a dodržovat přesně technologické postupy. Jedním z  největších problémů nových zaměstnanců je, že se nemají koho zeptat, jak tyto problémy vyřešit. Konverzační technologie se ukázaly jako ideální pro návrh návodek – Standard Operating Procedures (SOP). Běží na mobilních zařízeních, jako jsou mobily, tablety a podobně. Scénář je velmi jednoduchý. Ráno dostane pracovník na svůj mobil seznam činností, které má vykonat. Jakmile některou z činností zvolí, mobilní telefon mu začne dávat pokyny, které ho vedou krok za krokem celou procedurou. Aplikace vždy počká, než se udělá vše, co je v daném kroku potřeba. Další velkou výhodou SOP je integrovaný manuál, takže v kterémkoliv okamžiku se pracovník může zeptat na cokoliv z manuálu. SOP současně sbírá informace o rychlosti provádění jednotlivých operací a umožňuje okamžitou aktualizaci jednotlivých procedur. Výzkumníci CIIRC ČVUT vyřešili problém odpovídání na dotazy z několikaset stránkových manuálů. Vše je velmi přírozené, a díky rozpoznávání a syntéze hlasu se pracovník jednoduše zeptá a SOP okamžitě odpoví.

SOP vyvíjíme pro řadu našich průmyslových partnerů. Spolupracujeme např. T-Mobilem, se Zentivou, ÚPV a dalšími partnery. Díky spolupráci s Promethist.ai, která nám poskytne vývojový software a klientské aplikace, se můžeme soustředit na nové algoritmy a to, abychom do průmyslové praxe přenesli poslední novinky.

Návodky: Standard operating procedures