Tomáš Koctúr: Data science je jedna z najatraktívnejších oblastí IT, ktorej sa netreba báť

<Zadajte anotáciu>

Tomáš je ambasádorom Data science Deutsche Telekom IT Solutions Slovakia. V našej firme je od roku 2018 a zo svojho ambasádorského postu chce zmeniť postoj ľudí voči AI. Prečo by sme sa umelej inteligencie nemali báť? Aj to nám priblížil v rozhovore.

Ako si sa dostal k Data science?

Celkovo ma vždy bavilo IT a najmä veci, ktoré boli pre mňa nepochopiteľné, resp. veľmi zložité. Študoval som telekomunikácie na TUKE a potom som si robil doktorát v oblasti rozpoznávania reči. Venoval som sa úlohe automatického pripravovania trénovacích dát pre systém rozpoznania reči. Túto úlohu som musel vyriešiť pomocou neurónových sietí, jednou z metód strojového učenia, ktorú som dovtedy nepoznal. Tak som začal študovať neurónové siete. Aby som tému aj reálne pochopil, šiel som do hĺbky a zaujalo ma to. Dnes je pre mňa AI najatraktívnejšia časť IT, s ktorou však musí človek neustále držať krok, učiť sa a sledovať trendy.

Čo je vlastne správny názov – umelá inteligencia (AI) alebo strojové učenie?

Umelá inteligencia je skôr marketingový názov tejto oblasti. Lepším označením je machine learning, teda strojové učenie. Pretože všetko vychádza z toho, čo počítač naučíme. Najprv navrhneme vhodný matematický model a potom za pomoci veľkého množstva dát a vhodného algoritmu počítač tento model „naučíme“.  Ľudia si AI predstavujú ako terminátora a často sa boja o svoje pracovné miesto.

A ako by si AI mali predstaviť?

Ako veľmi veľký matematický vzorec, v ktorom jednotlivé premenné nenapísal človek, ale boli vypočítané v procese učenia modelu za pomoci veľkého počtu kvalitných dát. Tieto techniky otvárajú veľa možností, vďaka čomu vieme škálovať prácu. Vieme naučiť počítač, aby rozhodoval o veciach za nás.

Ja sa bojím v živote veľa vecí, ale matematických vzorcov, čiže modelov strojového učenia, určite nie. Treba si uvedomiť, že model je naučený na určité správanie. Vytvára a testuje ho človek. Častý mýtus je, že modely sa učia samy počas používania - to nie je pravda. Rovnako modely nemajú vlastnú kreativitu, ich výsledky sú dané matematickým vzorcom. Súčasné modely nemajú ani pamäť, čím sa od nich človek odlišuje. Určite sa strojového učenia netreba báť.

Hlavným prínosom strojového učenia je teda škálovanie práce a jej zjednodušenie?

Áno. Predtým musel človek robiť triviálnu úlohu, dnes natrénujeme model, ktorý dokáže vyriešiť niekoľko tisíc rozhodnutí za minimálny čas. A človek sa môže venovať komplexnejším a zaujímavejším úlohám. Zjednodušili sme si tak prácu o úlohy, ktoré už nemusíme robiť manuálne. Tento priestor na zlepšenie vidím v takmer všetkých úlohách, ktoré pracujú so vstupnými dátami, akými sú čísla, text, zvuk, obraz, video alebo ich kombinácie.

Máme vlastný Data science, vieš ho priblížiť?

Náš tím začal vznikať asi pred 3 rokmi, v súčasnosti ho tvorí okolo 8 data scientistov, plus nejaké ďalšie pozície, ktoré nám pomáhajú. Máme priestor na rast a aj v tomto počte sme asi najväčší Data science tím v regióne.

Venujeme sa hlavne oblasti spracovania prirodzeného jazyka (Natural Language Processing - NLP). Jej špecifikom je, že do machine learning modelov nevstupujú čísla, ale neštruktúrovaný text. Pracujeme napríklad na rôznych chatbotoch, ktoré s koncovými užívateľmi komunikujú slovom. Preto sa zameriavame na  automatické rozpoznávanie reči (automatic speech recognition), syntézu hovorenej reči (text-to-speech), spracovanie prirodzeného jazyka a pochopenie neštruktúrovaných textov a detekcii anomálií v textoch, ale aj metrických dátach. Tento vývoj realizujeme v rámci medzinárodného tímu nášho koncernu. Okrem toho pracujeme aj v oblasti počítačového videnia, kde sa snažíme zjednodušiť procesy nášho účtovného oddelenia.

Čo je najťažšie na práci data scientistu?

Našou pohonnou hmotou sú dáta a každý data scientista sa sťažuje na 2 veci: malý výpočtový výkon a nedostatok dát. Pre nás majú dáta cenu zlata, potrebujeme ich nielen mať, ale ich aj pripraviť, spracovať, normalizovať a čistiť tak, aby sme s nimi zvládli natrénovať model. Ak ide o jednoduchý model, môže sa trénovať 5 minút. Ak sa bavíme o modeloch napríklad na  automatické rozpoznanie reči, počítačové videnie či NLP, tak to trvá dni až týždne. Čím komplexnejší model, tým je to zložitejšie. Keď sa vrátim k tomu, že modely strojového učenia sú vlastne matematické rovnice s množstvom premenných, tak tie najkomplexnejšie modely majú až miliardu premenných, ktoré sa v procese trénovania musia naučiť, preto to často trvá strašne dlho.

Vieme o tebe, že sa angažuješ aj v otázkach etiky AI, ako konkrétne?

V tomto smere sa snažím angažovať ako člen komisie pre etiku a reguláciu umelej inteligencie, ktorú založilo Ministerstvo investícii, regionálneho rozvoja a informatizácie SR. Vývoj je nezastaviteľný a problém etickosti tu bol a bude aj naďalej. Nastal už napríklad vo viacerých krajinách, preto je podstatné sa z cudzích chýb poučiť a pomôcť nastavením regulácií tohto odvetvia. Tak, aby bola zachovaná etická stránka, ale aj aby sa zbytočne neblokoval rozvoj AI. Naša komisia napomáha ministerstvu pri komentovaní týchto tém, či už v rámci EÚ, UNESCO alebo OECD, keďže tieto regulácie sú väčšinou vytvárané na nadnárodnej úrovni.

Akú budúcnosť AI vidíš?

Budúcnosť umelej inteligencie je nevyhnutná, ale som človek, ktorý sa snaží nepreháňať. Napríklad autonómne autá vedia znížiť nehodovosť áut v priebehu najbližších rokov. Na základe štatistík prejdených kilometrov a nehodovosti je autopilot v Tesle spoľahlivejší ako ľudia, aj keď nefunguje na 100 %. A ľudia sa autopilota boja preto, lebo môžu byť tou tisícinou percenta. Je to podobné ako strach z lietania a pritom je to štatisticky najbezpečnejšia preprava. V budúcnosti očakávam, že modely strojového učenia budú nasadené všade, kým sa nevymyslí niečo lepšie, čo ich nahradí.

Čo podľa teba človek potrebuje pre prácu v Data science?

Abstraktné myslenie, kreativitu, chuť skúmať veci do hĺbky a neustále sa učiť nové veci. Zvykne sa hovoriť, že Data science je občas viac o umení ako o vede. Často dopredu nevieme, aké riešenie je správne, kým to nevyskúšame. Abstraktné myslenie je potrebné pre  spomínané architektúry modelov so státisícami až miliardami premenných. Pri takom počte nie je možné si všetko rozkresliť, treba si veci pospájať v hlave. Často je potrebné rozmýšľať nad dátami ako maticami, ktoré vstupujú do nami navrhnutých modelov tak, aby to bolo správne a aby sa to chovalo, ako chceme.

Potom to je aj chuť neustále  sa učiť nové veci. Lebo doba nestojí a táto téma stále rastie a rozvíja sa. To, čo platilo dnes, už o mesiac vôbec nemusí. Podstatnou súčasťou skillsetu data scientistu je práca s dátami. Nielen ich spracovanie a upravovanie do vhodnej formy, ale často aj ich zbieranie z internetu- Keďže zákazník nemá dáta alebo ich nemá v dostatočnom množstve, musí byť data scientista v tomto smere dostatočne kreatívny.