Machine learning (lærdómur véla)

Jæja, heyrið þið þá skulum við halda áfram, við ætlum að tala aðeins um bara svona sem sagt machine learning eða vélnám, bara svona smá kynning á því þannig að þið vitið hvað koma skal. Hvað er machine learning? Nú er náttúrulega kannski svolítið erfitt að skilgreina vel en þetta kannski snýst um það að, hérna, þessa að þennan eiginleika, að tölvurnar geti lært án þess að vera prógrammaðar til þess að maður sem sagt gefur þeim eitthvað sem þær eiga bara að læra af og þetta ágætar skýringar ógreinanlegt finnst mér þetta er svona hérna bara svolítið straight forward að þetta er sem sagt maður segir að að sem sagt forrit geti lært út frá reynslu, e, með tilliti til einhvers konar verkefnis eða tasks, t, og einhvers konar sem sagt performance measure sem er svona mælir hversu vel hún er að læra. Ef að, sem sagt, ef sem sagt hæfnin í þessu verkefni þegar það er mælt með p, verður betra eftir því sem maður hefur meiri reynslu eða experience. Þannig að mér finnst þetta ágætis ágætis skilgreining á þessu og kannski dæmi, svona concrete dæmi æi eitthvað sem er að spila tékkaðs er reynslan sú að hafa spilað ógeðslega mikið af checkers bara vera ógeðslega góður í því og og þá er task-ið þetta verkefni er sem sagt það að spila og, og mælikvarðinn á hversu góður maður er í því eru líkurnar á því að maður vinni næsta leik þannig að maður er búinn að vera að læra ef líkurnar eru alltaf að aukast. Þetta er svona, hérna. Æfingin skapar meistarann hugarfar svolítið og eins náttúrlega oft að vinna með machine learning þá er maður bara með eitthvað gagnasafn sem maður er er að beita svona aðferðum á og þá mundi experience-ið vera raunverulega bara sem sagt observation-in í gagnasafninu mælingarnar og task-ið er þá hvað þú vilt læra út úr þessu gagnasafni, eins og til dæmis að að spá fyrir um einhverja útkomu, til dæmis kyn eða, eða svik eða einkunn kannski einkunn hún tengist kannski hversu vel maður mætir í tíma og einkunnin sem maður fær úr skilaverkefnunum og svoleiðis og þá mundi já þetta ætti náttúrulega að vera p. Það er sem sagt hversu góðar þessar spár eru, hversu oft spái ég rétt með gögnunum mínum aðferðir til vél náms er oft skipt í já þrennt hér geta verið fleiri en svona þessu stóru flokkar eru það sem heitir supervised learning, unsupervised learning og reinforcement learning það sem að í supervised learning þá er maður með einhvers konar útkomu sem maður er að hjálpa sér við að læra í unsupervised þá ertu ekki með neitt neina útkomu, ekkert target og í reinforcement learning þá ertu að sem sagt vera með svona [HIK: rein] já svona hérna eitthvað sem þú ert hjálpa algoriþmanum til þess að læra eitthvað svona, reinforcement svona verðlaun eða eða refsingu ef hann hagað sér illa. En svo er líka til sem heitir semi-supervised learning sem er svona blanda af eitt og tvö, og þetta er svona myndræn lýsing, kannski, á þessum flokkum. Ef þið sjáið það að í supervised learning þá erum við annars með classification og hins vegar regresson þar sem að classification mundi til dæmis vera að að hérna finna finna hverjir eru sem sakt svona svindlarar eða svikarar. Ég fer aðeins betur í það á eftir. Classification getur líka verið að, að, sem sagt já classify-a myndir, hvort það sé hundur á myndinni eða köttur til dæmis customer retention þá ertu raunverulega að spá fyrir um það hvaða, hvaða viðskiptavinir eru eru líklegir til að hætta í fyrirtækinu, þá ertu með einhver gögn um alla viðskiptavinina og þú notar þau til þess að spá fyrir um það hverjir eru mest líklegir til þess að hætta og diagnostics líka og svo erum við með hérna regresssion þar sem maður er að spá fyrir um eitthvað, sem sagt continuous gildi meðan í classification þá er maður bara með einhverja nokkra flokka eins og til dæmis fraud og ekki fraud, hundur eða köttur, karl eða kona. Á meðan í regression þá getur maður verið að spá fyrir um aldur þá eru sem sagt continuous response, continuous target. Við höfum líka verið með til dæmis líka með svona tímaraðagreiningar, svona spá módel, spá fyrir fram í tímann, spá fyrir um um hérna life expectancy það mundi vera regression supervised learning það eitthvað sem er mikilvægt, til dæmis í tryggingafyrirtækjum sem eru með líftryggingar að vita hversu fólk lifir lengi, hversu hratt, hérna, fólkinu er að fjölga, population growth, spá fyrir um veður, ýmislegt. Og svo í unsupervised learning þá erum við með sem sagt tvo flokka líka, annars vegar clustering þar sem við erum að, erum að, sem sagt hópa gögnin okkar saman. Við erum að finna svona, svona, já, svona kjarna þar sem að, þar sem að til dæmis fólk er að haga sér á svipaðan hátt. Eitt dæmi hérna um gagnasafn sem ég á, það eru, hérna, fólk sem er stundar einhverja líkamsræktarstöð og fólk náttúrulega fer líkamsrækt á mismunandi forsendum og það hagar sér mismunandi. Sumir kannski mæta alltaf á morgnana, sumir fara bara í tíma. Aðrir fara bara í, í, hérna, að lyfta til dæmis og þá getur maður fundið svona svona cluster-a í gögnunum og eins, hérna, já, svona, customer segmentation-i þá getur þú verið með raunverulega sérhæfðar sérhæfð svona promotions og tilboð fyrir hvern hóp fyrir sig, þannig að í staðinn fyrir að þú sért að bjóða öllum hérna afslátt á morguntímum þá bara býðurðu þeim afslátt á morguntímum sem actually mæta í morguntíma í ræktinni til dæmis. Og svo erum við líka með það sem heitir heitir dimensionality reduction af því að í þessum geira þá er oft þá erum við oft að díla við það sem heitir „the curse of dimensionality“ við erum með ógeðslega mikið að breytum og þá er alltaf voðalega gott að hagræða aðferðir til þess að fækka þessum breytum því að margar þeirra eru bara noise og eru bara að trufla og þá erum við með sem sagt já, hérna, allskonar, allskonar mismunandi aðferðir þar miklu fleira en heldur er nefnt hér og svo í reinforcement learning það er eitthvað svona ennþá kannski svolítið í, hérna, í þróun það er, hérna, það er minna, svona, mainstream en það er mikið notað í sem sagt svona gaming og og alls konar. Og þá sem sagt já eins og ég segi er maður að er maður að hjálpa algoritmanum að læra með því að verðlauna fyrir góða hegðun og refsa fyrir minna góða hegðun. En þetta er svona kannski ferlið sem að maður fylgir yfirleitt þegar maður er í machine learning. Machine learning er raunverulega bara eitt, eitt skref. Ef við byrjum til dæmis með eitthvað data, svo þurfum við, við erum með allt, öll gögnin sem eru til í fyrirtækjum, til dæmis og við þurfum að velja hvaða gögn við viljum því við getum ekki notað allt saman. Og svo þegar maður er búinn að velja það sem maður vill þá þarf maður að hreinsa það sem við förum í held ég næsta tíma eða föstudaginn næsta og svo, hérna, þegar maður er búinn að hreinsa þá þarf maður að transform-a af því að kannski þarf maður bara að sameina einhverjar breytur eða að reduce-a til dæmis með svona dimensionality reduction og við förum líka í það á föstudaginn hvernig maður getur transform-að gögnum. Og svo kemur þetta raunverulega machine learning skref þar sem maður er að beita machine learning algoritma og þá finnur maður eitthvað svona patterns og maður getur farið með það og sagt: Hérna, heyrðu, þú veist, hérna, demókratar, þeir, þeir hérna eru, hvað voru þeir hlynntir skattabreytingunum, er það ekki? En allavegana þetta er svona þessi svona ferli sem að maður fylgir svolítið. Ef við ætlum að fara út í aðeins supervised learning þá sem sagt erum við með einhver gögn þar sem við erum með einhvers konar target við vitum hver útkoman er. Og markmiðið er að læra einhvers konar fall eða reglur á milli input-sins og þessa targets sem við erum að vinna með og það sem target-ið gæti verið til dæmis kyn. Það gæti verið fraud það gæti verið ýmislegt annað og en við viljum nota gagnasafnið breyturnar í gagnasafninu til þess að læra einhvers konar reglur og þá notar maður það sem heitir training data til þess að byggja þetta módel, og maður þarf að passa sig þegar maður er að búa til þetta módel, að ekki overtrain-a. Overtrain-a þýðir að maður sé að er bara hreinlega að læra gögnin í training data-inu en það er ekki það sem við viljum. Við viljum geta beitt þessum sama algoritma á áður óséð gögn og fengið út raunverulega sams konar nákvæmni, sama, sama accuracy við viljum að, að, að algoritminn okkar geti aðlagast nýjum gögnum og þess vegna þarf maður að passa þetta overtraining og við tölum um það líka, hérna, sem sagt eftir tvær vikur held ég. Hvernig maður metur þetta og hvernig maður á að bera sig að við þetta training og, og hérna, og annars, annars vegar getur maður sagt verið með target sem að er endanlegt set. Þá erum við með classification þar sem við erum með kyn eða við erum með fraud og svo hins vegar erum við með, sem sagt, regression þar sem að target-ið er einhvers konar continuous breyta. Það sem gæti til dæmis verið veður eða, eða, hérna, líftími eða eitthvað svoleiðis. Ókei, og svona lítur classification út. Hérna erum við með sem sagt einhverjar tvær breytur við erum með, hérna, það eru tveir, tveir flokkar, allir eru annaðhvort grænir eða bláir og þetta snýst um að finna einhvers konar boundary, einhvers konar, já, boundary á milli þessara tveggja flokka þannig að þið sjáið alveg ef þið horfið á þetta, að, þú veist, grænu eru hérna svoldið niðri og bláir þarna svolítið uppi og einföld aðferð væri bara að draga þessu beinu línu í gegn og segja: Ókei, allir sem eru fyrir neðan þeir eru grænir. Allar fyrir ofan þeir eru bláir. En það er kannski ekki alveg voðalega nákvæmt. Þess vegna viljum við nota svolítið meira sophisticated algoritma til þess að búa til boundary sem eru, já, raunverulega skilja betur á milli eins og við erum búinn að gera í hinu tilfellinu en þetta er það sem, það sem að classification snýst um, svona hérna, í grunninn en auðvitað náttúrulega erum við aldrei með tvær breytur. Við erum alltaf með kannski hundrað breytur, við getum ekkert plottað þær á svona fallegan hátt og, og hérna, þetta er svona pælingin á bak við þetta. Og hérna erum við með regression þar sem við erum með já BMI á x-ásnum og við erum með kólesteról á y-ásnum og við erum búin að mæla þetta fyrir [HIK: þessum] þetta fólk hérna og við erum að reyna finna þessa jöfnu bestu línu í gegnum gögnin þannig að við getum sagt: Ókei, við erum með einstakling sem er með BMI tuttugu og sjö hvaða kólesteról er hann með það getum við fundið bara punktinn á línunni sem svarar til tuttugu og sjö. Í unsupervised learning þá er input gögnin hérna ekki með neinu target-i. Við vitum ekki hvers kyns einhver er. Við vitum ekki hvort þeir eru rauðir eða bláir en við viljum samt sem áður gera eitthvað við gögnin til þess að reyna að finna. Kannski getur maður fundið þessa flokka þó að við vitum ekki fyrir fram hverjir eru rauðir og hverjir eru bláir samt getum við fundið þá að því að hegðunin hjá þessum rauðu er öðruvísi en hjá þessum bláu og þá erum við sem sagt með, hérna, clustering þar sem við erum bara búa til svona cluster-a, dimensionality reduction, þar sem við erum að fækka breytum. Við erum að sameina breytur af því að oft þá eru þær mjög sem sagt correlated allar breyturnar sem við erum minna með, eins og til dæmis aldur og fæðingarár þær mundu vera með mjög hátt correlation því þær náttúrulega segja nákvæmlega það sama og þá þurfum við ekki að vera með þær báðar í módelinu okkar og svo erum við með anomaly detection sem að hérna það er oft þannig að hegðun sem við erum að leita að hún er stundum rosalega sjaldgæf eins og til dæmis fraud. Það eru ekkert allir eitthvað að stunda, hérna, skattasvik og svona. Það eru mjög fáir. Þannig að hérna þetta er svona ákveðinn hópur af aðferðum sem snúast um það að finna þessi anomaly eins og til dæmis fraud. Hérna sjáið þið clustering, sem sagt við erum með einhver gögn sem er búið að flokka hérna í tveimur breytum og, og hérna, og þið sjáið það að gögnin, fyrir fram áður en við byrjuðum að gera þetta þá vissum ekkert hvað litir þetta voru en við cluster-uðum þau og fundum þessa þrjá flokka. Það er mjög greinilegt hérna að það eru svona, já, svona sub-groups í gagnasafninu okkar. Já, og svo er reinforcement learning þar sem við erum með raunverulega einhvers konar, já, það er verið að verðlauna fyrir góða hegðun og refsa fyrir slæma hegðun og, og hérna, er þetta enn þá svolítið mikið í þróun og, og hérna, en samt mjög spennandi náttúrlega líka. Ég ætla að taka eitt dæmi, bara svona í lokin um hérna sem sagt svæði þar sem maður gæti verið að nota machine learning og er verið að nota machine learning. Það er að finna fraud, einhvers konar svindl, einhverjir eru að svíkja undan skatti eða ekki að haga sér alveg heiðarlega. Og, og hérna sjáið þið til dæmis tvær skilgreiningar á fraud-i annars vegar, sem sagt, úr Oxford-orðabókinni þar sem þetta er svona einhvers konar já, röng glæpsamleg hegðun þar sem að ætlunin er að fá einhvers konar financial eða personal gain. Og svo önnur skilgreining sem kemur úr vísindagrein þar sem stendur að, að sem sagt fraud er eitthvað sem er sjaldgæft það er vel ígrundað fólk sem stundar fraud það pælir voða mikið í því hvernig það ætlar að gera það af því að það náttúrulega vill ekki nást. Þeir reyna náttúrulega að fela sig eins og þeir geta því þeir vilja ekki finnast það þróast yfir tíma af því að um leið og kreditkortafyrirtæki fatta eina aðferð sem svindlarar að nota þá náttúrulega passa þeir það að það sé ekki hægt að gera það lengur þannig að þú þarft alltaf að vera að, þú veist, að uppfæra þína, hérna, fraud skills og hérna, og ég segi mjög vandlega, hérna, organized og fraud er eitthvað sem er þú veist eins og stendur hérna „older than humanity“, það er, hérna, fólk er alltaf búið að vera að reyna að svindla til þess að, hérna, kannski fá aðeins meira heldur en ætti að fá og það fylgir þessu pareto princip-ali þar sem að, hérna, snýst um að það er auðvelt að stoppa fyrstu fimmtíu prósentin og aðeins erfiðara næstu og svo framvegis. Þannig að það að ná öllum er rosalega erfitt og svona í business understanding þá náttúrlega er hérna best að finna svona fraudster-a sem fyrst áður en þeir valda einhverjum skaða áður en þau eru búin að ná að svindla út úr mikið af peningum. Vegna þess að svona typical, hérna, fyrirtæki er að missa alveg fimm prósent í fraud á hverju einasta ári. Hvernig fraud er til. Hérna erum við nokkra. Hér erum við með, sem sagt credit card. Fólk er að nota stolin, hérna, kreditkort. Við erum með fraud í tryggingabransanum þar sem fólk er með, hérna, falskar kröfur. Það er fólk sem er, hérna, að búa til falskar vörur, counterfeit. Fólk er að stela identity-um, allskonar, og það náttúrlega hvert um sig á alveg mismunandi aðferðir til að díla við. En en til dæmis bara í tryggingabransanum erum við með mismunandi tegundir af fraud-i. Við erum með, hérna. Fólk er að fá sér líftryggingu og svo, hérna, þykist það deyja en það er ekki dáið og fær alla peningana. Eða, þú veist, makarnir þeirra eða eitthvað. Svo erum við með í, í, hérna, health care að fólk kannski er að þykjast vera veikara heldur en það er til þess að fá peninga. Fólk er að setja á svið árekstra til þess að fá peninga fyrir, hérna, til þess að laga bílana sína og alls konar náttúrlega eignum er fólk líka að, að hérna, kannski ekki endilega að búa til kröfur en það er að ýkja kannski aðeins það sem kom fyrir þegar bíllinn þeirra klesstist. En hvernig getum við fundið þetta? Sem sagt fraud er einhvers konar hegðun sem er ekkert algeng og þess vegna getur oft verið erfitt að finna það. En en svona í grófum dráttum þá sjáum við hér ef maður er með einhver gögn og maður plot-ar þetta svona að þá er þetta einhvers konar hegðun sem að er, fylgir ekki norminu. Hún er, hún er óeðlilega af því hún er öðruvísi heldur en allir hinir og þess vegna getur maður oft fundið svona anomalies bara með því að plot-a upp gögnin sín og sjá hvort það sé eitthvað svona skrítið í gangi. Þannig já, þetta er sem sagt eitthvað svona, sem sagt hegðun eða bara mæling, gagnapunktur sem er öðruvísi heldur en allir hinir og svo líka kannski hjá sama einstaklingnum, hegðun sem er öðruvísi heldur en venjuleg hegðun hjá þessum einstakling. Ef þið horfið vel á þetta, sko, þá er þetta sem sagt, þetta eru símtöl. Einhver maður hérna sem var, hann býr greinilega í New York en hann er í Brooklyn þegar hann er að hringja og hann er að hringja eitthvert annað. Hann er alltaf að hringja frá, frá New York en svo allt í einu þá byrjar hann að hringja frá einhverjum öðrum stað. Og, og hérna, svona já, þá breytist aðeins hans hegðun í þessum símtölum þegar þið sjáið þau eru alltaf að hérna, rétt eftir miðnætti á meðan hann var vanur að hringja alltaf yfir daginn og svo framvegis. Og þá er þetta sem sagt kannski dæmi um einhvern sem er búinn að stela hans identity-i. Þannig að það er hægt að sjá það í hans símagögnum að einhver var að stela símanúmerinu hans og hringja. Þannig að þú ert með einhvern sem er að hringja frá Boston og New York á sama tíma. Þannig að þá eru þessar nýju færslur merki um eitthvað sem er kannski óeðlilegt, eða anomaly, abnormal behaviour. En, þetta er náttúrulega erfitt að finna þetta af því fraudster-ar náttúrulega reyna alltaf að fela sig. Þeir vilja ekki finnast. Þannig að þeir eru alltaf að breyta sínum aðferðum til þess að verða betri. Á sama tíma þá er náttúrlega ef einhver nær að svindla út þér helling af peningum, þá náttúrlega er mikill hérna skaði fyrir fyrirtækið þitt. En þú vilt ekki vera að saka alla um það að vera að stunda fraud því þá bara fara þeir í fýlu og fara úr fyrirtækinu þínu því þú ert eitthvað að saka þá um það að vera með slæma hegðun og eins ég er búinn að nefna þá er þetta voðalega sjaldgæft. Þannig að það er mjög erfitt að finna þetta. Við erum með mjög unalanced gagnasafn og aðferðirnar sem er verið er að beita eru machine learning aðferðir af því að í fyrsta lagi, svona gamla aðferðin, það sem kallast, hérna, expert based approach. Það er bara einhver gamall kall í fyrirtækinu sem veit hvernig fólk stundar fraud og hann veit hvernig á að þekkja það og út frá því er kannski búið að búa til svona hérna business-reglur ef að þú veist að hann er að krefjast svona mikils penings þá gæti þetta verið fraud og svo framvegis. En það er meira og meira verið að nota machine learning aðferðir, eins og til dæmis supervised learning þar sem að target-ið okkar mundi vera fraud og við reynum að nota sem sagt breyturnar sem við höfum upplýsingar um, viðskiptavinina, um kröfurnar sem þeir eru að hérna koma með til þess að læra einhvers konar mynstur í gögnunum, þú veist búast ef hann er búinn að koma með þú veist fimm kröfur í einum mánuði eða hann er nýbúinn að breyta, hérna, sem sagt samningnum sínum og hann allt í einu, þú veist, fær, lendir í slysi. Þannig að kannski gæti það verið grunsamlegt eða eitthvað slíkt. Og, og, þá, sem sagt vitum við hvort þetta er fraud eða ekki og reynum að læra út frá því og svo í þriðja lagi þá getum við verið með unsupervised learning þar sem við erum að nota þessar anomaly detection aðferðir sem að er búið að þróa til þess að finna mjög sjaldgæfa outlier-a í gögnum. Já, og hérna er kannski dæmi um, um, sem sagt nokkur mynstur sem hafa fundist í kreditkorta fraud-i, horfið á þetta sem sagt, hérna, einhver sem er alltaf bara að kaupa eitthvað lítið með kortinu sínu og svo allt í einu kaupir hún eitthvað ógeðslega dýrt eða þú ert að kaupa eitthvað ógeðslega mikið á netinu í stuttum, á stuttu tímabili. Það er kannski merki um það að einhver er búinn að stela kortinu þínu og hann er bara að reyna eins og hann getur og kaupa allt sem hann getur áður en það fattast og hann er eyða rosalega miklum pening á stuttum tíma. En ef þetta er kannski, sem sagt smá hérna, hann vill ekki finnast strax þessi, þessi svindlari, þá kannski reynir hann að eyða bara litlu í einu yfir langan tíma því þá eru minni líkur á því að hann finnist. Já, ég held að þetta sé allt sem ég ætla að segja um þetta. Eru einhverjar spurningar? Ef einhver vill vinna við fraud verkefni í svona hluta af verkefninu sínu þá ég alveg gagnasafn sem ég get, sem sagt látið einhvern fá. Ef ykkur finnst þetta vera spennandi. Að finna svona anomaly. Nei. Þetta er, sem sagt, ég held að ég sé með tvö, annars vegar sem er bara svona flatt gagnasafn, svo á ég annað sem er með, sem sagt network upplýsingum og það er, já, það er ekki íslenskt. En en þetta er svona eitt, já, sem sagt þar sem er verið að nota, virkilega, machine learning í praxís til þess að bæta hagi fyrirtækis eða fyrirtækja. Því að svona tryggingafyrirtæki þau eru náttúrulega öll að að reyna að kljást við svindlara. Já. Sem sagt, þegar þið byrjið að kynna, núna, verkefnin í, í, hérna, sjálf, sem sagt, sem er seinni hluti námskeiðsins þá munið þið kynnast þessum machine learning algoritmum sem að þið, já, ættuð endilega að nota í ykkar lokaverkefni til þess að finna einhvers konar svona mynstur í ykkar gögnum. Og hvort að þið notið classification eða, þú veist, clustering eða hvað, það þarf bara kannski að [HIK: finn] sjá út frá gögnunum hvað maður vill vita hvað það er það sem þú vilt finna, hvaða ályktanir viltu draga og, og hérna velja sem sagt aðferð út frá því. Einhverjar fleiri spurningar? Nei? Hérna þessar glærur eru komnar á canvas og líka, hérna, Jupyter notebook um, hérna, sem sagt tilgátuprófanir. Þannig að þið getið kíkt á það og ef þið hafið einhverjar spurningar þá getið þið bara tékkað á því á mánudaginn. Annars segi ég bara, góða helgi.

Tölvunarfræði. María Óskarsdóttir - fyrirlestrar, Machine learning (lærdómur véla)

Machine learning (lærdómur véla)