×

We use cookies to help make LingQ better. By visiting the site, you agree to our cookie policy.


image

Tölvunarfræði. María Óskarsdóttir - fyrirlestrar, Tölfræði og líkindafræði

Tölfræði og líkindafræði

Heyrið þið eigum við þá að byrja, eða? Sem sagt í dag þá ætlum við að tala um tölfræði og líkindafræði sem eru bæði svona, já, svolítið undirstaða undir gagnagreiningu af því að í gagnagreiningu þá erum við náttúrulega að vinna með mikið af gögnum. Og það er hérna, akkúrat, sem sagt tölfræðin sem að maður notar þegar maður er að vinna með mikið af gögnum. Og hún hefur náttúrulega hlotið svolítið svona nýtt líf seinustu ár eftir því sem gagnasöfnin yrðu stærri, urðu stærri og stærri. Þá er þetta svona búið að breytast og tölfræðin núna er rosalega mikið að þróast með þessari nýju tækni sem er komin. En samt í grunninn þá náttúrulega er þetta ennþá þetta það sama að safna gögnum, greina þau, túlka þau og setja þau fram á hátt sem fólk getur skilið, sem sagt, ekki bara að vera með einhvern lista af einhverjum tölum heldur kannski að setja þær upp á myndrænan hátt eða að reikna einhver, hérna, svona, hérna, gildi sem að taka saman einhverjar mikilvægar niðurstöður úr þessum gögnum, eins og til dæmis meðaltal eða dreifni. Og svo líka það að tengja saman kannski eina, sem sagt fleiri en eina breytu, að vera með kannski tvær og sjá sambandið á milli þeirra, hvort önnur breytan geti sem sagt spáð fyrir um hina eða hvort það séu bara, sem sagt, sé fylgni á milli þeirra. Og, og hérna, þannig að það er mjög gott að vera, sem sagt, leikinn í því að, að vinna með gögn, sama hvort þið séuð að nota Python eða, eða eitthvað annað, eitthvað annað gagnasafn, og þetta er það sem þið eruð búin að vera að sjá seinustu viku er hérna í þessum, hérna, notebook-um sem hann Magnús er búinn að vera með, þá eru þið búin að vera alltaf með eitthvað gagnasafn og eruð að vinna með þessi gagnasöfn. Já, og þetta er kannski eitt svona mjög fundamental, hérna, leið til þess að vinna með gögn er hérna, sem þið sjáið hér, einhver sem var ekki giftur í gær. En svo er hún gift í dag. Og ef þú sem sagt extrapolate-ar þetta þá, hérna, mun hún vera búin að eignast marga eiginmenn áður en langt um líður. Ókei, en sem sagt, þegar við erum að vinna með tölfræði þá eru nokkur grunnhugtök sem að við þurfum að hafa á hreinu. Annars vegar breyta, sem að, hérna er einhvers konar ástand sem að, hérna getur tekið mismunandi gildi, eins og til dæmis hæð eða þyngd eða litur eða kyn. Þetta er dæmi um breytu. Og við yfirleitt gerum greinarmun á tvenns konar breytum, annars vegar strjálum breytum og hins vegar samfelldum breytum þar sem strjálar breytur skiptast í einhvers konar flokka, eins og til dæmis einkunnir eða litur eða kyn, á meðan að samfelldar breytur eru, bara sem sagt rauntölur raunverulega, til dæmis eins og tími eða þyngd, eitthvað sem þú getur tekið, hvaða gildi sem er á einhverjum, hérna, bili. Og svo erum við alltaf að mæla þessar breytur eða skrá þær, af því að við viljum draga einhverjar ályktanir um einhvern hóp, til dæmis alla Íslendinga, eða alla í heiminum, eða bara hvað sem er. Og þessi hópur, sem er þessi heild, kallast þýði eða population, og þá er þá verið að tala um alla í einhverjum skilningi, segjum til dæmis alla Íslendinga eða alla nemendur í HR. En svo vill þannig til að það er ekkert alltaf hægt að mæla hæðina hjá öllum og hafa alla með í þínu, þinni, hérna, tölfræðilegu greiningu og þess vegna tekur maður þýði, nei fyrirgefðu, maður tekur, hérna, sample, sem er hérna úrtak. Þú velur einhvern ákveðinn fjölda úr öllu þýðinu sem á að vera svona hérna, það sem kallast representative sample, þetta á að vera hluti af þýðinu sem að er, sem hegðar sér eins og allt þýðið. Þannig að þið getið ímyndað ykkur, ef þið ætlið að, að hérna, fá úrtak sem að er gott representation af öllum nemendum, nei fyrirgefðu, af öllum Íslendingum, þá er ekkert endilega mjög gott að fara bara í HR og spyrja nemendur þar, af því að nemendur í HR eru að einhverju leyti frábrugnir öllum Íslendingum. Þannig að þegar maður er að velja sér þetta úrtak þá þarf maður að passa það að það sé eins og þýðið. Það þarf að vera representative. Og svo eru þessar breytur sem við erum að spá í. Það eru til nokkrar tegundir af breytum, og þá, sem sagt, skiptast þær yfirleitt í þessa fjóra flokka. Við erum með sem sagt nominal scale, þar sem við erum með eitthvað sem er ekki raðað. Þá ertu bara með einhvern bara, sem sagt tilheyrirðu einhverjum ákveðnum flokki, eins og til dæmis litur eða kyn. Það myndi vera nominal scale, af því að það er engin röðun á milli þeirra, það er ekkert betra að vera blár eða rauður, til dæmis. Það myndi vera sem sagt nomilal, nominal. Og svo ertu með ordinal scale, þar sem þú ert með einhvers konar röðun á milli flokkanna þinna. En þú getur samt ekki sagt að sá sem er hérna í efsta flokkinum sé endilega helmingi betri en sá sem er í öðrum flokkinum, til dæmis. Eins þegar þú ert með svona kapphlaup eða, einhvers konar, já, kapphlaup, til dæmis hér, svona hestaveðhlaup, þá er ekki endilega sá, þannig að sá sem er í fyrsta sæti sé helmingi betri en sá sem er í öðru sæti, hann er bara betri. Það er bara svona einföld röðun án þess að þú gerir greinarmun á því hversu miklu, mikill munurinn er á milli þeirra. Og svo í þriðja lagi ertu með það sem heitir interval scale, þar sem að þú ert með jafnt bil á milli alls staðar og það, um dæmi um það er til dæmis, hérna, hiti. Og þið getið ímyndað ykkur sem, sagt sem svo að, að hérna, tuttugu stiga hiti er ekkert endilega tvöfalt heitara heldur en tíu stiga hiti. Þannig að það er, það er röðun. En það er ekkert absolute núll og þess vegna geturðu ekki sagt að eitthvað sé svona miklu betra en eitthvað annað og svo sem sagt að fjórða leyti þá erum við með ratio scale þar sem við getum sagt að eitthvað sé helmingi betra en eitthvað annað, eða helmingi stærra eða helmingi meira og það er allt sem við svona mælum, hérna, lengdir og þyngdir og, og svoleiðis. Það myndi þá vera ratio scale. Og, og verð, þar sem við erum með eitthvað, sem sagt núll á skalanum okkar. Og hérna sjáið þið sem sagt yfirlit yfir þessa skala og svona grunneiginleika, og hvaða, hérna, hvernig við getum borið saman hluti í þessum skölum. Þannig að þið sjáið til dæmis nominal scale þar sem við vorum með til dæmis liti eða einhvers konar flokka. Þar, hérna, geturðu bara séð hvort þeir séu eins eða ekki eins, sem sagt bara jafnt og eða ekki jafnt og. Og svo eftir því sem við förum niður þennan skala þá geturðu gert fleiri, sem sagt operations, þar til þú kemur í þennan seinasta ratio skala þar sem að þú getur borið saman hver er stærri og hver er minni, þú getur lagt og dregið, lagt saman og dregið frá og, og svo framvegis. Tölfræði skiptist yfirleitt í það sem heitir descriptive og predictive statistics, þar sem að í fyrra, descriptive statistics, þá ertu að, bara taka gögn sem eru til og, og hérna, raða þeim og taka þau saman á einhvern hátt til þess að lýsa því sem þú ert með í þínu, í þínu þýði eða þínu úrtaki. Og þá ertu oft, sem sagt, að taka saman einhverjar töflur eða búa til einhverjar myndir eða eitthvað slíkt til þess að, sem sagt, gera skiljanlegt það sem er í gögnunum. Og þá er maður líka að nota sem sagt, svona stika, til þess að taka saman kannski í eina tölu eitthvað, einhverja heila breytu, eins og til dæmis að taka meðaltal eða finna miðgildi, það eru stikar sem við getum reiknað út frá breytunum okkar. Já, og sem sagt meðaltal, þið þekkið öll meðaltal, þar sem maður tekur öll gildin og finn, semsagt leggur öll saman og deilir með fjöldanum og þá ertu kominn með meðaltal. Og þetta er sem sagt mjög einfaldur stiki sem þú getur reiknað fyrir einhverja breytuna í gagnasafninu þínu og þá veistu svona nokkurn veginn hvernig tölurnar liggja. Sem sagt ef ég myndi spyrja ykkur öll hvað þið eruð gömul. Þá get ég reiknað meðaltalið til þess að fá meðalaldurinn í, í þessum, í þessum fyrirlestri. Og svo það sem tengist mjög meðaltalinu, það sem heitir dreifni eða variance, þar sem við erum að mæla hversu dreifð gögnin eru, hversu langt út frá meðaltalinu eru þau. Já, þannig að við hérna, drögum alltaf frá sem sagt, við tökum öll, hérna, gildin okkar og drögum meðaltalið frá, setjum það í annað veldi, og svo deilum við aftur með fjöldanum og þá vitum við svona nokkurn veginn hversu langt frá meðaltalinu gögnin liggja að jafnaði. Og svo það sem er mjög algengt er að vinna með, það sem heitir staðalfrávik, þar sem þú tekur kvaðratrótina af, af þessari dreifni. Já, og við sjáum á eftir hvernig við, hérna, reiknum þetta í Python. Og svo svona einfaldasta leiðin til þess að setja fram gögn á myndrænan hátt ef þú ert með, sem sagt eina breytu er histogram, þar sem að maður sem sagt telur einfaldlega tíðnina af hverju gildi fyrir sig og setur það upp sem sagt sem svona dálka eins og þið sjáið hér, þannig að hérna ertu með, hérna, já, þrýsting í, í dekkjum á einhverjum mótorhjólum, greinilega, og þá er búið að, sem sagt, telja saman hversu mörg dekk voru með þrýstinginn á milli þrjátíu og fjögur komma fimm og þrjátíu fimm komma fimm, eða þarna, sem sagt um þrjátíu og fimm. Og þá sjáið þið það, það voru átta mótorhjól sem voru með með þá, þann þrýsting. Og þá getum við séð svona hvernig þessi gögn dreifast. Við sjáum það til dæmis hér að það er algengast að vera með þrýsting þarna í kringum þrjátíu og fjóra komma fimm, en í báðum endunum þá er, eru eru færri sem sagt mótorhjól með þennan lág, annaðhvort mjög lága eða mjög háa þrýsting. Og þetta er svona, eins og þið sjáið kannski, svona bjöllukúrfa, sem er mjög algengt, algeng, hérna, í tölfræði, þetta er svona normaldreift. Og þá er þetta svona þessi, já, þessi bjöllukúrfa, það er sem sagt hár toppur í miðjunni sem svona, sem svona lækkar niður til beggja hliða og og teygist svona út, til sitthvorrar hliðarinnar. Og svo til þess að, sem sagt reikna og vinna með þessar breytur, er gott að nota þessi föll sem að hérna, ég ætla að fara í gegnum núna. Í fyrsta lagi þá erum við með það sem heitir probability mass function, eða einfaldlega massa fagl, fall, og það sem sagt gefur manni líkurnar fyrir strjálar slembistærðir. Og þið sjáið til dæmis hér að massafall er bara fall sem er bara líkurnar á að breytan þín taki eitthvað ákveðið gildi. Þegar þú ert með, sem sagt strjála strembis, slembistærð. Og þetta massafall hefur ákveðna eiginleika. Í fyrsta lagi þá þurfa, hérna, allar líkurnar að vera stærri eða jafnt og núll. Þú getur aldrei verið með neikvæðar líkur, það er aldrei mínus tuttugu prósent líkur á því að eitthvað gerist. Það er alltaf núll eða stærra. Svo þegar maður leggur saman allar líkurnar þá er summan einn, og til þess að finna líkurnar á ákveðnum atburði þá sem sagt summar maður upp allar líkurnar fyrir gildin sem eru í þessum atburði, þannig að þið ímyndið ykkur að maður sé að kasta tening, það myndi vera dæmi um strjálan slembiatburð, og þá er það sem getur komið upp á teningnum er einn, tveir, þrír, fjórir, fimm og sex. Þannig það mundi vera sem sagt litla x-ið okkar hér, einn tveir, þrír, fjórir, fimm eða sex. Og x er þá þessi slembistærð sem að er þessi, þessi random event, af því að við vitum ekki áður en við köstum hvað mun koma upp. Og þá myndu líkurnar á einstökum atburði vera einn á móti sex. Af því það er jafnlíklegt að hver hlið komi upp á teningnum. Og svo ef við myndum vilja vita hverjar eru líkurnar á því að við fáum slétta tölu þá vitum það að sléttu tölurnar eru, hvað, tveir, fjórir og sex. Þá myndum við summa saman líkurnar á að fá tvo, líkurnar á að fá fjóra og líkurnar á að fá sex, það eru sem sagt individual líkur, og myndum þá fá út hálfan. Sem sagt líkurnar á því að fá upp slétta tölu er hálfur. Og sem sagt, massafall er bara semsagt leið til þess að tákna, tákna þetta. Og hérna sjáið þið annað dæmi. Við erum með einhverja slembistærð, strjála slembistærð x sem getur tekist þrjú gildi, einn, tvo eða þrjá, með jöfnum líkum, það er jafnlíklegt að hver þessara talna komi upp. Og þá er massafallið táknað á þennan hátt, þið sjáið líkurnar á því að, hérna, x sé jafnt og einn er einn þriðji, að x sé jafnt og tveir er einn þriðji líka og að x sé jafnt og þrír er líka einn þriðji, og annars er það bara núll, að það getur ekkert annað komið upp. Og þá teiknum við þetta massa, táknum við þetta massafall á þennan hátt. Og hérna, annað dæmi um massafall, að við erum með hérna, sem sagt, þetta er slembistærð sem telur hversu oft við fáum upp, hérna, fiskana, þegar við hendum tíkalli þrisvar. Og sem sagt hérna, af því þetta er sem sagt tíkall sem er, sem sagt, sanngjarn, það er jafnlíklegt að báðar hliðarnar komi upp. Og þá verður þetta útkomumengið okkar ef við köstum þrisvar. Við getum fengið upp sem sagt H H H, sem sagt alltaf heads, við getum fengið fyrst heads, svo heads og svo tails, þá er þetta sem sagt útkoman, H H T, og svo framvegis, þannig að þetta eru allir mögulegir, allar mögulegar útkomur í útkomumenginu okkar, ef við köstum pening þrisvar sinnum. Átta mismunandi möguleikar, og og við viljum finna sem sagt massafallið, sem telur hversu oft kemur upp sem sagt heads. Og þá sjáum við það, það er táknað á þennan hátt að líkurnar á að fá aldrei upp heads, er einn á móti átta, af því það er einn atburðurinn, þarna, T T T, í átta staka mengi, líkurnar á því að fá sem sagt upp einu sinni heads eru þrír áttundu af því að í þessu mengi, sjáið, það eru þrír liðir þar sem er eitt H, líkurnar á því að ég fái tvisvar sinnum heads eru eins, þrír áttundu, af því það eru þrír atburðir þar að sem eru tvö H, og að lokum líkurnar á því að fá sem sagt alltaf upp heads eru einn áttundu, af því að það er alveg eins, sem sagt einn atburður þarna þar sem það kemur alltaf upp, alltaf upp heads. En þið hafið væntanlega séð þetta áður, er það ekki? Þið kannist alveg við þetta. Þannig við bara sleppum þessu, þið getið kíkt á þetta. Þessi dæmi sem ég tók núna, þau díla bara við mjög lítil útkomurúm, mjög lítil, hérna, mengi. Eftir því sem að þetta, sem sagt allt saman stækkar og það eru mun meiri möguleikar í boði, og það verður líka meira svona noise í gögnunum, og, og sem sagt líkurnar á því að hver einstakur atburður gerist verður ólíklegri og ólíklegri. Og þannig að til þess að díla við það, þá er oft hjálplegt að binna gögnin, eða sem sagt raða þeim saman í svona flokka, eða að bara díla við þá sem, sem sagt, já, á meira svona samfelldan hátt með því að nota það sem heitir, hérna, cumulative distribution function, sem er sem sagt þar sem þú ert búinn að summa up eða sem sagt, já, leggja saman líkurnar á þessu öllu saman sem að maður gerir með því raunverulega að maður vill reikna líkurnar á því að af, líkurnar sem sagt að það gerist ekki og þá notum við það sem, sem heitir percentile rank að þá er maður búinn að raða raunverulega upp öllum útkomunum bara í stærðarröð. Og, þannig að, til dæmis, ef þú vilt vita hver, sem sagt, þú tekur eina manneskju og þú mælir hvað hún er há og þú vilt vita hvar í röðinni af öllum, hennar hæð fellur. Sem sagt hversu margir, hversu mörg prósent af öllu þýðinu eru lægri en þessi manneskja, þannig það er pælingin á bak við svona percentile rank. Og þetta sama á við um einkunnir, þið sjáið þetta í einkunnagjöfinni held ég, að maður fær sem sagt einhverja tölu sem svona rank, og þá veistu hversu mörg prósent af öllum voru með lægri einkunn heldur en þú, og það er pælingin á bakvið svona cumulative distribution function. Þú ert búinn að leggja saman allar líkurnar sem eru minni en það sem þú ert að skoða. Búinn sem sagt að raða öllum upp og svo finnurðu hversu stór hluti er minni en einhver ákveðinn. Og það er það sem heitir þetta cumulative distribution function, og það er sem sagt fall sem að varpar gildum yfir í percentile rank, yfir í þennan rank yfir alla. Og þá er það táknað það, sem sagt, á þennan hátt að, hérna, CDF-ið af einhverju gildi eru líkurnar á því að slembistærðin sé minni en eitthvað ákveðið gildi. Og í þessu einfalda dæmi hér, ef við erum með, hérna, úrtak með þessum, þessum fimm gildum, einn, tveir, tveir, þrír og fimm, þá getum við reiknað út CDF-ið af þessu tiltekna dæmi á þennan hátt. Við munum, við röðum upp tölunum í stærðarröð, eins og er reyndar búið að gera hér, þannig að CDF af núll er núll. Af því það er enginn sem er minni heldur en núll, CDF af einum er núll komma tveir eða tuttugu prósent, af því að það er ein tala af þessum fimm sem er minni eða jöfn heldur en einn. Þannig að tuttugu prósent af þessu mengi er minna eða jafnt og einn. Og á sama hátt, þá er CDF-inn af tveimur núll komma sex, af því að sextíu prósent af þessu mengi er minna eða jafnt og tveir. Og svo framvegis, og þegar þau koma út í hinn endann, að CDF-inn af fimm er einn, af því allir eru minna eða jafnt og fimm. Og hérna sjáið þið sem sagt, hvað, hvernig er búið að gera þetta. Í fyrsta lagi erum við með massafallið, það er þetta histogram, þar sem er búið að telja tíðnina á hverju gildi fyrir sig, og svo varpar maður því yfir í CDF-ið, bara með því að leggja saman allt sem er fyrir neðan eitthvað ákveðið gildi, og þá fær maður þessa kúrfu sem að sýnir hversu ört, sem sagt líkurnar aukast. Og þegar maður er kominn með CDF-ið þá er mjög auðvelt að reikna alls konar stika, eins og til dæmis miðgildið. Af því að miðgildið er gildið sem að er í miðjunni, af öllum gildunum ykkar. Þá þarf fyrst að vera búið að raða þeim í rétta röð, frá minnsta til stærsta, og þá er, [mil], miðgildið einfaldlega gildið sem er akkúrat í miðjunni. Og það myndi svara til CDF þar sem x er minna en, þar sem þetta er sem sagt jafnt og núll komma fimm. Þá viltu finna gildið sem er akkúrat í miðjunni, og það sama á við um hérna IQR eða interquartile range, sem er oft notað til þess að lýsa gögnum. Það er raunverulega sá massi gagnanna sem er á milli tuttugu og fimm prósent og sjötíu og fimm prósent af öllum gildunum. Og það er oft notað, til dæmis þegar maður er að reyna að finna svona hérna útgildi, outliers, í gögnum. Þá er þetta IQR mjög gjarnan notað, sem svona einhvers konar miðja í gögnunum, og allt sem fer eitthvað ákveðið langt út fyrir þetta IQR, það kallast þá sem sagt outlier og maður oft hreinsar þá bara í burtu þegar maður er að hreinsa gögnin sín í upphafi. Þetta sem við erum búin að tala um hingað til á við um strjálar, sem sagt, dreifingar. Þegar maður á, er að eiga við samfelldar, þá hérna, notar maður, hérna, bara samfelldan CDF. Og hér er eitt dæmi um sem sagt, samfellda líkindadreifingu, sem er sem sagt exponential líkindadreifingin, sem að lítur svona út. CDF-inn lítur svona út, þið sjáið hvernig hann vex svona svolítið hratt og svo, og svo hérna hægist aðeins á, á vextinum. Og þetta er, hérna, líkindadreifing sem er oft notuð fyrir svona atburði sem að geta gert bara hvenær sem er, og það er bara, það er bara einn parameter til þess að lýsa þessari dreifingu og það er hérna lambda. Og lambda sem sagt ákvarðar það hvernig þetta lítur út, og eftir því sem lambda stækkar eða minnkar þá breytist aðeins lögunin á, á þessum ferli. Og svo er normaldreifingin, sem að er mest notaða líkindadreifingin. Það er allt, oft talað um það að hlutirnir séu normaldreifðir, þið hafið örugglega heyrt það, og, og hérna, það sem sagt, CDF-inn fyrir normaldreifingu lítur svona út og þetta er sem sagt, ef þú myndir diffra þetta þá fengi maður út sem sagt þessa bjöllukúrfu sem ég talaði um áðan, þar sem að mesti massinn er í miðjunni og svona í hölunum, hérna, sem sagt lækkar gildin og teygist svona út. Þannig að mestar líkurnar á því að eitthvað gerist er akkúrat, akkúrat í miðjunni. Og þetta er sem sagt CDF-ið fyrir það. Og, og hérna, og til þess að tákna normaldreifinguna þá þarf maður tvo parametra, annars vegar mu, sem er meðaltalið og hins vegar sigma sem að er staðalfrávikið. Og þegar maður hefur þessa tvo parametra þá getur maður sem sagt teiknað upp þessa kúrfu og og nýtt sér hana. Til dæmis þá er sem sagt, fæðingarþyngd er, er normaldreifð og rosalega margt í daglegu lífi er normaldreift þegar maður fer að skoða, fer að skoða gögnin. Já, og sem sagt, þegar þú ert með, sem sagt, samfellda líkindadreifingu, þá geturðu tekið afleiðuna af CDF-inu og þá færðu sem sagt þéttleikafallið eða PDF. Og það er þá eins og ég var að tala um, það myndi vera normalkúrfan okkar, meðan að CDF-ið sýnir hvernig líkurnar aukast. Og, og þá er PDF sem að mælir líkurnar fyrir hvert gildi af X. Og þá sjáum við hérna hvernig er hægt að tákna það ef við erum með, sem sagt líkurnar á því að slembistærðin X, stóra X, falli á milli mínus hálfs og hálfs. Það er jafngilt því að heildar PDF-ið frá bilinu mínus hálfur upp í hálft, sem er það sama og að reikna CDF-ið í gildinu hálfur og draga svo frá, CDF-ið í gildinu mínus hálfur. Þannig að þú ert búinn að finna stofnfallið, af því að CDF er stofnfallið af PDF. Þess vegna geturðu bara sett það inn og sett svo mörkin inn eins og maður heildar föll. Já, og svo sem sagt, hafið þið séð central limit theorem í tölfræðigreiningu og stærðfræði, stærðfræðigreiningu og tölfræði? Nei. Sem sagt þetta er mjög gagnleg regla eða setning sem hefur með, hérna, dreifingu gagna að gera, sem segir bara það að ef að maður er með nógu stórt úrtak úr einhverju þýði þá er sem sagt meðaltalið á úrtakinu það sama og meðaltalið á þýðinu. Þetta er mikið notuð setning af því að hún sem sagt, já, hefur svona sterkar afleiðingar fyrir, fyrir hérna, fyrir gögnin. Af því að um leið og maður veit að eitthvað er normaldreift þá er rosalega margt sem maður getur gert við þau og til dæmis með svona tilgátuprófanir og svoleiðis. Þannig að það að vera normaldreift er mjög sem sagt sterkur, sterkur eiginleiki. Já, og hérna sjáið þið sem sagt hvernig þetta tengist allt saman sem ég er búin að vera tala um, sem sagt massafallið og dreififallið og, hérna, líkindadreififallið. Að við byrjuðum á að vera með strjálar slembistærðir. Og þá, hérna, vorum við með hérna, massafallið, að það sem sagt var bara raunverulega tíðniritið. Og svo getum við sum-að up eða sem sagt, lagt saman allar líkurnar, og þá fáum við þetta sem sagt CDF sem að vex svona upp. Og þetta var fyrir, þetta var fyrir strjálar strembistærðir. En svo eftir því sem að fjölda mögulegra gilda fjölgar, þá verður þetta svona allt miklu meira smooth, þá hættir þetta að vera bara, þú veist, í svona einhverjum bútum, og þetta verður bara allt saman mjög svona smooth og fallegt. Og þá förum við yfir í sem sagt, samfelldar líkindadreifingar, og þá tölum við líka um sem sagt CDF. Og svo getum við diffrað CDF-ið til þess að fá þéttifallið, PDF, og eins á móti getum við heildað PDF-ið til þess að fá CDF-ið. Og svo þegar við erum með sem sagt PDF sem er þéttifallið, ef við tökum öll gildin og svona klippum þau niður í bins, þá fáum við aftur þetta, þetta strjála massafall. Og þið getið kannski ímyndað ykkur þannig að við erum með eitthvað sem er samfellt, eins og til dæmis hæð fólks. Það er eitthvert dæmi um, um eitthvað sem að er er samfellt. Og þá er það kúrfa sem myndi kannski vera svona svolítið smooth. En svo myndum við ákveða að við vildum flokka alla svona niður og segja, allir sem er á bilinu einn og fimmtíu til einn, fimmtíu og fimm, svo einn fimmtíu og fimm til einn og sextíu, einn og sextíu til einn sextíu og fimm, þá erum við að flokka þetta niður í bins. Og þá förum við úr þessu samfellda og yfir í þetta strjála. Og það er oft sem maður sér náttúrulega, þegar maður er með gögn og er að er að hérna, teikna histogram, að þá er þetta svona sett niður í bins og þá verða allar súlurnar svona allar kassalaga, og, og hérna, og þetta er svona sambandið þarna á milli. Og eins það að fara frá massafallinu yfir í sem sagt CDF-ið, að maður er að, er að leggja saman alla, gildin sem eru fyrir neðan ákveðið gildi. Og þið sjáið það líka að, hérna, að þessa samsvörun á milli þess sem er strjáls og þess sem er samfellds, að í strjála tilfellinu, þá erum við að leggja saman og draga frá, á meðan að í samfellda tilfellinu þá erum við að heilda og diffra. Þetta eru svona sambærilegar aðgerðir. Ég er búin að tala um núna svolítið um, hérna, það sem heitir descriptive statistics, þegar við erum að lýsa gögnunum okkar. En svo er líka hægt að nota inferential statistics, þar sem maður er að draga einhverjar ályktanir, og maður er að nota gögnin til þess að, eins og ég segi, draga ályktanir, með því að nota úrtakið, um allt þýðið. Þannig að við segjum það, ókei, ef meðaltalið hérna í þessari stofu af, meðalaldurinn í þessari stofu er tuttugu og eins árs, þá ætlum við að segja það að meðalaldur allra Íslendinga sé líka tuttugu og eins árs. Þetta er dæmi um það að við myndum draga einhverja ályktun, sem að í þessu tilfelli myndi örugglega ekki vera rétt, af því að þið eruð kannski ekkert voðalega gott úrtak af öllum Íslendingum. En þetta er svona dæmi, dæmi um það. Og þá oft þarf maður að nýta sér líkindafræði og líkindadreifingar þegar maður vill gera svona inferential statistics, af því að maður vill sem sagt geta sagt að úrtakið mitt er til dæmis normaldreift, og þá getur maður notað normaldreifinguna til þess að draga ályktanir. Og það sem maður gerir líka í þessu tilfelli er að sem sagt, meta styrkleika, sem sagt, á milli tveggja breyta. Hversu mikil tengsl eru á milli breyta. Getum við notað eina breytu til þess að spá fyrir um gildi annarrar breytu. Og það er, þetta er svona það sem við munum vera að gera svolítið mikið í, sem sagt, seinni hluta námskeiðsins, þegar þið byrjið að halda kynningar, að þið verðið að tala um þetta inferential statistics. Því að þessir algóriþmar og þessar aðferðir í machine learning sem að við erum að nota til þess að, til þess að læra frá gögnum, þær, eins og ég segi, þær læra af gögnunum og maður notar þessar aðferðir til þess að spá fyrir um eitthvað sem er áður óséð. Þannig að til dæmis bara með gagnasafn, og maður beitir á, það er einhver aðferð eins og til dæmis, hérna, svona, hvað heitir það, decision trees, að maður vill svo nota módelið sem maður lærir á gögnunum til þess að spá fyrir um einhver áður óséð gögn. Og það er það sem inferential statistics gerir líka, að það kennir manni hvernig maður á að spá fyrir um eitthvað sem maður hefur ekki séð áður. Sem dæmi um þetta er líka til dæmis í, í tímaraðagreiningu, þar sem maður vill spá fyrir um eitthvað sem á að gerast á morgun út frá því sem þú veist um fortíðina. Hvernig á veðrið að vera á morgun, og þá notar maður oft sem sagt historíuna sem maður veit, söguna. Og, og hérna, það stendur hérna að núna erum við búin að gefast inn, smá inngang af þessu sem heitir escriptive [HIK: st], descriptive statistics, og þið munuð sjá það svo aftur í næstu viku þegar að við förum í, hérna, myndræna framsetningu. Það hefur líka með svona, lýsandi tölfræði að gera. En það sem við viljum vinna okkur að er þetta inferential statistics, þetta, það að geta spáð fyrir um, og áður óséð, óséð gögn. Ef við förum núna yfir í notebook-ið okkar, bamm bamm, sem við vorum með hérna, það sem sagt eru tvö svona Jupyter notebook fyrir daginn í dag, annars vegar um tölfræði og hins vegar um líkindafræði. Ég ætla að fara í líkindafræðina á eftir, við ætlum að byrja bara á tölfræðinni. Ef við byrjum hérna, sem sagt: þetta er bara þessi pakki sem við byrjum alltaf á að vinna með. Og svo erum við með, eins og ég talaði um áðan, það að, að kasta teningi. Teningur er náttúrulega bara strjál slembistærð sem getur tekið sex gildi: einn, tveir, þrír, fjórir, fimm og sex. Og við gætum táknað það sem svona, með, í Python, ef við erum með þennan hérna, stats library. Og þá er teningurinn okkar einfaldlega slembitala á bilinu einn upp í sex, sem sagt slembin, heil tala á bilinu einn upp í sex, og það stendur hérna sjö af því að það er sem sagt ekki tekið með. Það er allt upp að sjö. Einn, tveir, þrír, fjórir, fimm og sex. Og svo, hérna, þetta RVS er raunverulega bara, hérna, hending, að við getum sagt honum hérna með því að gera dice punktur RVS tíu þýðir raunverulega kastaðu teningnum tíu sinnum. Og svo að lokum viljum við vita hvert er hæsta gildið og þá bara köstum við honum nógu oft til að fá örugglega upp hæsta gildið sem við vitum að er til sex, þannig að ef við myndum keyra þennan þá sjáum við hérna, við köstuðum honum tíu sinnum, fyrst komu upp fjórir, svo komu upp sex og svo tveir og svo fjórir og svo framvegis. Þannig að þetta eru öll köstin okkar. Og þegar við köstuðum honum tí, þúsund sinnum þá var stærsta gildið sex. Þannig að á þessum tening kom upp sex alla vega einu sinni þegar við köstuðum honum þúsund sinnum. Og svo viljum við reikna líkurnar á því að fá upp fjóra, til dæmis, þegar maður kastar tening. Og þar notum við sem sagt þetta massafall sem heitir bara PMF. Og þá köllum við PMF á teninginn okkar sem, muniði, var bara þessi, hérna, slembna hending. Og þá fáum við út einn sjötta, einn, líkurnar á því að fá fjóra þegar maður kastar tening er einn sjötti. Og svo viljum við finna út, sem sagt líkurnar á því að fá fjóra eða minna og þá notum við CDF-ið sem, muniði, var uppsöfnuðu líkurnar og segjum dice punktur CDF af fjórum, og þá er það sem sagt fjórir eða minna, og fáum upp tvo þriðju. Og svo líkurnar á því að fá gildi á milli tveggja og fjögurra. Og þá þurfum við að taka þetta í sem sagt tvo hluta. Við þurfum að sem sagt finna líkurnar á því að fá fjóra og minna og draga svo frá líkurnar á því að fá einn og minna. Sem er þá hérna, CDF af fjórum mínus CDF af einum, og þá fáum við út hálfa, hálfan. Og svona sem sagt getið þið notað dreififöll og massaföll í, í Python á einfaldan hátt. Einhverjar spurningar um þetta? Nei. Ókei. Þá erum við sem sagt komin í hérna, histogram. Ég held að, hafið þið ekki búin að sjá histogröm áður? Sem sagt, við bara byrjum á því að búa til fimmtíu slembitölur á bilinu núll og upp í einn. Þannig að við erum bara með hérna lista af tölum. Og svo getum við plottað histogramið og þá sjáið þið hérna að það er búið að binna þetta svona í, í hérna nokkra flokka og, og sjáið hvernig þetta skiptist þannig að ef við myndum keyra þetta aftur þá myndum við fá annað histogram af því að tölurnar breytast, af því þetta er náttúrulega slembið. Ókei. Svo erum við með hérna þrjú gagnasöfn sem að ég er búin að setja inn á Canvas, þið getið tékkað á þeim. Þið kannski, hérna, já, takið eftir því að þetta er sem sagt wheat, þetta er hveiti en ekki weed, þó að það standi mjög gjarnan hérna í textanum fyrir neðan weed, þá á þetta að vera, sem sagt, wheat. Ekki láta það rugla ykkur. En þetta eru sem sagt gagnasöfn, þrjú gagnasöfn sem að lýsa verði á hveiti í Bandaríkjunum. Sem sagt hveiti sem er ræktað í mismunandi ríkjum, þannig að þú ert með sem sagt hversu mikið var ræktað og hvað, hvað verðið var. Ég ætla að byrja á því að keyra þessi hérna, lesa inn gögnin hérna og svo erum við með fyrsta gagnasafnið sem er bara verð og þá ertu með, hérna, mismunandi ríki. Og hveitið skiptist í nokkra gæðaflokka. Þú ert með sem sagt mjög gott, eða sem sagt, high quality, medium quality og low quality hveiti, og þetta er sem sagt verðið og þetta er bara fjöldinn sem var ræktaður. Og svo ertu með líka nokkrar dagsetningar. Þetta nær alveg yfir nokkurra ára tímabil þetta gagnasafn og þetta er sem sagt það sem var, já, selt þennan daginn, geri ég ráð fyrir. Og þetta er sagt efstu línurnar í gagnasafninu og svo ertu með neðstu línurnar, þannig að þið sjáið að þetta eru eiginlega öll ríkin í Bandaríkjunum sem eru að rækta hveiti og þessi hérna eru sko í janúar tvö þúsund og fjórtán og hérna erum við komin í, í desember tvö þúsund og fjórtán. Og svo erum við með annað gagnasafn sem heitir Demography, sem að er raunverulega bara um ríkin sjálf. Og eins þá erum við með öll ríkin í Bandaríkjunum, hver, hérna, hversu margir búa þar og skiptinguna á sem sagt, kynþáttum og já, sem sagt meðalinnkomu og, og svona ýmislegt, ýmislegar upplýsingar. Og svo erum við með það sem heitir Population, þar sem að eru, fjöldi í hverju ríki og ef þið sjá, ef þið berið það saman þá eru þetta ekki sömu tölurnar, sem er kannski bara merki um að þetta var ekki tekið saman á sama tíma. Þessar tölur eru ekki frá sama árinu, til dæmis. En við munum ekki nota þetta Population, þið getið bara pælt í því sjálf ef þið viljið, við ætlum bara að nota hin tvö, held ég. Þegar við kíkjum á þetta Prices gagnasafn sem er sem sagt verðið á, á hveitinu, og við skoðum hvaða týpur við erum með af, af breytum, þá sjáið þið það að við erum með sem sagt, hérna, quality gögn hérna, high og medium og low er sem sagt bara float value, og svo erum við með þessar, þennan fjölda sem er alltaf bara integer value og svo erum við með eitthvað sem heitir date, sem date time, og svo er bara ríkið sjálft. Og við ætlum að byrja á því að hreinsa gögnin og raða þeim þannig að fyrst hérna erum við með, ætlum við að raða þeim sem sagt eftir, fyrsta lagi, nafninu á ríkinu, og svo í öðru lagi eftir dagsetningu, þannig að elsta verði efst og nýjast verði neðst. Og svo ef þið skoðið gögnin þá sjáið þið að það er svolítið af N/A value-um í þessum gagnasöfnum, og við ætlum að fylla inn þessi N/A value með fill N/A fallinu, þar sem við notum f fill, hafið þið notað það? Þá tekur hann raunverulega bara, sem sagt gildið sem er fyrir ofan. Þannig að þú kemur að einhverju N/A gildi og þú fyllir inn í það með því að nota gildi sem er í röðinni fyrir ofan. Og þetta er ein aðferð til að fylla inn N/A. Og, og hérna, og kannski aðferð sem er allt í lagi ef það eru ekkert voðalega mörg N/A, en þið, ímyndið ykkur ef að það er einhver breyta þar sem eru þú veist, áttatíu prósent gilda sem vantar, og maður fyllir bara alltaf inn það sem var í röðinni fyrir ofan, þá verða öll gildin bara eiginlega eins. Þannig að hérna, þetta er aðferð sem er ágætt að nota ef það eru bara fá sem vantar. En við notum það núna. Og nú ætlum við að fókusa bara á Kaliforníu, við ætlum að reikna út sem sagt þessa lýsandi stika fyrir Kaliforníu. Byrjum á meðaltalinu. Þannig að við ætlum byrja á því að sem sagt finna bara út Kaliforníu í gögnunum okkar þannig við, við hérna, búum til nýtt, nýja töflu sem heitir bara Kalifornía, PD, og skoðum hana. Þannig að þið sjáið það, við erum komin með bara ríkið, Kaliforníu, og verðið á hveiti í Kaliforníu. Og til þess að reikna út meðaltalið þá, muniði, við þurfum að leggja saman öll gildin og deila með fjöldanum. Þannig að við bara byrjum á því að leggja saman öll high quality verðin í Kaliforníu, það myndi vera þessi, hérna, sem við köllum C A underscore sum, þannig að við erum búin að leggja það allt saman saman. Og svo viljum við vita hversu mikið var, var selt í, í Kaliforníu þannig að við bara við teljum hversu margar línur raunverulega eru í þessu gagnasafni, og það myndi þá vera C account, það er fjöldinn, og það er fjögur hundruð fjörutíu og níu. Og svo til þess að reikna meðaltalið þá tökum við summuna og deilum með fjöldanum. Þannig að C A mean myndi vera meðaltalið okkar. Og þá sjáið þið að meðalhveitiverðið í Kaliforníu er tvö hundruð fjörutíu og fimm. Og svo ef við myndum vilja gera þetta fyrir einhvern ákveðinn, ákveðið ár, þá myndum við eins bara condition-a á árið sem við viljum, eins og við gerum hér, og þá fáum við sem sagt að meðal verðið í Kaliforníu árið tvö þúsund og fimmtán var tvö hundruð fjörutíu og tveir, sem er aðeins lægra heldur en yfir öll árin. Nú, svo viljum við finna miðgildið, munið að þá þurfum við að raða þeim í röð, frá minnsta til stærsta, sem sagt eftir verðinu, og við þurfum að finna gildið sem er í miðjunni. Og við vitum að það eru fjögur hundruð fjörutíu og níu gildi í, í þessari töflu, og hérna ætlum við að raða þeim eftir verði. Við verðum að, notum hérna sort values og veljum dálkinn sem við viljum að sé raðað eftir. Þannig að ef við keyrum þetta þá sjáum við að það, hérna, vex verðið, þannig að þetta myndi vera lægsta verðið í, í þessari töflu og svo verða þau hærri og hærri eftir því sem við förum neðar. Og svo þyrftuð þið að finna miðgildið, þá einfaldlega finnum við gildið sem er í miðjunni. En við vitum að hér erum við með oddatölufjölda af röðum. Ef við værum með sléttan fjölda af röðum hvað myndum við þá gera til að finna miðgildið? Ef það er engin tala í miðjunni. Já, alveg rétt, alveg rétt. En við erum heppin núna. Ókei, og svo er mode sem að ég nefndi ekki áðan, en mode er sem sagt tíðasta gildið, hvað kemur oftast fyrir í þessari breytu. Og hérna er hann að nota sem sagt bara count values eða value counts, þegar þú telur hversu oft hvert gildi kemur fyrir, og svo er því bara automatically raðað í röð frá stærsta til minnsta. Þess vegna getum við tekið index núll til þess að finna raunverulega hvaða gildi er, er tíðast. Og í þessu tilfelli þá er það tvö hundruð fjörutíu og fimm komma núll fimm. Og svo til að reikna variance-inn, þá sem sagt þurfum við að nota þessa hérna formúlu. Við þurfum að byrja á því að taka alla, allar ræðurnar, draga frá meðaltalið, og setja það í annað veldi. Þannig að við búum raunverulega til hérna nýjan dálk í töflunni okkar, þar sem við erum búin að taka gildið sjálft, draga frá meðaltalið og setja það allt saman í annað veldi. Þannig að við erum komin með hérna nýjan dálk í töfluna okkar. Og, og hérna, og svo þegar við erum komin með þennan nýjan dálk hérna þá leggjum við saman öll gildi inn í dálkinum og deilum með n mínus einn og þá erum við komin með drefinina af, hérna, verðinu af quality hveiti í Kaliforníu. Sem þið sjáið sem sagt hérna, þannig að þetta myndi vera dreifnin á þessu, þessari breytu. En núna, hingað til þá erum við búin að nota hérna svolítið svona, hérna, basic aðferðir til þess að reikna þetta. Við erum bara búin að reikna þetta sjálf í höndunum. En auðvitað eru pandas með föll sem reikna þetta bara sjálfkrafa fyrir okkur. Við þurfum ekkert að fara að búa til nýja dálka og summa þetta upp eitthvað sjálf og svoleiðis, heldur getum við til dæmis notað þetta describe fall hér til þess einfaldlega að fá allt þetta, öll þessi, sem sagt, alla þessa stika, bara út. Þannig að við gerum Kalifornía punktur, PD punktur describe. Þá fáum við hérna meðaltalið sem við reiknuðum áðan líka, við fáum staðalfrávikið, við fáum minnsta gildið og þessi quartiles hérna, tuttugu og fimm prósent, fimmtíu prósent og sjötíu og fimm prósent og þið munið það að fimmtíu, fimmtíu prósent quartile, það er miðgildið. Þannig að við erum með miðgildið hér og svo erum við líka með stærsta gildið. Og hérna, kannski takið eftir því að hérna, þetta gildi hér, dreifnin sem við reiknuðum, er ekki sama og þetta gildi. Það er einfaldlega vegna þess að þetta er staðalfrávikið sem er gefið hér, þannig að til þess að fá þetta hér gildi þá tökum við kvaðratrótina af þessu. Bara ef þið farið eitthvað að velta fyrir ykkur af hverju þetta passar ekki saman. Þá er það vegna þess að það þarf að taka kvaðratrótina til að fá staðalfrávikið. Já, og svo eins þá getum við notað einfaldlega fallið mode til þess að reikna út tíðasta gildið og þá fáum við út mode-ið. Og svo náttúrulega getum við líka að sjálfsögðu reiknað hvern stika fyrir sig. Til dæmis með því að kalla bara á mean, hérna, þá myndum við fá út meðaltalið, eins ef við skrifum median þá myndum við fá út miðgildið og svo framvegis. Þannig að þið getið notað describe til þess að fá þetta fyrir alla töfluna, öll þessi mismunandi gildi, eða bara notað hvert fall fyrir sig til að finna hvern stika fyrir sig. Nú, þetta eru allt saman sem sagt stikar fyrir einstakar breytur. Ef þú vilt fá meðaltal af hæð eða verði eða einhverju. En svo getur maður fundið samband á milli tveggja breyta, með því að reikna covariance og correlation eða fylgni. Og þetta myndi vera sem sagt jafnan fyrir covariance, og hann sem sagt reiknar út svona, já, sambandið á milli tveggja breyta, sem sagt hversu, hversu dreifnar þær eru og hversu mikið þær tengjast hvor annarri. Og, þannig að í þessu tilfelli, ef við myndum vilja finna út covariance-inn á milli verðsins í Kaliforníu og New York, við viljum vita hvort að verðin í þessum tveimur ríkjum fylgist að. Þannig að ef verðið á hveiti í New York hækkar, hækkar þá líka verðið á hveiti í Kaliforníu. Það er svona spurning sem að covariance getur hjálpa manni að, að svara. Og hérna, sem sagt erum við að, bara í fyrsta lagi búa til nýja töflu sem er bara með verðinu í New York, og það er bara eins og við gerðum áðan með Kaliforníu nema núna í staðinn, þá sem sagt condition-um við á, á New York en ekki Kaliforníu. Sem sagt veljum allar línur þar sem state er jafnt og New York. Setjum það inn í nýja töflu sem lítur þá svona út, og svo erum við bara, höfum við bara áhuga á þessum tveimur flokkum eða tveimur dálkum, sem sagt fyrsta og sjöunda dálkinum, sem er sem sagt verðið og dagsetningin, og svo erum við bara nefna þá upp á nýtt og þá lítur þetta svona út. Hvað gerði ég nú? Já, hann er ekki til, svona, svona, ókei. Og svo bara skoðum við töfluna okkar, þá erum við með hérna sem sagt verðið í New York og svo, hérna, erum við sem sagt núna aftur að reikna raunverulega þennan covariance bara sjálf í höndunum með því að búa til hérna nýjan dálk sem heitir Kalifornía deviation og New York deviation, og fáum þá út, sem sagt bara út frá þessari jöfnu hérna, fáum við út covariance-inn á milli þessara tveggja breyta. En að sjálfsögðu þá getum við líka notað innbyggt fall. Bíðið aðeins, ég ætla aðeins að fara að bakka, af því að ég gleymdi hérna að sem sagt, hér erum við að búa til nýja töflu þar sem við erum að merge-a tvær töflur. Og við erum að merge-a, þær á, sem sagt, dagsetningunni. Við viljum að verð í New York og Kaliforníu á hveiti, sem sagt fyrsta janúar, komi í sömu línu og annan janúar í sömu línu. Þannig að við erum að sameina þær á dagsetningunni. Og þá fáum við út töflu sem lítur svona. Þá erum við með sem sagt verðið í Kaliforníu og verðið í New York á þessum degi. Tuttugasta og sjöunda desember árið tvö þúsund og þrettán þá kostaði hveiti í Kaliforníu þetta og þrjú hundruð fimmtíu og eina í New York. Og við gerum það með þessu merge falli hérna. Og þá getum við notað þetta innbyggða fall sem heitir covariance til þess að reikna covariance-inn í þessari töflu. Og þá sjáum við að á milli Kaliforníu og Kaliforníu er sem sagt tvö hundruð níutíu, tveir komma níutíu og átta og í New York, New York er tólf og svo fimm komma níu á milli Kaliforníu og New York. En covariance er ekkert alltaf mjög auðvelt að, að túlka. Það er oft betra að nota það sem heitir correlation eða fylgni, af því að þá ertu búinn að staðla þetta, og þá veistu það að fylgnin er alltaf tala á milli mínus eins og eins. Þar sem að mínus einn þýðir að það er sem sagt fullkomin neikvæð fylgni, þannig að ef önnur talan stækkar þá minnkar hin, og því lengra sem þú nálgast einn þá ertu með, sem sagt, jákvæða fylgni, sterka jákvæða fylgni, sem þýðir að ef önnur hækkar að þá hækkar hin líka. Og svo ef þú ert með gildi sem er í kringum núll þá er engin fylgni, þannig að ef ein breytist á einn hátt þá getur hvað sem er gerst fyrir hina. Og, hérna, við getum sem sagt reiknað fylgnina með corr fallinu hérna í Python, sem gefur okkur eins og þið sjáið hérna bara tölur á bilinu mínus einn og upp í einn. Og nú er mjög auðvelt að sjá að það er mjög sterk jákvæð fylgni á milli verðsins í Kaliforníu og New York, núll komma níutíu og sjö, sem er mjög nálægt einum, sem þýðir að það er mjög sterk jákvæð fylgni á milli þeirra. Ókei, svo hérna, ætlum við að, að plotta verðin, og þið sjáið hérna dreifinguna á hveitiverði, þetta er sem sagt fyrir allt gagnasafnið. Við erum með hérna prices, allt gagnasafnið, og þið sjáið hér að það er mjög mikill massi hérna í kringum þrjú hundruð og fimmtíu og svo er sums staðar mjög, hérna, töluvert lægra verð með svona litlum toppum. Svo, sem sagt, ætlum við að skoða, sem sagt, eftir mánuðum verð á hveiti, og þá notum við svona lambda föll kannist þið lambda föll? Þetta er svona bara one line-erar til þess að gera einhverjar ákveðnar operation-ir, geta verið mjög sniðugir, og núna erum við að nota þá til að bæta við dálkum í töfluna okkar, annars vegar hvaða mánuð hveitið, úr mánuði þetta hveiti kemur, og hins vegar frá hvaða ári það kemur. Þannig að við bætum við hérna tveimur nýjum dálkum. Og, og svo viljum við bara að finna þá sem voru ræktaðir, sem sagt, í janúar árið tvö þúsund og fimmtán. Við viljum finna verð á hveiti í janúar tvö þúsund og fimmtán. Það er það sem við erum að gera hér. Og þá sjáum við hérna þessa töflu, Og þetta er verð á hveiti í janúar, tvö þúsund og fimmtán. þá getum við á sama hátt plottað histogram-ið af því. Og svo erum við búin að setja hérna yfir, sem sagt, þéttifallið. Já. Þannig að það er svona ýmislegt sem við getum séð út úr, út úr þessum gögnum, með því að skoða verðið á hveiti í Bandaríkjunum. Eigum við að taka fimm mínútna pásu? Já, ókei.


Tölfræði og líkindafræði Statistik och sannolikhet

Heyrið þið eigum við þá að byrja, eða? Sem sagt í dag þá ætlum við að tala um tölfræði og líkindafræði sem eru bæði svona, já, svolítið undirstaða undir gagnagreiningu af því að í gagnagreiningu þá erum við náttúrulega að vinna með mikið af gögnum. Cela étant dit, aujourd'hui, nous allons parler de statistiques et de théorie des probabilités, qui sont toutes deux, oui, un peu basiques en analyse de données, car dans l'analyse de données, nous travaillons naturellement avec beaucoup de données. Og það er hérna, akkúrat, sem sagt tölfræðin sem að maður notar þegar maður er að vinna með mikið af gögnum. Og hún hefur náttúrulega hlotið svolítið svona nýtt líf seinustu ár eftir því sem gagnasöfnin yrðu stærri, urðu stærri og stærri. Þá er þetta svona búið að breytast og tölfræðin núna er rosalega mikið að þróast með þessari nýju tækni sem er komin. En samt í grunninn þá náttúrulega er þetta ennþá þetta það sama að safna gögnum, greina þau, túlka þau og setja þau fram á hátt sem fólk getur skilið, sem sagt, ekki bara að vera með einhvern lista af einhverjum tölum heldur kannski að setja þær upp á myndrænan hátt eða að reikna einhver, hérna, svona, hérna, gildi sem að taka saman einhverjar mikilvægar niðurstöður úr þessum gögnum, eins og til dæmis meðaltal eða dreifni. Og svo líka það að tengja saman kannski eina, sem sagt fleiri en eina breytu, að vera með kannski tvær og sjá sambandið á milli þeirra, hvort önnur breytan geti sem sagt spáð fyrir um hina eða hvort það séu bara, sem sagt, sé fylgni á milli þeirra. Og, og hérna, þannig að það er mjög gott að vera, sem sagt, leikinn í því að, að vinna með gögn, sama hvort þið séuð að nota Python eða, eða eitthvað annað, eitthvað annað gagnasafn, og þetta er það sem þið eruð búin að vera að sjá seinustu viku er hérna í þessum, hérna, notebook-um sem hann Magnús er búinn að vera með, þá eru þið búin að vera alltaf með eitthvað gagnasafn og eruð að vinna með þessi gagnasöfn. Já, og þetta er kannski eitt svona mjög fundamental, hérna, leið til þess að vinna með gögn er hérna, sem þið sjáið hér, einhver sem var ekki giftur í gær. En svo er hún gift í dag. Og ef þú sem sagt extrapolate-ar þetta þá, hérna, mun hún vera búin að eignast marga eiginmenn áður en langt um líður. Ókei, en sem sagt, þegar við erum að vinna með tölfræði þá eru nokkur grunnhugtök sem að við þurfum að hafa á hreinu. Annars vegar breyta, sem að, hérna er einhvers konar ástand sem að, hérna getur tekið mismunandi gildi, eins og til dæmis hæð eða þyngd eða litur eða kyn. Þetta er dæmi um breytu. Og við yfirleitt gerum greinarmun á tvenns konar breytum, annars vegar strjálum breytum og hins vegar samfelldum breytum þar sem strjálar breytur skiptast í einhvers konar flokka, eins og til dæmis einkunnir eða litur eða kyn, á meðan að samfelldar breytur eru, bara sem sagt rauntölur raunverulega, til dæmis eins og tími eða þyngd, eitthvað sem þú getur tekið, hvaða gildi sem er á einhverjum, hérna, bili. Og svo erum við alltaf að mæla þessar breytur eða skrá þær, af því að við viljum draga einhverjar ályktanir um einhvern hóp, til dæmis alla Íslendinga, eða alla í heiminum, eða bara hvað sem er. Og þessi hópur, sem er þessi heild, kallast þýði eða population, og þá er þá verið að tala um alla í einhverjum skilningi, segjum til dæmis alla Íslendinga eða alla nemendur í HR. En svo vill þannig til að það er ekkert alltaf hægt að mæla hæðina hjá öllum og hafa alla með í þínu, þinni, hérna, tölfræðilegu greiningu og þess vegna tekur maður þýði, nei fyrirgefðu, maður tekur, hérna, sample, sem er hérna úrtak. Þú velur einhvern ákveðinn fjölda úr öllu þýðinu sem á að vera svona hérna, það sem kallast representative sample, þetta á að vera hluti af þýðinu sem að er, sem hegðar sér eins og allt þýðið. Þannig að þið getið ímyndað ykkur, ef þið ætlið að, að hérna, fá úrtak sem að er gott representation af öllum nemendum, nei fyrirgefðu, af öllum Íslendingum, þá er ekkert endilega mjög gott að fara bara í HR og spyrja nemendur þar, af því að nemendur í HR eru að einhverju leyti frábrugnir öllum Íslendingum. Þannig að þegar maður er að velja sér þetta úrtak þá þarf maður að passa það að það sé eins og þýðið. Það þarf að vera representative. Og svo eru þessar breytur sem við erum að spá í. Það eru til nokkrar tegundir af breytum, og þá, sem sagt, skiptast þær yfirleitt í þessa fjóra flokka. Við erum með sem sagt nominal scale, þar sem við erum með eitthvað sem er ekki raðað. Þá ertu bara með einhvern bara, sem sagt tilheyrirðu einhverjum ákveðnum flokki, eins og til dæmis litur eða kyn. Það myndi vera nominal scale, af því að það er engin röðun á milli þeirra, það er ekkert betra að vera blár eða rauður, til dæmis. Það myndi vera sem sagt nomilal, nominal. Og svo ertu með ordinal scale, þar sem þú ert með einhvers konar röðun á milli flokkanna þinna. En þú getur samt ekki sagt að sá sem er hérna í efsta flokkinum sé endilega helmingi betri en sá sem er í öðrum flokkinum, til dæmis. Eins þegar þú ert með svona kapphlaup eða, einhvers konar, já, kapphlaup, til dæmis hér, svona hestaveðhlaup, þá er ekki endilega sá, þannig að sá sem er í fyrsta sæti sé helmingi betri en sá sem er í öðru sæti, hann er bara betri. Það er bara svona einföld röðun án þess að þú gerir greinarmun á því hversu miklu, mikill munurinn er á milli þeirra. Og svo í þriðja lagi ertu með það sem heitir interval scale, þar sem að þú ert með jafnt bil á milli alls staðar og það, um dæmi um það er til dæmis, hérna, hiti. Og þið getið ímyndað ykkur sem, sagt sem svo að, að hérna, tuttugu stiga hiti er ekkert endilega tvöfalt heitara heldur en tíu stiga hiti. Þannig að það er, það er röðun. En það er ekkert absolute núll og þess vegna geturðu ekki sagt að eitthvað sé svona miklu betra en eitthvað annað og svo sem sagt að fjórða leyti þá erum við með ratio scale þar sem við getum sagt að eitthvað sé helmingi betra en eitthvað annað, eða helmingi stærra eða helmingi meira og það er allt sem við svona mælum, hérna, lengdir og þyngdir og, og svoleiðis. Það myndi þá vera ratio scale. Og, og verð, þar sem við erum með eitthvað, sem sagt núll á skalanum okkar. Og hérna sjáið þið sem sagt yfirlit yfir þessa skala og svona grunneiginleika, og hvaða, hérna, hvernig við getum borið saman hluti í þessum skölum. Þannig að þið sjáið til dæmis nominal scale þar sem við vorum með til dæmis liti eða einhvers konar flokka. Þar, hérna, geturðu bara séð hvort þeir séu eins eða ekki eins, sem sagt bara jafnt og eða ekki jafnt og. Og svo eftir því sem við förum niður þennan skala þá geturðu gert fleiri, sem sagt operations, þar til þú kemur í þennan seinasta ratio skala þar sem að þú getur borið saman hver er stærri og hver er minni, þú getur lagt og dregið, lagt saman og dregið frá og, og svo framvegis. Tölfræði skiptist yfirleitt í það sem heitir descriptive og predictive statistics, þar sem að í fyrra, descriptive statistics, þá ertu að, bara taka gögn sem eru til og, og hérna, raða þeim og taka þau saman á einhvern hátt til þess að lýsa því sem þú ert með í þínu, í þínu þýði eða þínu úrtaki. Og þá ertu oft, sem sagt, að taka saman einhverjar töflur eða búa til einhverjar myndir eða eitthvað slíkt til þess að, sem sagt, gera skiljanlegt það sem er í gögnunum. Og þá er maður líka að nota sem sagt, svona stika, til þess að taka saman kannski í eina tölu eitthvað, einhverja heila breytu, eins og til dæmis að taka meðaltal eða finna miðgildi, það eru stikar sem við getum reiknað út frá breytunum okkar. Já, og sem sagt meðaltal, þið þekkið öll meðaltal, þar sem maður tekur öll gildin og finn, semsagt leggur öll saman og deilir með fjöldanum og þá ertu kominn með meðaltal. Og þetta er sem sagt mjög einfaldur stiki sem þú getur reiknað fyrir einhverja breytuna í gagnasafninu þínu og þá veistu svona nokkurn veginn hvernig tölurnar liggja. Sem sagt ef ég myndi spyrja ykkur öll hvað þið eruð gömul. Þá get ég reiknað meðaltalið til þess að fá meðalaldurinn í, í þessum, í þessum fyrirlestri. Og svo það sem tengist mjög meðaltalinu, það sem heitir dreifni eða variance, þar sem við erum að mæla hversu dreifð gögnin eru, hversu langt út frá meðaltalinu eru þau. Já, þannig að við hérna, drögum alltaf frá sem sagt, við tökum öll, hérna, gildin okkar og drögum meðaltalið frá, setjum það í annað veldi, og svo deilum við aftur með fjöldanum og þá vitum við svona nokkurn veginn hversu langt frá meðaltalinu gögnin liggja að jafnaði. Og svo það sem er mjög algengt er að vinna með, það sem heitir staðalfrávik, þar sem þú tekur kvaðratrótina af, af þessari dreifni. Já, og við sjáum á eftir hvernig við, hérna, reiknum þetta í Python. Og svo svona einfaldasta leiðin til þess að setja fram gögn á myndrænan hátt ef þú ert með, sem sagt eina breytu er histogram, þar sem að maður sem sagt telur einfaldlega tíðnina af hverju gildi fyrir sig og setur það upp sem sagt sem svona dálka eins og þið sjáið hér, þannig að hérna ertu með, hérna, já, þrýsting í, í dekkjum á einhverjum mótorhjólum, greinilega, og þá er búið að, sem sagt, telja saman hversu mörg dekk voru með þrýstinginn á milli þrjátíu og fjögur komma fimm og þrjátíu fimm komma fimm, eða þarna, sem sagt um þrjátíu og fimm. Og þá sjáið þið það, það voru átta mótorhjól sem voru með með þá, þann þrýsting. Og þá getum við séð svona hvernig þessi gögn dreifast. Við sjáum það til dæmis hér að það er algengast að vera með þrýsting þarna í kringum þrjátíu og fjóra komma fimm, en í báðum endunum þá er, eru eru færri sem sagt mótorhjól með þennan lág, annaðhvort mjög lága eða mjög háa þrýsting. Og þetta er svona, eins og þið sjáið kannski, svona bjöllukúrfa, sem er mjög algengt, algeng, hérna, í tölfræði, þetta er svona normaldreift. Og þá er þetta svona þessi, já, þessi bjöllukúrfa, það er sem sagt hár toppur í miðjunni sem svona, sem svona lækkar niður til beggja hliða og og teygist svona út, til sitthvorrar hliðarinnar. Og svo til þess að, sem sagt reikna og vinna með þessar breytur, er gott að nota þessi föll sem að hérna, ég ætla að fara í gegnum núna. Í fyrsta lagi þá erum við með það sem heitir probability mass function, eða einfaldlega massa fagl, fall, og það sem sagt gefur manni líkurnar fyrir strjálar slembistærðir. Og þið sjáið til dæmis hér að massafall er bara fall sem er bara líkurnar á að breytan þín taki eitthvað ákveðið gildi. Þegar þú ert með, sem sagt strjála strembis, slembistærð. Og þetta massafall hefur ákveðna eiginleika. Í fyrsta lagi þá þurfa, hérna, allar líkurnar að vera stærri eða jafnt og núll. Þú getur aldrei verið með neikvæðar líkur, það er aldrei mínus tuttugu prósent líkur á því að eitthvað gerist. Það er alltaf núll eða stærra. Svo þegar maður leggur saman allar líkurnar þá er summan einn, og til þess að finna líkurnar á ákveðnum atburði þá sem sagt summar maður upp allar líkurnar fyrir gildin sem eru í þessum atburði, þannig að þið ímyndið ykkur að maður sé að kasta tening, það myndi vera dæmi um strjálan slembiatburð, og þá er það sem getur komið upp á teningnum er einn, tveir, þrír, fjórir, fimm og sex. Þannig það mundi vera sem sagt litla x-ið okkar hér, einn tveir, þrír, fjórir, fimm eða sex. Og x er þá þessi slembistærð sem að er þessi, þessi random event, af því að við vitum ekki áður en við köstum hvað mun koma upp. Og þá myndu líkurnar á einstökum atburði vera einn á móti sex. Af því það er jafnlíklegt að hver hlið komi upp á teningnum. Og svo ef við myndum vilja vita hverjar eru líkurnar á því að við fáum slétta tölu þá vitum það að sléttu tölurnar eru, hvað, tveir, fjórir og sex. Þá myndum við summa saman líkurnar á að fá tvo, líkurnar á að fá fjóra og líkurnar á að fá sex, það eru sem sagt individual líkur, og myndum þá fá út hálfan. Sem sagt líkurnar á því að fá upp slétta tölu er hálfur. Og sem sagt, massafall er bara semsagt leið til þess að tákna, tákna þetta. Og hérna sjáið þið annað dæmi. Við erum með einhverja slembistærð, strjála slembistærð x sem getur tekist þrjú gildi, einn, tvo eða þrjá, með jöfnum líkum, það er jafnlíklegt að hver þessara talna komi upp. Og þá er massafallið táknað á þennan hátt, þið sjáið líkurnar á því að, hérna, x sé jafnt og einn er einn þriðji, að x sé jafnt og tveir er einn þriðji líka og að x sé jafnt og þrír er líka einn þriðji, og annars er það bara núll, að það getur ekkert annað komið upp. Og þá teiknum við þetta massa, táknum við þetta massafall á þennan hátt. Og hérna, annað dæmi um massafall, að við erum með hérna, sem sagt, þetta er slembistærð sem telur hversu oft við fáum upp, hérna, fiskana, þegar við hendum tíkalli þrisvar. Og sem sagt hérna, af því þetta er sem sagt tíkall sem er, sem sagt, sanngjarn, það er jafnlíklegt að báðar hliðarnar komi upp. Og þá verður þetta útkomumengið okkar ef við köstum þrisvar. Við getum fengið upp sem sagt H H H, sem sagt alltaf heads, við getum fengið fyrst heads, svo heads og svo tails, þá er þetta sem sagt útkoman, H H T, og svo framvegis, þannig að þetta eru allir mögulegir, allar mögulegar útkomur í útkomumenginu okkar, ef við köstum pening þrisvar sinnum. Átta mismunandi möguleikar, og og við viljum finna sem sagt massafallið, sem telur hversu oft kemur upp sem sagt heads. Og þá sjáum við það, það er táknað á þennan hátt að líkurnar á að fá aldrei upp heads, er einn á móti átta, af því það er einn atburðurinn, þarna, T T T, í átta staka mengi, líkurnar á því að fá sem sagt upp einu sinni heads eru þrír áttundu af því að í þessu mengi, sjáið, það eru þrír liðir þar sem er eitt H, líkurnar á því að ég fái tvisvar sinnum heads eru eins, þrír áttundu, af því það eru þrír atburðir þar að sem eru tvö H, og að lokum líkurnar á því að fá sem sagt alltaf upp heads eru einn áttundu, af því að það er alveg eins, sem sagt einn atburður þarna þar sem það kemur alltaf upp, alltaf upp heads. En þið hafið væntanlega séð þetta áður, er það ekki? Þið kannist alveg við þetta. Þannig við bara sleppum þessu, þið getið kíkt á þetta. Þessi dæmi sem ég tók núna, þau díla bara við mjög lítil útkomurúm, mjög lítil, hérna, mengi. Eftir því sem að þetta, sem sagt allt saman stækkar og það eru mun meiri möguleikar í boði, og það verður líka meira svona noise í gögnunum, og, og sem sagt líkurnar á því að hver einstakur atburður gerist verður ólíklegri og ólíklegri. Og þannig að til þess að díla við það, þá er oft hjálplegt að binna gögnin, eða sem sagt raða þeim saman í svona flokka, eða að bara díla við þá sem, sem sagt, já, á meira svona samfelldan hátt með því að nota það sem heitir, hérna, cumulative distribution function, sem er sem sagt þar sem þú ert búinn að summa up eða sem sagt, já, leggja saman líkurnar á þessu öllu saman sem að maður gerir með því raunverulega að maður vill reikna líkurnar á því að af, líkurnar sem sagt að það gerist ekki og þá notum við það sem, sem heitir percentile rank að þá er maður búinn að raða raunverulega upp öllum útkomunum bara í stærðarröð. Og, þannig að, til dæmis, ef þú vilt vita hver, sem sagt, þú tekur eina manneskju og þú mælir hvað hún er há og þú vilt vita hvar í röðinni af öllum, hennar hæð fellur. Sem sagt hversu margir, hversu mörg prósent af öllu þýðinu eru lægri en þessi manneskja, þannig það er pælingin á bak við svona percentile rank. Og þetta sama á við um einkunnir, þið sjáið þetta í einkunnagjöfinni held ég, að maður fær sem sagt einhverja tölu sem svona rank, og þá veistu hversu mörg prósent af öllum voru með lægri einkunn heldur en þú, og það er pælingin á bakvið svona cumulative distribution function. Þú ert búinn að leggja saman allar líkurnar sem eru minni en það sem þú ert að skoða. Búinn sem sagt að raða öllum upp og svo finnurðu hversu stór hluti er minni en einhver ákveðinn. Og það er það sem heitir þetta cumulative distribution function, og það er sem sagt fall sem að varpar gildum yfir í percentile rank, yfir í þennan rank yfir alla. Og þá er það táknað það, sem sagt, á þennan hátt að, hérna, CDF-ið af einhverju gildi eru líkurnar á því að slembistærðin sé minni en eitthvað ákveðið gildi. Og í þessu einfalda dæmi hér, ef við erum með, hérna, úrtak með þessum, þessum fimm gildum, einn, tveir, tveir, þrír og fimm, þá getum við reiknað út CDF-ið af þessu tiltekna dæmi á þennan hátt. Við munum, við röðum upp tölunum í stærðarröð, eins og er reyndar búið að gera hér, þannig að CDF af núll er núll. Af því það er enginn sem er minni heldur en núll, CDF af einum er núll komma tveir eða tuttugu prósent, af því að það er ein tala af þessum fimm sem er minni eða jöfn heldur en einn. Þannig að tuttugu prósent af þessu mengi er minna eða jafnt og einn. Og á sama hátt, þá er CDF-inn af tveimur núll komma sex, af því að sextíu prósent af þessu mengi er minna eða jafnt og tveir. Og svo framvegis, og þegar þau koma út í hinn endann, að CDF-inn af fimm er einn, af því allir eru minna eða jafnt og fimm. Og hérna sjáið þið sem sagt, hvað, hvernig er búið að gera þetta. Í fyrsta lagi erum við með massafallið, það er þetta histogram, þar sem er búið að telja tíðnina á hverju gildi fyrir sig, og svo varpar maður því yfir í CDF-ið, bara með því að leggja saman allt sem er fyrir neðan eitthvað ákveðið gildi, og þá fær maður þessa kúrfu sem að sýnir hversu ört, sem sagt líkurnar aukast. Og þegar maður er kominn með CDF-ið þá er mjög auðvelt að reikna alls konar stika, eins og til dæmis miðgildið. Af því að miðgildið er gildið sem að er í miðjunni, af öllum gildunum ykkar. Þá þarf fyrst að vera búið að raða þeim í rétta röð, frá minnsta til stærsta, og þá er, [mil], miðgildið einfaldlega gildið sem er akkúrat í miðjunni. Og það myndi svara til CDF þar sem x er minna en, þar sem þetta er sem sagt jafnt og núll komma fimm. Þá viltu finna gildið sem er akkúrat í miðjunni, og það sama á við um hérna IQR eða interquartile range, sem er oft notað til þess að lýsa gögnum. Það er raunverulega sá massi gagnanna sem er á milli tuttugu og fimm prósent og sjötíu og fimm prósent af öllum gildunum. Og það er oft notað, til dæmis þegar maður er að reyna að finna svona hérna útgildi, outliers, í gögnum. Þá er þetta IQR mjög gjarnan notað, sem svona einhvers konar miðja í gögnunum, og allt sem fer eitthvað ákveðið langt út fyrir þetta IQR, það kallast þá sem sagt outlier og maður oft hreinsar þá bara í burtu þegar maður er að hreinsa gögnin sín í upphafi. Þetta sem við erum búin að tala um hingað til á við um strjálar, sem sagt, dreifingar. Þegar maður á, er að eiga við samfelldar, þá hérna, notar maður, hérna, bara samfelldan CDF. Og hér er eitt dæmi um sem sagt, samfellda líkindadreifingu, sem er sem sagt exponential líkindadreifingin, sem að lítur svona út. CDF-inn lítur svona út, þið sjáið hvernig hann vex svona svolítið hratt og svo, og svo hérna hægist aðeins á, á vextinum. Og þetta er, hérna, líkindadreifing sem er oft notuð fyrir svona atburði sem að geta gert bara hvenær sem er, og það er bara, það er bara einn parameter til þess að lýsa þessari dreifingu og það er hérna lambda. Og lambda sem sagt ákvarðar það hvernig þetta lítur út, og eftir því sem lambda stækkar eða minnkar þá breytist aðeins lögunin á, á þessum ferli. Og svo er normaldreifingin, sem að er mest notaða líkindadreifingin. Það er allt, oft talað um það að hlutirnir séu normaldreifðir, þið hafið örugglega heyrt það, og, og hérna, það sem sagt, CDF-inn fyrir normaldreifingu lítur svona út og þetta er sem sagt, ef þú myndir diffra þetta þá fengi maður út sem sagt þessa bjöllukúrfu sem ég talaði um áðan, þar sem að mesti massinn er í miðjunni og svona í hölunum, hérna, sem sagt lækkar gildin og teygist svona út. Þannig að mestar líkurnar á því að eitthvað gerist er akkúrat, akkúrat í miðjunni. Og þetta er sem sagt CDF-ið fyrir það. Og, og hérna, og til þess að tákna normaldreifinguna þá þarf maður tvo parametra, annars vegar mu, sem er meðaltalið og hins vegar sigma sem að er staðalfrávikið. Og þegar maður hefur þessa tvo parametra þá getur maður sem sagt teiknað upp þessa kúrfu og og nýtt sér hana. Til dæmis þá er sem sagt, fæðingarþyngd er, er normaldreifð og rosalega margt í daglegu lífi er normaldreift þegar maður fer að skoða, fer að skoða gögnin. Já, og sem sagt, þegar þú ert með, sem sagt, samfellda líkindadreifingu, þá geturðu tekið afleiðuna af CDF-inu og þá færðu sem sagt þéttleikafallið eða PDF. Og það er þá eins og ég var að tala um, það myndi vera normalkúrfan okkar, meðan að CDF-ið sýnir hvernig líkurnar aukast. Og, og þá er PDF sem að mælir líkurnar fyrir hvert gildi af X. Og þá sjáum við hérna hvernig er hægt að tákna það ef við erum með, sem sagt líkurnar á því að slembistærðin X, stóra X, falli á milli mínus hálfs og hálfs. Það er jafngilt því að heildar PDF-ið frá bilinu mínus hálfur upp í hálft, sem er það sama og að reikna CDF-ið í gildinu hálfur og draga svo frá, CDF-ið í gildinu mínus hálfur. Þannig að þú ert búinn að finna stofnfallið, af því að CDF er stofnfallið af PDF. Þess vegna geturðu bara sett það inn og sett svo mörkin inn eins og maður heildar föll. Já, og svo sem sagt, hafið þið séð central limit theorem í tölfræðigreiningu og stærðfræði, stærðfræðigreiningu og tölfræði? Nei. Sem sagt þetta er mjög gagnleg regla eða setning sem hefur með, hérna, dreifingu gagna að gera, sem segir bara það að ef að maður er með nógu stórt úrtak úr einhverju þýði þá er sem sagt meðaltalið á úrtakinu það sama og meðaltalið á þýðinu. Þetta er mikið notuð setning af því að hún sem sagt, já, hefur svona sterkar afleiðingar fyrir, fyrir hérna, fyrir gögnin. Af því að um leið og maður veit að eitthvað er normaldreift þá er rosalega margt sem maður getur gert við þau og til dæmis með svona tilgátuprófanir og svoleiðis. Þannig að það að vera normaldreift er mjög sem sagt sterkur, sterkur eiginleiki. Já, og hérna sjáið þið sem sagt hvernig þetta tengist allt saman sem ég er búin að vera tala um, sem sagt massafallið og dreififallið og, hérna, líkindadreififallið. Að við byrjuðum á að vera með strjálar slembistærðir. Og þá, hérna, vorum við með hérna, massafallið, að það sem sagt var bara raunverulega tíðniritið. Og svo getum við sum-að up eða sem sagt, lagt saman allar líkurnar, og þá fáum við þetta sem sagt CDF sem að vex svona upp. Og þetta var fyrir, þetta var fyrir strjálar strembistærðir. En svo eftir því sem að fjölda mögulegra gilda fjölgar, þá verður þetta svona allt miklu meira smooth, þá hættir þetta að vera bara, þú veist, í svona einhverjum bútum, og þetta verður bara allt saman mjög svona smooth og fallegt. Og þá förum við yfir í sem sagt, samfelldar líkindadreifingar, og þá tölum við líka um sem sagt CDF. Og svo getum við diffrað CDF-ið til þess að fá þéttifallið, PDF, og eins á móti getum við heildað PDF-ið til þess að fá CDF-ið. Og svo þegar við erum með sem sagt PDF sem er þéttifallið, ef við tökum öll gildin og svona klippum þau niður í bins, þá fáum við aftur þetta, þetta strjála massafall. Og þið getið kannski ímyndað ykkur þannig að við erum með eitthvað sem er samfellt, eins og til dæmis hæð fólks. Það er eitthvert dæmi um, um eitthvað sem að er er samfellt. Og þá er það kúrfa sem myndi kannski vera svona svolítið smooth. En svo myndum við ákveða að við vildum flokka alla svona niður og segja, allir sem er á bilinu einn og fimmtíu til einn, fimmtíu og fimm, svo einn fimmtíu og fimm til einn og sextíu, einn og sextíu til einn sextíu og fimm, þá erum við að flokka þetta niður í bins. Og þá förum við úr þessu samfellda og yfir í þetta strjála. Og það er oft sem maður sér náttúrulega, þegar maður er með gögn og er að er að hérna, teikna histogram, að þá er þetta svona sett niður í bins og þá verða allar súlurnar svona allar kassalaga, og, og hérna, og þetta er svona sambandið þarna á milli. Og eins það að fara frá massafallinu yfir í sem sagt CDF-ið, að maður er að, er að leggja saman alla, gildin sem eru fyrir neðan ákveðið gildi. Og þið sjáið það líka að, hérna, að þessa samsvörun á milli þess sem er strjáls og þess sem er samfellds, að í strjála tilfellinu, þá erum við að leggja saman og draga frá, á meðan að í samfellda tilfellinu þá erum við að heilda og diffra. Þetta eru svona sambærilegar aðgerðir. Ég er búin að tala um núna svolítið um, hérna, það sem heitir descriptive statistics, þegar við erum að lýsa gögnunum okkar. En svo er líka hægt að nota inferential statistics, þar sem maður er að draga einhverjar ályktanir, og maður er að nota gögnin til þess að, eins og ég segi, draga ályktanir, með því að nota úrtakið, um allt þýðið. Þannig að við segjum það, ókei, ef meðaltalið hérna í þessari stofu af, meðalaldurinn í þessari stofu er tuttugu og eins árs, þá ætlum við að segja það að meðalaldur allra Íslendinga sé líka tuttugu og eins árs. Þetta er dæmi um það að við myndum draga einhverja ályktun, sem að í þessu tilfelli myndi örugglega ekki vera rétt, af því að þið eruð kannski ekkert voðalega gott úrtak af öllum Íslendingum. En þetta er svona dæmi, dæmi um það. Og þá oft þarf maður að nýta sér líkindafræði og líkindadreifingar þegar maður vill gera svona inferential statistics, af því að maður vill sem sagt geta sagt að úrtakið mitt er til dæmis normaldreift, og þá getur maður notað normaldreifinguna til þess að draga ályktanir. Og það sem maður gerir líka í þessu tilfelli er að sem sagt, meta styrkleika, sem sagt, á milli tveggja breyta. Hversu mikil tengsl eru á milli breyta. Getum við notað eina breytu til þess að spá fyrir um gildi annarrar breytu. Og það er, þetta er svona það sem við munum vera að gera svolítið mikið í, sem sagt, seinni hluta námskeiðsins, þegar þið byrjið að halda kynningar, að þið verðið að tala um þetta inferential statistics. Því að þessir algóriþmar og þessar aðferðir í machine learning sem að við erum að nota til þess að, til þess að læra frá gögnum, þær, eins og ég segi, þær læra af gögnunum og maður notar þessar aðferðir til þess að spá fyrir um eitthvað sem er áður óséð. Þannig að til dæmis bara með gagnasafn, og maður beitir á, það er einhver aðferð eins og til dæmis, hérna, svona, hvað heitir það, decision trees, að maður vill svo nota módelið sem maður lærir á gögnunum til þess að spá fyrir um einhver áður óséð gögn. Og það er það sem inferential statistics gerir líka, að það kennir manni hvernig maður á að spá fyrir um eitthvað sem maður hefur ekki séð áður. Sem dæmi um þetta er líka til dæmis í, í tímaraðagreiningu, þar sem maður vill spá fyrir um eitthvað sem á að gerast á morgun út frá því sem þú veist um fortíðina. Hvernig á veðrið að vera á morgun, og þá notar maður oft sem sagt historíuna sem maður veit, söguna. Og, og hérna, það stendur hérna að núna erum við búin að gefast inn, smá inngang af þessu sem heitir escriptive [HIK: st], descriptive statistics, og þið munuð sjá það svo aftur í næstu viku þegar að við förum í, hérna, myndræna framsetningu. Það hefur líka með svona, lýsandi tölfræði að gera. En það sem við viljum vinna okkur að er þetta inferential statistics, þetta, það að geta spáð fyrir um, og áður óséð, óséð gögn. Ef við förum núna yfir í notebook-ið okkar, bamm bamm, sem við vorum með hérna, það sem sagt eru tvö svona Jupyter notebook fyrir daginn í dag, annars vegar um tölfræði og hins vegar um líkindafræði. Ég ætla að fara í líkindafræðina á eftir, við ætlum að byrja bara á tölfræðinni. Ef við byrjum hérna, sem sagt: þetta er bara þessi pakki sem við byrjum alltaf á að vinna með. Og svo erum við með, eins og ég talaði um áðan, það að, að kasta teningi. Teningur er náttúrulega bara strjál slembistærð sem getur tekið sex gildi: einn, tveir, þrír, fjórir, fimm og sex. Og við gætum táknað það sem svona, með, í Python, ef við erum með þennan hérna, stats library. Og þá er teningurinn okkar einfaldlega slembitala á bilinu einn upp í sex, sem sagt slembin, heil tala á bilinu einn upp í sex, og það stendur hérna sjö af því að það er sem sagt ekki tekið með. Það er allt upp að sjö. Einn, tveir, þrír, fjórir, fimm og sex. Og svo, hérna, þetta RVS er raunverulega bara, hérna, hending, að við getum sagt honum hérna með því að gera dice punktur RVS tíu þýðir raunverulega kastaðu teningnum tíu sinnum. Og svo að lokum viljum við vita hvert er hæsta gildið og þá bara köstum við honum nógu oft til að fá örugglega upp hæsta gildið sem við vitum að er til sex, þannig að ef við myndum keyra þennan þá sjáum við hérna, við köstuðum honum tíu sinnum, fyrst komu upp fjórir, svo komu upp sex og svo tveir og svo fjórir og svo framvegis. Þannig að þetta eru öll köstin okkar. Og þegar við köstuðum honum tí, þúsund sinnum þá var stærsta gildið sex. Þannig að á þessum tening kom upp sex alla vega einu sinni þegar við köstuðum honum þúsund sinnum. Og svo viljum við reikna líkurnar á því að fá upp fjóra, til dæmis, þegar maður kastar tening. Og þar notum við sem sagt þetta massafall sem heitir bara PMF. Og þá köllum við PMF á teninginn okkar sem, muniði, var bara þessi, hérna, slembna hending. Og þá fáum við út einn sjötta, einn, líkurnar á því að fá fjóra þegar maður kastar tening er einn sjötti. Og svo viljum við finna út, sem sagt líkurnar á því að fá fjóra eða minna og þá notum við CDF-ið sem, muniði, var uppsöfnuðu líkurnar og segjum dice punktur CDF af fjórum, og þá er það sem sagt fjórir eða minna, og fáum upp tvo þriðju. Og svo líkurnar á því að fá gildi á milli tveggja og fjögurra. Og þá þurfum við að taka þetta í sem sagt tvo hluta. Við þurfum að sem sagt finna líkurnar á því að fá fjóra og minna og draga svo frá líkurnar á því að fá einn og minna. Sem er þá hérna, CDF af fjórum mínus CDF af einum, og þá fáum við út hálfa, hálfan. Og svona sem sagt getið þið notað dreififöll og massaföll í, í Python á einfaldan hátt. Einhverjar spurningar um þetta? Nei. Ókei. Þá erum við sem sagt komin í hérna, histogram. Ég held að, hafið þið ekki búin að sjá histogröm áður? Sem sagt, við bara byrjum á því að búa til fimmtíu slembitölur á bilinu núll og upp í einn. Þannig að við erum bara með hérna lista af tölum. Og svo getum við plottað histogramið og þá sjáið þið hérna að það er búið að binna þetta svona í, í hérna nokkra flokka og, og sjáið hvernig þetta skiptist þannig að ef við myndum keyra þetta aftur þá myndum við fá annað histogram af því að tölurnar breytast, af því þetta er náttúrulega slembið. Ókei. Svo erum við með hérna þrjú gagnasöfn sem að ég er búin að setja inn á Canvas, þið getið tékkað á þeim. Þið kannski, hérna, já, takið eftir því að þetta er sem sagt wheat, þetta er hveiti en ekki weed, þó að það standi mjög gjarnan hérna í textanum fyrir neðan weed, þá á þetta að vera, sem sagt, wheat. Ekki láta það rugla ykkur. En þetta eru sem sagt gagnasöfn, þrjú gagnasöfn sem að lýsa verði á hveiti í Bandaríkjunum. Sem sagt hveiti sem er ræktað í mismunandi ríkjum, þannig að þú ert með sem sagt hversu mikið var ræktað og hvað, hvað verðið var. Ég ætla að byrja á því að keyra þessi hérna, lesa inn gögnin hérna og svo erum við með fyrsta gagnasafnið sem er bara verð og þá ertu með, hérna, mismunandi ríki. Og hveitið skiptist í nokkra gæðaflokka. Þú ert með sem sagt mjög gott, eða sem sagt, high quality, medium quality og low quality hveiti, og þetta er sem sagt verðið og þetta er bara fjöldinn sem var ræktaður. Og svo ertu með líka nokkrar dagsetningar. Þetta nær alveg yfir nokkurra ára tímabil þetta gagnasafn og þetta er sem sagt það sem var, já, selt þennan daginn, geri ég ráð fyrir. Og þetta er sagt efstu línurnar í gagnasafninu og svo ertu með neðstu línurnar, þannig að þið sjáið að þetta eru eiginlega öll ríkin í Bandaríkjunum sem eru að rækta hveiti og þessi hérna eru sko í janúar tvö þúsund og fjórtán og hérna erum við komin í, í desember tvö þúsund og fjórtán. Og svo erum við með annað gagnasafn sem heitir Demography, sem að er raunverulega bara um ríkin sjálf. Og eins þá erum við með öll ríkin í Bandaríkjunum, hver, hérna, hversu margir búa þar og skiptinguna á sem sagt, kynþáttum og já, sem sagt meðalinnkomu og, og svona ýmislegt, ýmislegar upplýsingar. Og svo erum við með það sem heitir Population, þar sem að eru, fjöldi í hverju ríki og ef þið sjá, ef þið berið það saman þá eru þetta ekki sömu tölurnar, sem er kannski bara merki um að þetta var ekki tekið saman á sama tíma. Þessar tölur eru ekki frá sama árinu, til dæmis. En við munum ekki nota þetta Population, þið getið bara pælt í því sjálf ef þið viljið, við ætlum bara að nota hin tvö, held ég. Þegar við kíkjum á þetta Prices gagnasafn sem er sem sagt verðið á, á hveitinu, og við skoðum hvaða týpur við erum með af, af breytum, þá sjáið þið það að við erum með sem sagt, hérna, quality gögn hérna, high og medium og low er sem sagt bara float value, og svo erum við með þessar, þennan fjölda sem er alltaf bara integer value og svo erum við með eitthvað sem heitir date, sem date time, og svo er bara ríkið sjálft. Og við ætlum að byrja á því að hreinsa gögnin og raða þeim þannig að fyrst hérna erum við með, ætlum við að raða þeim sem sagt eftir, fyrsta lagi, nafninu á ríkinu, og svo í öðru lagi eftir dagsetningu, þannig að elsta verði efst og nýjast verði neðst. Og svo ef þið skoðið gögnin þá sjáið þið að það er svolítið af N/A value-um í þessum gagnasöfnum, og við ætlum að fylla inn þessi N/A value með fill N/A fallinu, þar sem við notum f fill, hafið þið notað það? Þá tekur hann raunverulega bara, sem sagt gildið sem er fyrir ofan. Þannig að þú kemur að einhverju N/A gildi og þú fyllir inn í það með því að nota gildi sem er í röðinni fyrir ofan. Og þetta er ein aðferð til að fylla inn N/A. Og, og hérna, og kannski aðferð sem er allt í lagi ef það eru ekkert voðalega mörg N/A, en þið, ímyndið ykkur ef að það er einhver breyta þar sem eru þú veist, áttatíu prósent gilda sem vantar, og maður fyllir bara alltaf inn það sem var í röðinni fyrir ofan, þá verða öll gildin bara eiginlega eins. Þannig að hérna, þetta er aðferð sem er ágætt að nota ef það eru bara fá sem vantar. En við notum það núna. Og nú ætlum við að fókusa bara á Kaliforníu, við ætlum að reikna út sem sagt þessa lýsandi stika fyrir Kaliforníu. Byrjum á meðaltalinu. Þannig að við ætlum byrja á því að sem sagt finna bara út Kaliforníu í gögnunum okkar þannig við, við hérna, búum til nýtt, nýja töflu sem heitir bara Kalifornía, PD, og skoðum hana. Þannig að þið sjáið það, við erum komin með bara ríkið, Kaliforníu, og verðið á hveiti í Kaliforníu. Og til þess að reikna út meðaltalið þá, muniði, við þurfum að leggja saman öll gildin og deila með fjöldanum. Þannig að við bara byrjum á því að leggja saman öll high quality verðin í Kaliforníu, það myndi vera þessi, hérna, sem við köllum C A underscore sum, þannig að við erum búin að leggja það allt saman saman. Og svo viljum við vita hversu mikið var, var selt í, í Kaliforníu þannig að við bara við teljum hversu margar línur raunverulega eru í þessu gagnasafni, og það myndi þá vera C account, það er fjöldinn, og það er fjögur hundruð fjörutíu og níu. Og svo til þess að reikna meðaltalið þá tökum við summuna og deilum með fjöldanum. Þannig að C A mean myndi vera meðaltalið okkar. Og þá sjáið þið að meðalhveitiverðið í Kaliforníu er tvö hundruð fjörutíu og fimm. Og svo ef við myndum vilja gera þetta fyrir einhvern ákveðinn, ákveðið ár, þá myndum við eins bara condition-a á árið sem við viljum, eins og við gerum hér, og þá fáum við sem sagt að meðal verðið í Kaliforníu árið tvö þúsund og fimmtán var tvö hundruð fjörutíu og tveir, sem er aðeins lægra heldur en yfir öll árin. Nú, svo viljum við finna miðgildið, munið að þá þurfum við að raða þeim í röð, frá minnsta til stærsta, sem sagt eftir verðinu, og við þurfum að finna gildið sem er í miðjunni. Og við vitum að það eru fjögur hundruð fjörutíu og níu gildi í, í þessari töflu, og hérna ætlum við að raða þeim eftir verði. Við verðum að, notum hérna sort values og veljum dálkinn sem við viljum að sé raðað eftir. Þannig að ef við keyrum þetta þá sjáum við að það, hérna, vex verðið, þannig að þetta myndi vera lægsta verðið í, í þessari töflu og svo verða þau hærri og hærri eftir því sem við förum neðar. Og svo þyrftuð þið að finna miðgildið, þá einfaldlega finnum við gildið sem er í miðjunni. En við vitum að hér erum við með oddatölufjölda af röðum. Ef við værum með sléttan fjölda af röðum hvað myndum við þá gera til að finna miðgildið? Ef það er engin tala í miðjunni. Já, alveg rétt, alveg rétt. En við erum heppin núna. Ókei, og svo er mode sem að ég nefndi ekki áðan, en mode er sem sagt tíðasta gildið, hvað kemur oftast fyrir í þessari breytu. Og hérna er hann að nota sem sagt bara count values eða value counts, þegar þú telur hversu oft hvert gildi kemur fyrir, og svo er því bara automatically raðað í röð frá stærsta til minnsta. Þess vegna getum við tekið index núll til þess að finna raunverulega hvaða gildi er, er tíðast. Og í þessu tilfelli þá er það tvö hundruð fjörutíu og fimm komma núll fimm. Og svo til að reikna variance-inn, þá sem sagt þurfum við að nota þessa hérna formúlu. Við þurfum að byrja á því að taka alla, allar ræðurnar, draga frá meðaltalið, og setja það í annað veldi. Þannig að við búum raunverulega til hérna nýjan dálk í töflunni okkar, þar sem við erum búin að taka gildið sjálft, draga frá meðaltalið og setja það allt saman í annað veldi. Þannig að við erum komin með hérna nýjan dálk í töfluna okkar. Og, og hérna, og svo þegar við erum komin með þennan nýjan dálk hérna þá leggjum við saman öll gildi inn í dálkinum og deilum með n mínus einn og þá erum við komin með drefinina af, hérna, verðinu af quality hveiti í Kaliforníu. Sem þið sjáið sem sagt hérna, þannig að þetta myndi vera dreifnin á þessu, þessari breytu. En núna, hingað til þá erum við búin að nota hérna svolítið svona, hérna, basic aðferðir til þess að reikna þetta. Við erum bara búin að reikna þetta sjálf í höndunum. En auðvitað eru pandas með föll sem reikna þetta bara sjálfkrafa fyrir okkur. Við þurfum ekkert að fara að búa til nýja dálka og summa þetta upp eitthvað sjálf og svoleiðis, heldur getum við til dæmis notað þetta describe fall hér til þess einfaldlega að fá allt þetta, öll þessi, sem sagt, alla þessa stika, bara út. Þannig að við gerum Kalifornía punktur, PD punktur describe. Þá fáum við hérna meðaltalið sem við reiknuðum áðan líka, við fáum staðalfrávikið, við fáum minnsta gildið og þessi quartiles hérna, tuttugu og fimm prósent, fimmtíu prósent og sjötíu og fimm prósent og þið munið það að fimmtíu, fimmtíu prósent quartile, það er miðgildið. Þannig að við erum með miðgildið hér og svo erum við líka með stærsta gildið. Og hérna, kannski takið eftir því að hérna, þetta gildi hér, dreifnin sem við reiknuðum, er ekki sama og þetta gildi. Það er einfaldlega vegna þess að þetta er staðalfrávikið sem er gefið hér, þannig að til þess að fá þetta hér gildi þá tökum við kvaðratrótina af þessu. Bara ef þið farið eitthvað að velta fyrir ykkur af hverju þetta passar ekki saman. Þá er það vegna þess að það þarf að taka kvaðratrótina til að fá staðalfrávikið. Já, og svo eins þá getum við notað einfaldlega fallið mode til þess að reikna út tíðasta gildið og þá fáum við út mode-ið. Og svo náttúrulega getum við líka að sjálfsögðu reiknað hvern stika fyrir sig. Til dæmis með því að kalla bara á mean, hérna, þá myndum við fá út meðaltalið, eins ef við skrifum median þá myndum við fá út miðgildið og svo framvegis. Þannig að þið getið notað describe til þess að fá þetta fyrir alla töfluna, öll þessi mismunandi gildi, eða bara notað hvert fall fyrir sig til að finna hvern stika fyrir sig. Nú, þetta eru allt saman sem sagt stikar fyrir einstakar breytur. Ef þú vilt fá meðaltal af hæð eða verði eða einhverju. En svo getur maður fundið samband á milli tveggja breyta, með því að reikna covariance og correlation eða fylgni. Og þetta myndi vera sem sagt jafnan fyrir covariance, og hann sem sagt reiknar út svona, já, sambandið á milli tveggja breyta, sem sagt hversu, hversu dreifnar þær eru og hversu mikið þær tengjast hvor annarri. Og, þannig að í þessu tilfelli, ef við myndum vilja finna út covariance-inn á milli verðsins í Kaliforníu og New York, við viljum vita hvort að verðin í þessum tveimur ríkjum fylgist að. Þannig að ef verðið á hveiti í New York hækkar, hækkar þá líka verðið á hveiti í Kaliforníu. Það er svona spurning sem að covariance getur hjálpa manni að, að svara. Og hérna, sem sagt erum við að, bara í fyrsta lagi búa til nýja töflu sem er bara með verðinu í New York, og það er bara eins og við gerðum áðan með Kaliforníu nema núna í staðinn, þá sem sagt condition-um við á, á New York en ekki Kaliforníu. Sem sagt veljum allar línur þar sem state er jafnt og New York. Setjum það inn í nýja töflu sem lítur þá svona út, og svo erum við bara, höfum við bara áhuga á þessum tveimur flokkum eða tveimur dálkum, sem sagt fyrsta og sjöunda dálkinum, sem er sem sagt verðið og dagsetningin, og svo erum við bara nefna þá upp á nýtt og þá lítur þetta svona út. Hvað gerði ég nú? Já, hann er ekki til, svona, svona, ókei. Og svo bara skoðum við töfluna okkar, þá erum við með hérna sem sagt verðið í New York og svo, hérna, erum við sem sagt núna aftur að reikna raunverulega þennan covariance bara sjálf í höndunum með því að búa til hérna nýjan dálk sem heitir Kalifornía deviation og New York deviation, og fáum þá út, sem sagt bara út frá þessari jöfnu hérna, fáum við út covariance-inn á milli þessara tveggja breyta. En að sjálfsögðu þá getum við líka notað innbyggt fall. Bíðið aðeins, ég ætla aðeins að fara að bakka, af því að ég gleymdi hérna að sem sagt, hér erum við að búa til nýja töflu þar sem við erum að merge-a tvær töflur. Og við erum að merge-a, þær á, sem sagt, dagsetningunni. Við viljum að verð í New York og Kaliforníu á hveiti, sem sagt fyrsta janúar, komi í sömu línu og annan janúar í sömu línu. Þannig að við erum að sameina þær á dagsetningunni. Og þá fáum við út töflu sem lítur svona. Þá erum við með sem sagt verðið í Kaliforníu og verðið í New York á þessum degi. Tuttugasta og sjöunda desember árið tvö þúsund og þrettán þá kostaði hveiti í Kaliforníu þetta og þrjú hundruð fimmtíu og eina í New York. Og við gerum það með þessu merge falli hérna. Og þá getum við notað þetta innbyggða fall sem heitir covariance til þess að reikna covariance-inn í þessari töflu. Og þá sjáum við að á milli Kaliforníu og Kaliforníu er sem sagt tvö hundruð níutíu, tveir komma níutíu og átta og í New York, New York er tólf og svo fimm komma níu á milli Kaliforníu og New York. En covariance er ekkert alltaf mjög auðvelt að, að túlka. Það er oft betra að nota það sem heitir correlation eða fylgni, af því að þá ertu búinn að staðla þetta, og þá veistu það að fylgnin er alltaf tala á milli mínus eins og eins. Þar sem að mínus einn þýðir að það er sem sagt fullkomin neikvæð fylgni, þannig að ef önnur talan stækkar þá minnkar hin, og því lengra sem þú nálgast einn þá ertu með, sem sagt, jákvæða fylgni, sterka jákvæða fylgni, sem þýðir að ef önnur hækkar að þá hækkar hin líka. Og svo ef þú ert með gildi sem er í kringum núll þá er engin fylgni, þannig að ef ein breytist á einn hátt þá getur hvað sem er gerst fyrir hina. Og, hérna, við getum sem sagt reiknað fylgnina með corr fallinu hérna í Python, sem gefur okkur eins og þið sjáið hérna bara tölur á bilinu mínus einn og upp í einn. Og nú er mjög auðvelt að sjá að það er mjög sterk jákvæð fylgni á milli verðsins í Kaliforníu og New York, núll komma níutíu og sjö, sem er mjög nálægt einum, sem þýðir að það er mjög sterk jákvæð fylgni á milli þeirra. Ókei, svo hérna, ætlum við að, að plotta verðin, og þið sjáið hérna dreifinguna á hveitiverði, þetta er sem sagt fyrir allt gagnasafnið. Við erum með hérna prices, allt gagnasafnið, og þið sjáið hér að það er mjög mikill massi hérna í kringum þrjú hundruð og fimmtíu og svo er sums staðar mjög, hérna, töluvert lægra verð með svona litlum toppum. Svo, sem sagt, ætlum við að skoða, sem sagt, eftir mánuðum verð á hveiti, og þá notum við svona lambda föll kannist þið lambda föll? Þetta er svona bara one line-erar til þess að gera einhverjar ákveðnar operation-ir, geta verið mjög sniðugir, og núna erum við að nota þá til að bæta við dálkum í töfluna okkar, annars vegar hvaða mánuð hveitið, úr mánuði þetta hveiti kemur, og hins vegar frá hvaða ári það kemur. Þannig að við bætum við hérna tveimur nýjum dálkum. Og, og svo viljum við bara að finna þá sem voru ræktaðir, sem sagt, í janúar árið tvö þúsund og fimmtán. Við viljum finna verð á hveiti í janúar tvö þúsund og fimmtán. Það er það sem við erum að gera hér. Og þá sjáum við hérna þessa töflu, Og þetta er verð á hveiti í janúar, tvö þúsund og fimmtán. þá getum við á sama hátt plottað histogram-ið af því. Og svo erum við búin að setja hérna yfir, sem sagt, þéttifallið. Já. Þannig að það er svona ýmislegt sem við getum séð út úr, út úr þessum gögnum, með því að skoða verðið á hveiti í Bandaríkjunum. Eigum við að taka fimm mínútna pásu? Já, ókei.