Mis on masinõppe eeldused?

See masinõppe eeltingimusi käsitlev ajaveeb aitab teil mõista põhimõisteid, mida peate teadma enne masinõppega alustamist.

Masinõpe on kahtlemata ajastu kõige nõutum tehnoloogia! Kui olete algaja ja alustate masinõppega, on oluline teada masinõppe eeldusi. See ajaveeb aitab teil mõista erinevaid mõisteid, mida peate teadma enne masinõppega alustamist.



Tehisintellekti ja masinõppe põhjalike teadmiste saamiseks võite registreeruda otseülekandeks autor Edureka 24/7 toe ja eluaegse juurdepääsuga.



Siin on loetelu teemadest selles blogis kajastatud:

  1. Masinõppe eeldused
  2. Masinõppe mõistmine kasutusjuhtumiga

Masinõppe eeldused

AlustuseksMasinõpe peab olema tuttav järgmiste mõistetega:



  1. Statistika
  2. Lineaaralgebra
  3. Arvestus
  4. Tõenäosus
  5. Programmeerimiskeeled

Statistika

Statistika sisaldab tööriistu, mida saab kasutada andmetest mõne tulemuse saamiseks. On kirjeldavat statistikat, mida kasutatakse algandmete teisendamiseks mõnes olulises infos. Samuti saab järelduslikku statistikat kasutada täieliku andmekogumi kasutamise asemel olulise teabe saamiseks andmete valimist.

Lisateabe saamiseks Statistikat saate vaadata järgmistest ajaveebidest:

arvu java faktoriaal

Lineaaralgebra

Lineaaralgebra tehingudvektorite, maatriksite ja lineaarsete teisendustega. Masinõppes on see väga oluline, kuna seda saab kasutada andmekogumi teisendamiseks ja toimingute tegemiseks.



Arvestus

Arvestus on matemaatikas oluline valdkond ja sellel on paljudes masinõppe algoritmides lahutamatu roll. Mitme funktsiooniga andmekogum onkasutatakse masinõppemudelite koostamiseks, kuna funktsioonid on mitmed muutujad, millel on masinõppemudeli koostamisel oluline roll. Integreerimine ja diferentseerimine on kohustuslik.

Tõenäosus

Tõenäosus aitab ennustada juhtumite tõenäosust, see aitab meil põhjendada, kas olukord võib korduda või mitte. Masinõppe puhul on tõenäosus a vundament.

Mathematics

Tõenäosuse kohta lisateabe saamiseks võite selle läbi teha Ajaveeb.

Programmeerimiskeel

Kogu masinõppeprotsessi rakendamiseks on oluline teada programmeerimiskeeli nagu R ja Python. Mõlemad Python ja R pakuvad sisseehitatud teeke, mis muudavad masinõppe algoritmide juurutamise väga lihtsaks.

Lisaks programmeerimise algteadmistele on oluline ka see, kuidas teate, kuidas andmeid eraldada, töödelda ja analüüsida. See on üks olulisemaid oskusi, mida masinõppeks vaja on.

Lisateavet programmeerimise kohta masinõppe keeltes saate vaadata järgmisi ajaveebe:

  1. Parimad Pythoni raamatukogud andmeteaduse ja masinõppe jaoks

Masinõppe kasutamise juhtum

Masinõpe seisneb selles, et luuakse algoritm, mis saab andmetest õppida, et prognoosida, näiteks milliseid objekte on pildil, või soovitusmootor, parim ravimikombinatsioon teatud haiguse ravimiseks või rämpsposti filtreerimine.

Masinõpe põhineb matemaatilistel eeldustel ja kui teate, miks matemaatikat masinõppes kasutatakse, teeb see lõbusaks. Peate teadma kasutatavate funktsioonide taga olevat matemaatikat ning seda, milline mudel andmete jaoks sobib ja miks.

Alustame siis majahindade prognoosimise huvitava probleemiga, kui meil on andmekogum, mis sisaldab erinevate funktsioonide ja hindade ajalugu, nüüd kaalume elamispinna pindala ruutmeetrites ja hindu.

Nüüd on meil andmekogum, mis sisaldab kahte veergu, nagu allpool näidatud:

Nende kahe muutuja vahel peab olema teatud seos, et teada saada, et peame ehitama mudeli, mis ennustab majade hinda, kuidas me seda saaksime teha?

Graafime need andmed ja näeme, kuidas need välja näevad:

Siin on X-telg elamispinna ruutmeetri hind ja Y-telg on maja hind. Kui joonistame kõik andmepunktid, saame hajumisdiagrammi, mida saab kujutada joonega, nagu on näidatud ülaltoodud joonisel, ja kui sisestame mõned andmed, ennustab see siis mingit tulemust. Ideaalis peame leidma joone, mis ristub maksimaalsete andmepunktidega.

Siin proovime luua joont, mida nimetatakse järgmiselt:

Y = mX + c

Seda meetodit lineaarse seose ennustamiseks sihtmärgi (sõltuv muutuja) ja ennustaja muutuja (sõltumatu muutuja) vahel nimetatakse lineaarseks regressiooniks. See võimaldab meil uurida ja kokku võtta kahe muutuja suhet.

  • X = sõltumatu muutuja
  • Y = sõltuv muutuja
  • c = y-lõikepunkt
  • m = joone kalle

Kui arvestada võrrandit, on meil väärtused X-le, mis on sõltumatu muutuja, nii et peame Y väärtuse ennustamiseks arvutama m ja c väärtused.

Kuidas siis need muutujad leida?

Nende muutujate leidmiseks võime proovida hulga väärtusi ja proovida leida rida, mis ristub maksimaalse andmepunktide arvuga. Kuid kuidas leida parim sobiv joon?

Nii et kõige paremini sobiva joone leidmiseks saame kasutada veafunktsiooni vähimruutudeks, mis leiab vea y tegeliku väärtuse ja prognoositud väärtuse y vahel.

Vähimruutude veafunktsiooni saab esitada järgmise võrrandi abil:

Selle funktsiooni abil saame teada vea iga ennustatud andmepunkti kohta, võrreldes seda andmepunkti tegeliku väärtusega. Seejärel võtate kõigi nende vigade summa ja ruudutage need, et teada saada kõrvalekalle ennustuses.

Kui lisame oma graafikule kõik võimalikud veaväärtused kolmanda telje ja joonistame selle kolmemõõtmelisse ruumi, näeb see välja järgmine:

Ülaltoodud pildil oleksid ideaalsed väärtused mustas alumises osas, mis ennustab hindu tegeliku andmepunkti lähedal. Järgmine samm on leida m ja c jaoks parimad võimalikud väärtused. Seda saab teha optimeerimistehnika abil, mida nimetatakse gradientide laskumiseks.

Gradientne laskumine on iteratiivne meetod, kus alustame mõne muutuja väärtuste komplekti initsialiseerimisega ja parandame neid aeglaselt, minimeerides vea tegeliku väärtuse ja ennustatud väärtuse vahel.

Kui arvame, et korteri hinnad ei sõltu tegelikult ainult ruutjalga hinnast, on palju tegureid, näiteks magamistubade, vannitubade arv jne. Kui arvestada ka nende omadustega, siis näeb võrrand midagi välja nagu nii

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

See on mitmerealine regressioon, see kuulub lineaarsesse algebrasse, siin saame kasutada maatriksid suurusega mxn, kus m on tunnused ja n on andmepunktid.

Mõelgem veel ühele olukorrale, kus saame maja seisukorra leidmiseks kasutada tõenäosust, et klassifitseerida maja selle põhjal, kas see on heas või halvas seisukorras. Selleks peame töötamiseks kasutama tehnikat nimega Logistic Regression, mis töötab sigmoidfunktsiooniga esinemiste tõenäosuse põhjal.

Selles artiklis käsitlesime masinõppe eeldusi ja seda, kuidas neid masinõppes rakendatakse. Põhimõtteliselt koosneb see statistikast, arvestusest, lineaarsest algebrast ja tõenäosusteooriast. Arvestuses on optimeerimiseks kasutatud meetodeid, lineaarses algebras on algoritme, mis võivad töötada tohutute andmekogumite korral, tõenäosusega võime ennustada esinemiste tõenäosust ja statistika aitab meil andmekogumite valimist järeldada kasulikke teadmisi.

Nüüd, kui teate masinõppe eeltingimusi, olen kindel, et soovite rohkem teada saada. Siin on mõned ajaveebid, mis aitavad teil Data Science'iga alustada.

Kui soovite registreeruda tehisintellekti ja masinõppe kursusele, on Edurekal spetsiaalselt kureeritud mis aitab teil omandada selliseid tehnikaid nagu juhendatud õppimine, järelevalveta õppimine ja loomuliku keele töötlemine. See hõlmab koolitust tehisintellekti ja masinõppe uusimate edusammude ja tehniliste lähenemisviiside kohta, nagu sügavõpe, graafilised mudelid ja tugevdav õppimine.