Mis on andmeteadus? Andmeteaduse juhend algajatele

Andmeteadus on tehisintellekti tulevik. Siit saate teada, mis on andmeteadus, kuidas see teie ettevõttele ja selle erinevatele elutsükli etappidele lisaväärtust annab.

Kui maailm jõudis suurandmete ajastusse, kasvas ka vajadus nende salvestamise järele. See oli ettevõtlustööstuse peamine väljakutse ja mure kuni aastani 2010. Põhitähelepanu keskendus andmete salvestamise raamistiku ja lahenduste loomisele. Nüüd, kui Hadoop ja muud raamistikud on salvestusprobleemi edukalt lahendanud, on tähelepanu pööratud nende andmete töötlemisele. Data Science on siin salajane kaste. Kõik ideed, mida näete Hollywoodi ulmefilmides, võivad Data Science'i abil reaalsuseks saada. Andmeteadus on tehisintellekti tulevik. Seetõttu on väga oluline mõista, mis on Data Science ja kuidas see teie ettevõttele lisaväärtust annab.



Edureka 2019 Techi karjäärijuhend on väljas! Juhendis on kuumimad töörollid, täpsed õpperajad, tööstuse väljavaated ja muu. Lae alla nüüd.

Selles blogis käsitlen järgmisi teemasid.

Selle ajaveebi lõpuks saate aru, mis on andmeteadus ja selle roll mõtestatud teadmiste ammutamisel keerukatest ja suurtest andmekogumitest meie ümber.Andmeteaduse kohta põhjalike teadmiste saamiseks võite registreeruda otseülekandeks autor Edureka 24/7 toe ja eluaegse juurdepääsuga.

Mis on andmeteadus?

Data Science on segu erinevatest tööriistadest, algoritmidest ja masinõppe põhimõtetest, mille eesmärk on leida algandmetest varjatud mustrid. Kuid kuidas see erineb sellest, mida statistikud on aastaid teinud?



Vastus peitub selgitamise ja ennustamise erinevuses.

Andmeanalüütik v / s Data Science - Edureka

Nagu ülaltoodud pildilt näha, on andmeanalüütiktavaliselt selgitab toimuvat andmete ajaloo töötlemisega. Teisest küljest teeb Data Scientist mitte ainult uurimuslikku analüüsi, et sellest ülevaate saada, vaid kasutab ka erinevaid arenenud masinõppe algoritme, et tuvastada konkreetse sündmuse esinemine tulevikus. Andmeteadlane vaatleb andmeid paljude nurkade alt, mõnikord ka nurkadest, mida varem pole teada.



Niisiis kasutatakse andmeteadust peamiselt otsuste ja ennustuste tegemiseks, kasutades ennustavat põhjuslikku analüüsi, ettekirjutavat analüüsi (ennustav pluss otsustusteadus) ja masinõpet.

c ++ sorteerimismassiiv
  • Ennustav põhjuslik analüüs - Kui soovite mudelit, mis suudaks ennustada konkreetse sündmuse võimalusi tulevikus, peate rakendama ennustavat põhjuslikku analüüsi. Oletame, et kui annate raha krediiti, siis on teie jaoks murettekitav tõenäosus, et kliendid teevad tulevasi krediidimakseid õigeaegselt. Siin saate koostada mudeli, mis võimaldab prognoosida analüüsi kliendi makseajaloo kohta, et ennustada, kas tulevased maksed toimuvad õigeaegselt või mitte.
  • Ettekirjutusanalüüs: Kui soovite mudelit, millel on intelligentsus ise otsuseid vastu võtta ja võime seda dünaamiliste parameetritega muuta, vajate selle jaoks kindlasti ettekirjutavat analüüsi. See suhteliselt uus valdkond on seotud nõustamisega. Teisisõnu, see mitte ainult ei ennusta, vaid soovitab mitmeid ettenähtud toiminguid ja nendega seotud tulemusi.
    Parim näide selle kohta on Google'i isejuhtiv auto, mida olin ka varem arutanud. Sõidukite kogutud andmeid saab kasutada isejuhtivate autode koolitamiseks. Sellele teabele saate intelligentsuse loomiseks käivitada algoritme. See võimaldab teie autol teha otsuseid, näiteks millal pöörata, millist teed valida,millal aeglustada või kiirendada.
  • Masinõpe ennustuste tegemiseks - Kui teil on finantsettevõtte tehinguandmeid ja peate tuleviku trendi kindlakstegemiseks mudeli koostama, siis on parim valik masinõppe algoritmid. See kuulub juhendatava õppimise paradigma alla. Seda nimetatakse järelevalve all olevaks, kuna teil on juba olemas andmed, mille põhjal saate oma masinaid treenida. Näiteks saab pettuste avastamise mudeli välja õpetada, kasutades pettuste ostude varasemaid andmeid.
  • Masinõpe mustri avastamiseks - Kui teil pole parameetreid, mille põhjal saaksite ennustusi teha, peate sisukate ennustuste leidmiseks välja selgitama andmekogumi peidetud mustrid. See pole muud kui järelevalveta mudel, kuna teil pole rühmade jaoks eelnevalt määratletud silte. Kõige tavalisem algoritm, mida mustrite avastamiseks kasutatakse, on klasterdamine.
    Oletame, et töötate telefonifirmas ja peate looma võrgu, pannes tornid piirkonda. Seejärel saate klastritehnika abil leida torni asukohad, mis tagavad kõigi kasutajate optimaalse signaalitugevuse.

Vaatame, kuidas ülalkirjeldatud lähenemiste osakaal erineb nii andmeanalüüsi kui ka andmeteaduse osas. Nagu näete alloleval pildil, andmete analüüshõlmab teatud määral kirjeldavat analüüsi ja ennustamist. Teisalt on andmeteadus rohkem seotud ennustava põhjusliku analüüsi ja masinõppega.

Andmeteaduse analüüs - Edureka

Nüüd, kui teate, mis täpselt Data Science on, laske nüüd välja selgitada põhjus, miks seda üldse vaja oli.

Miks just andmeteadus?

  • Traditsiooniliselt olid meil olevad andmed enamasti struktureeritud ja väiksed, mida saab analüüsida lihtsate BI-tööriistade abil.Erinevalttraditsioonilised süsteemid, mis olid enamasti struktureeritud, täna on enamik andmeid struktureerimata või poolstruktureeritud. Vaatame allpool toodud pildi andmete suundumusi, mis näitavad, et 2020. aastaks on enam kui 80% andmetest struktureerimata.
    Struktureerimata andmete voog - Edureka
    Need andmed on genereeritud erinevatest allikatest, näiteks finantspäevikutest, tekstifailidest, multimeediumvormidest, anduritest ja instrumentidest. Lihtsad BI-tööriistad pole võimelised seda tohutut mahtu ja mitmesuguseid andmeid töötlema. Seetõttu vajame keerukamaid ja arenenumaid analüütilisi tööriistu ja algoritme, et neist sisukaid teadmisi töödelda, analüüsida ja sellest välja tõmmata.

See pole ainus põhjus, miks andmeteadus on nii populaarseks muutunud. Süveneme põhjalikumalt ja vaatame, kuidas andmeteadust erinevates valdkondades kasutatakse.

  • Kuidas oleks, kui saaksite olemasolevate andmete, näiteks kliendi varasema sirvimisajaloo, ostude ajaloo, vanuse ja sissetuleku põhjal aru oma klientide täpsetest nõudmistest. Kahtlemata olid teil kõik need andmed olemas ka varem, kuid nüüd tohutu hulga ja mitmekülgsete andmetega saate mudeleid tõhusamalt koolitada ja toodet oma klientidele täpsemini soovitada. Kas poleks hämmastav, kuna see toob teie organisatsioonile rohkem äri?
  • Võtame teistsuguse stsenaariumi, et mõista andmeteaduse rolli selles otsuse tegemine.Kuidas oleks, kui teie autol oleks intelligentsust teid koju sõidutada? Isesõitvad autod koguvad anduritelt, sealhulgas radaritelt, kaameratelt ja laseritelt reaalajas andmeid, et luua ümbruskonna kaart. Nendele andmetele tuginedes võtab see vastu otsuseid, millal kiirendada, millal kiirust langetada, millal möödasõitu teha, kus kordamööda - kasutades täiustatud masinõppe algoritme.
  • Vaatame, kuidas saab Data Science'i kasutada ennustavas analüüsis. Võtame näiteks ilmaennustuse. Mudelite koostamiseks saab andmeid koguda ja analüüsida laevadelt, lennukitelt, radaritelt, satelliitidelt. Need mudelid mitte ainult ei ennusta ilma, vaid aitavad ennustada ka looduslike õnnetuste esinemist. See aitab teil eelnevalt asjakohaseid meetmeid võtta ja päästa palju väärtuslikke elusid.

Vaatame allolevat infograafikat, et näha kõiki domeene, kus Data Science muljet loob.

Andmeteaduse kasutamise juhtumid - Edureka

Kes on andmeteadlane?

Data Scientistsil on saadaval mitu määratlust. Lihtsamalt öeldes on andmeteadlane see, kes tegeleb andmeteaduse kunstiga.Mõiste “andmeteadlane” on olnudmõtles välja kaaludes tõsiasja, et andmeteadlane ammutab teadusvaldkondadest ja rakendustest palju teavet, olgu see siis statistika või matemaatika.

Mida teeb andmeteadlane?

Andmeteadlased on need, kes tegelevad keeruliste andmeprobleemidega oma tugeva asjatundlikkusega teatud teadusharudes. Nad töötavad mitmete elementidega, mis on seotud matemaatika, statistika, arvutiteaduse jms (kuigi nad ei pruugi olla kõigi nende valdkondade eksperdid).Nad kasutavad palju uusimaid tehnoloogiaid lahenduste leidmiseks ja järelduste tegemiseks, mis on organisatsiooni kasvu ja arengu jaoks üliolulised. Andmeteadlased esitavad andmeid palju kasulikumas vormis, võrreldes neile kättesaadavate algandmetega nii struktureeritud kui ka struktureerimata vormides.

Andmeteadlase kohta lisateabe saamiseks võite sellest artiklist lugeda

Edasi liikudes saate nüüd arutada BI-d. Olen kindel, et olete kuulnud ka äriteabe (BI) kohta. Sageli segatakse andmeteadust BI-ga. Ma ütlen mõned lühidalt ja selgeltnende kahe vahelised kontrastid, mis aitavad teil paremini mõista. Vaatame järele.

Ärianalüüs (BI) vs andmeteadus

  • Ärianalüüs (BI) analüüsib põhiliselt varasemaid andmeid, et leida tagasivaadet ja ülevaadet ärisuundumuste kirjeldamiseks. Siin võimaldab BI võtta andmeid välistest ja sisemistest allikatest, valmistada neid ette, käivitada päringuid ja luua juhtpaneele küsimustele vastamisekskvartali tulude analüüsvõi äriprobleeme. BI saab hinnata teatud sündmuste mõju lähitulevikus.
  • Andmeteadus on tulevikku vaatavam lähenemisviis, uurimisviis, keskendudes mineviku või praeguste andmete analüüsimisele ja tulevaste tulemuste ennustamisele eesmärgiga teha teadlikke otsuseid. See vastab avatud küsimustele, mis ja millised sündmused toimuvad.

Vaatame mõningaid kontrastseid funktsioone.

Funktsioonid Ärianalüüs (BI) Andmeteadus
AndmeallikadStruktureeritud
(Tavaliselt SQL, sageli Data Warehouse)
Nii struktureeritud kui ka struktureerimata

(logid, pilvandmed, SQL, NoSQL, tekst)

LähenemineStatistika ja visualiseerimineStatistika, masinõpe, graafikanalüüs, neurolingvistiline programmeerimine (NLP)
KeskenduMinevik ja olevikOlevik ja tulevik
TööriistadPentaho, Microsofti BI,QlikView, RRapidMiner, BigML, Weka, R

See puudutas kõike seda, mis on andmeteadus. Mõistkem nüüd andmeteaduse elutsüklit.

Andmeteaduse projektides tehtud levinud viga on andmete kogumine ja analüüsimine, nõudmistest aru saamata või isegi äriprobleeme korralikult vormistades. Seetõttu on projekti tõrgeteta toimimise tagamiseks väga oluline järgida kõiki andmeteaduse olelusringi etappe.

Andmeteaduse elutsükkel

Siin on lühike ülevaade andmeteaduse elutsükli peamistest etappidest:

Andmeteaduse elutsükkel - Edureka


Andmeteaduse avastamine - Edureka1. etapp - avastamine:
Enne projekti alustamist on oluline mõista erinevaid spetsifikatsioone, nõudeid, prioriteete ja vajalikku eelarvet. Teil peab olema võime esitada õigeid küsimusi.Siin hindate, kas teil on projekti toetamiseks vajalikke ressursse inimeste, tehnoloogia, aja ja andmete osas.Selles etapis peate testimiseks ka äriprobleemi raamistama ja sõnastama esialgsed hüpoteesid (IH).

Andmeteaduse andmete ettevalmistamine - Edureka

2. etapp - andmete ettevalmistamine: Selles etapis vajate analüütilist liivakasti, kus saate analüüsi teha kogu projekti vältel. Enne modelleerimist peate uurima, eeltöötlema ja seisukorra andmeid. Edasi sooritate andmete liivakasti viimiseks ETLT-i (ekstrakt, teisendus, laadimine ja teisendamine). Vaatame allpool statistilise analüüsi voogu.

Andmeteaduse elutsükkel
R-i saate kasutada andmete puhastamiseks, teisendamiseks ja visualiseerimiseks. See aitab teil hälbeid märgata ja muutujate vahel seose luua.Kui olete andmed puhastanud ja ette valmistanud, on aeg teha uurimusanalüütikaselle kallal. Vaatame, kuidas saate seda saavutada.

3. etapp - mudeli kavandamine: Andmeteaduse mudeli kavandamine - Edureka Siin saate määrata meetodid ja tehnikad muutujate vaheliste seoste joonistamiseks.Need suhted loovad aluse algoritmidele, mida rakendate järgmises etapis.Rakendate Exploratory Data Analyticsi (EDA), kasutades erinevaid statistilisi valemeid ja visualiseerimisvahendeid.

Vaatame erinevaid mudeli kavandamise tööriistu.

Mudeli kavandamise tööriistad andmeteaduses - Edureka

  1. R omab täielikku modelleerimisvõimaluste komplekti ja pakub head keskkonda tõlgendusmudelite ehitamiseks.
  2. SQL-i analüüsiteenused oskab teha andmebaasisisest analüüsi, kasutades tavalisi andmekaevandamise funktsioone ja põhilisi ennustavaid mudeleid.
  3. SAS / JUURDEPÄÄS saab kasutada Hadoopi andmetele juurdepääsemiseks ja seda kasutatakse korratavate ja korduvkasutatavate mudeli vooskeemide loomiseks.

Kuigi turul on palju tööriistu, kuid R on kõige sagedamini kasutatav tööriist.

Nüüd, kui olete saanud ülevaate oma andmete olemusest ja otsustanud kasutatavad algoritmid. Järgmisel etapil saatekohaldadaalgoritmi ja koostada mudel.

Data Science mudeli hoone - Edureka4. etapp - mudeli loomine: Selles etapis töötate välja andmekogumid koolituse ja testimise eesmärgil. Siin yPeate kaaluma, kas mudelite käitamiseks piisab teie olemasolevatest tööriistadest või vajab see tugevamat keskkonda (nagu kiire ja paralleelne töötlemine). Mudeli koostamiseks analüüsite erinevaid õppemeetodeid, nagu klassifitseerimine, seostamine ja klastrid.

Mudeli loomise saate saavutada järgmiste tööriistade abil.

Mudelehitustööriistad andmeteaduses

5. etapp - rakendamine: Andmeteadus töötab - Edureka Selles etapis edastate lõpparuanded, briifingud, koodid ja tehnilised dokumendid.Lisaks rakendatakse mõnikord pilootprojekti ka reaalajas tootmiskeskkonnas. See annab enne täielikku juurutamist selge pildi toimivusest ja muudest seotud piirangutest väikeses mahus.


Suhtlus andmeteaduses - Edureka6. etapp - tulemuste edastamine:
Nüüd on oluline hinnata, kas olete suutnud saavutada oma eesmärgi, mille esimeses etapis plaanisite. Nii et viimases etapis tuvastate kõik peamised järeldused, edastate sidusrühmadele ja otsustate, kas tulemused on1. etapis välja töötatud kriteeriumide põhjal on projekti õnnestumine või ebaõnnestumine.

Nüüd võtan ette juhtumiuuringu, et selgitada teile eespool kirjeldatud erinevaid etappe.

Juhtumianalüüs: diabeedi ennetamine

Mis oleks, kui saaksime ennustada diabeedi esinemist ja võtta selle ennetamiseks eelnevalt sobivad meetmed?
Sellisel juhul ennustame diabeedi esinemist kogu elutsükli ulatuses, mida me varem arutasime. Vaatame läbi erinevad etapid.

Samm 1:

  • Esitekskogume andmeid haigusloo põhjalpatsiendi kohta, nagu on kirjeldatud 1. faasis. Allpool saate viidata prooviandmetele.

Data Science näidisandmed - Edureka

  • Nagu näete, on meil erinevad atribuudid, nagu allpool mainitud.

Atribuudid:

  1. npreg - raseduste arv
  2. glükoos - glükoosi kontsentratsioon plasmas
  3. bp - vererõhk
  4. nahk - triitsepsi nahavoldi paksus
  5. bmi - kehamassiindeks
  6. ped - diabeedi sugupuu funktsioon
  7. vanus - vanus
  8. tulu - sissetulek

2. samm:

  • Nüüd, kui andmed on olemas, peame andmed andmete analüüsimiseks puhastama ja ette valmistama.
  • Nendel andmetel on palju vasturääkivusi, nagu puuduvad väärtused, tühjad veerud, järsud väärtused ja vale andmevorming, mis tuleb puhastada.
  • Siin oleme andmed korraldanud ühte atribuuti erinevate tabelite alla - muutes need struktureeritumaks.
  • Vaatame allpool toodud näidisandmeid.

Andmeteaduse vastuolulised andmed - Edureka

Nendel andmetel on palju vasturääkivusi.

  1. Veerus npreg , “Üks” on kirjutatudsõnad,kusjuures see peaks olema numbrilises vormis nagu 1.
  2. Veerus bp üks väärtustest on 6600, mis on võimatu (vähemalt inimeste jaoks) kuna bp ei saa tõusta nii tohutu väärtuseni.
  3. Nagu näete Sissetulek veerg on tühi ja ka diabeedi ennustamisel pole mõtet. Seetõttu on selle olemasolu siin üleliigne ja see tuleks tabelist eemaldada.
  • Niisiis, puhastame ja eeltöötleme need andmed, eemaldades piirväärtused, täites nullväärtused ja normaliseerides andmetüüpi. Kui mäletate, on see meie teine ​​etapp, mis on andmete eeltöötlus.
  • Lõpuks saame allpool näidatud puhtaid andmeid, mida saab analüüsimiseks kasutada.

Andmeteaduse järjepidevad andmed - Edureka

3. samm:

Nüüd teeme mõne analüüsi, nagu arutati varem 3. etapis.

  • Esiteks laadime andmed analüütilisse liivakasti ja rakendame sellele mitmesuguseid statistilisi funktsioone. Näiteks on R-l sellised funktsioonid nagu kirjeldab mis annab meile puuduvate ja kordumatute väärtuste arvu. Samuti võime kasutada kokkuvõtte funktsiooni, mis annab meile statistilist teavet, näiteks keskmised, mediaanid, vahemikud, min ja max väärtused.
  • Seejärel kasutame andmete levitamisest õiglase ettekujutuse saamiseks visualiseerimistehnikaid, näiteks histogramme, joonegraafikuid, kasti graafikuid.

Andmeteaduse visualiseerimine - Edureka

4. samm:

Nüüd, tuginedes eelmisest etapist saadud teadmistele, sobib sedalaadi probleemide jaoks kõige paremini otsustuspuu. Vaatame, kuidas?

  • Kuna meil on analüüsi peamised atribuudid juba sarnased npreg, bmi jne, nii et me kasutamejuhendatud õppetehnika ehitada asiin modelleerida.
  • Lisaks oleme eriti kasutanud otsustuspuud, kuna see võtab korraga arvesse kõiki atribuute, nagu ka neid, millel onkui ka mittelineaarse seosega. Meie puhul on meil lineaarne seos npreg ja vanus, arvestades, et mittelineaarne suhe npreg ja ped .
  • Otsustuspuu mudelid on ka väga tugevad, kuna saame kasutada erinevaid atribuutide kombinatsioone erinevate puude valmistamiseks ja seejärel rakendada seda maksimaalse efektiivsusega.

Heidame pilgu meie otsustuspuule.

Kujunduspuu andmekogum

Siin on kõige olulisem parameeter glükoositase, seega on see meie juursõlm. Nüüd määravad praegune sõlm ja selle väärtus järgmise olulise parameetri, mis tuleb võtta. See kestab seni, kuni saame tulemuse pos või neg . Pos tähendab, et diabeet on kalduvus positiivseks ja neg tähendab, et diabeet on negatiivne.

Kui soovite rohkem teada otsustuspuu rakendamise kohta, lugege seda ajaveebi

5. samm:

Selles etapis viime läbi väikese katseprojekti, et kontrollida, kas meie tulemused on sobivad. Samuti otsime võimalikke jõudluspiiranguid. Kui tulemused pole täpsed, peame mudeli ümber planeerima ja üles ehitama.

6. samm:

Kui oleme projekti edukalt ellu viinud, jagame väljundit täielikuks juurutamiseks.

Andmeteadlaseks olemist on lihtsam öelda kui teha. Vaatame, mida kõike vajate, et olla andmeteadlane.Andmeteadlane nõuab põhiliselt oskusikolmest suuremast piirkonnast, nagu allpool näidatud.

Andmeteaduse oskused - Edureka

Nagu ülaltoodud pildil näete, peate omandama mitmesuguseid raskeid oskusi ja pehmeid oskusi. Sa pead olema hea statistika ja matemaatika andmete analüüsimiseks ja visualiseerimiseks. Ütlematagi selge, Masinõpe moodustab andmeteaduse südamiku ja nõuab, et oleksite selles osav. Samuti peab teil olema kindel arusaam domeen töötate äriprobleemide selgeks mõistmiseks. Teie ülesanne ei lõpe siin. Peaksite olema võimeline rakendama erinevaid algoritme, mis nõuavad head kodeerimine oskused. Lõpuks, kui olete teinud teatud olulised otsused, on oluline, et edastaksite need sidusrühmadele. Nii hea suhtlemine lisab teie oskustele kindlasti brownie-punkte.

Kutsun teid üles vaatama seda Data Science'i videoõpetust, mis selgitab, mis on Data Science ja kõik, mida oleme blogis arutanud. Edasi, naudi videot ja ütle mulle, mida sa arvad.

Mis on andmeteadus? Andmeteaduse kursus - andmeteaduse õpetus algajatele | Edureka

See Edureka andmeteaduse kursuse video viib teid läbi demoteaduste vajaduse, mis on andmeteadus, andmeteaduse kasutamise juhtumid ettevõtluses, BI vs andmeteadus, andmeanalüütika tööriistad, andmeteaduse elutsükkel.

massiivi pikkus javascriptis

Lõpuks pole vale öelda, et tulevik kuulub andmeteadlastele. Prognoositakse, et 2018. aasta lõpuks on vaja umbes miljonit andmeteadlast. Üha rohkem andmeid annab võimaluse juhtida peamisi äriotsuseid. Varsti hakkab see muutma viisi, kuidas me ümbritsevatest andmetest ümbritsetud maailma vaatame. Seetõttu peaks andmeteadlane olema kõrge kvalifikatsiooniga ja motiveeritud kõige keerukamate probleemide lahendamiseks.

Loodan, et teile meeldis minu blogi lugeda ja saite aru, mis on andmeteadus.Vaadake meie siin on kaasas juhendajate juhitud elav koolitus ja reaalse elu projektikogemus.