Kuidas luua Amazon EMR-iga Hadoop-klastrit?

Selles artiklis uurime AWS EMR teenust ja selle käigus õpime, kuidas luua Amazon EMR-iga Hadoopi klastrit?

Selles artiklis, kuidas luua Klaster Amazon EMR-iga näeme, kuidas hõlpsasti käivitada ja skaleerida Hadoopi ja Big Data rakendusi. Järgmisi näpunäiteid käsitletakse selles artiklis,

Sellega edasi liikumine Kuidas luua Amazon EMR-iga Hadoopi klastrit?





Kuidas luua Amazon EMR-iga Hadoop-klastrit?

Kui otsime midagi Google'ist või Yahoo'st, saame vastuse murdosa sekundiga. Kuidas on võimalik, et Google, Yahoo ja muud otsingumootorid tagastavad pidevalt kasvavast veebist nii kiiresti tulemusi? Otsingumootorid indekseerivad Interneti kaudu, laadivad alla veebilehed ja loovad indeksi, nagu allpool näidatud. Mis tahes meie päringute puhul saavad nad indeksi abil teada, millised on kõik veebilehed, mis sisaldavad otsitavat teksti. Vaadates allpool asuvat indeksit paremal küljel, võime selgelt teada, et Hadoop on olemas veebilehtedel 1, 2 ja 3.

Pilt - kuidas luua Amazon EMR-iga Hadoopi klastrit - EdurekaSiis PageRankingu algoritm kasutatakse selle põhjal, kuidas lehed on ühendatud, et välja selgitada, millist lehte kuvada ülaosas ja millist allosas. Allolevas stsenaariumis on W1 kõige populaarsem, sest kõik lingivad seda ja W4 on kõige vähem populaarne, kuna keegi ei lingi seda. Niisiis kuvatakse otsingutulemites W1 ülaosas ja W4 allosas.



Veebilehtede plahvatusega leidsid need otsingumootorid väljakutseid indeksi loomiseks ja PageRankingu arvutuste tegemiseks. Siin toimus Hadoopi sünd Yahoo linnas ja sellest sai ASF-i (Apache Software Foundation) all FOSS (vaba ja avatud lähtekoodiga tarkvara). ASF-i ajal hakkasid paljud ettevõtted Hadoopi vastu huvi tundma ja panustasid selle parandamisse. Hadoop alustas Big Data revolutsiooni, kuid paljud muud tarkvarad nagu Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume hakkasid arenema Hadoopi piirangute ja lünkade kõrvaldamiseks.

Esimesed, kes Hadoopi kasutasid, olid veebi otsingumootorid, kuid hiljem hakkasid paljud kasutamisjuhud arenema, kuna andmeid kogunes üha rohkem. Võtame näite e-kaubanduse rakendusest, mida kasutatakse kasutajale raamatute soovitamiseks. Vastavalt alltoodud skeemile ostis kasutaja1 raamat1, raamat2 ja raamat3, kasutaja2 mõned raamatud ja nii edasi. Lähemalt vaadates võime täheldada, et kasutaja1 ja kasutaja2 maitsed on sarnased kui raamatu1 ja raamatu2 ostmisel. Nii saab book3 soovitada kasutajale2 ja book4 kasutajale1. Seda nimetatakse ühisfiltreerimiseks, mis on masinõppe algoritmi tüüp. Saame allpool oleva skeemi ümber pöörata ja saada sarnaseid raamatuid.

Ülaltoodud juhul oleme loonud indeksi, PageRanked ja soovitanud kasutajale, andmete suurus oli väike ja nii suutsime andmeid visualiseerida ja järeldada sellest mõningaid tulemusi. Kuna andmete suurus muutub iga päevaga suuremaks ja kontrolli alt väljas, tulevad just need pildi alla sellised suurandmete tööriistad nagu Hadoop.



Hadoop lahendab palju probleeme, kuid Hadoopi ja muu Big Data tarkvara installimine polnud kunagi olnud lihtne ülesanne. Tüüpimiseks on palju konfiguratsiooniparameetreid, nagu töötamiseks integreerimise, installimise ja konfigureerimise probleemid. Siin on sellised ettevõtted nagu Cloudera, ja Databricks aitavad. Need muudavad tarkvara Big Data installimise lihtsamaks ja pakuvad ärilist tuge, näiteks oletame, et tootmises midagi juhtub. Amazon EMR (Elastic MapReduce) muudab Hadoopi jne kasutamise lihtsuse palju lihtsamaks. Nimi Elastic MapReduce on natuke vale nimetus, kuna EMR toetab ka muid hajutatud arvutusmudeleid, nagu näiteks elastsed hajutatud andmekogumid, mitte ainult MapReduce.

Selles õpetuses uurime, kuidas seadistada AWS Cloudi EMR-klastrit ja eelseisvas õpetuses uurime, kuidas käivitada Sparki, Hive'i ja muid selle peal olevaid programme.

Sellega edasi liikumine Kuidas luua Amazon EMR-iga Hadoopi klastrit?

Demo: EMR-klastri loomine AWS-is

Samm 1: Minge EMR-i juhtimiskonsoolile ja klõpsake nuppu „Loo klaster”. Konsoolis on metaandmed lõpetatud klaster salvestatakse ka kaheks kuuks tasuta. See võimaldab lõpetatud klastri kloonida ja uuesti luua.

2. samm Klõpsake kiirvalikute ekraanil nuppu „Mine täpsemate valikute juurde”, et täpsustada klastri kohta palju üksikasju.

3. samm: Vahekaardil Täpsemad suvandid saame valida EMR-klastrisse installitava tarkvara. SQL-liidese jaoks saab valida taru. Andmevoo keeleliidese jaoks saab valida Pig. Hajutatud rakenduste koordineerimiseks saab valida ZooKeeperi ja nii edasi. See vahekaart võimaldab meil lisada samme, mis on valikuline ülesanne. Sammud on suuremahulised andmetöötlustööd, kasutades MapReduce, Pig, Hive jne. Neid saab lisada sellele vahekaardile või hiljem, kui klaster on loodud. EMR-klastri jaoks vajaliku riistvara valimiseks klõpsake nuppu „Järgmine“.

4. samm: Hadoop järgib kapten-töötaja arhitektuuri, kus kapten teeb kogu koordineerimise, näiteks töö planeerimise ja määramise ning nende edenemise kontrollimise, samal ajal kui töötajad tegelevad andmete töötlemise ja salvestamisega. Üksik kapten on ühe ebaõnnestumise punkt (SPOF). Amazon EMR toetab kõrge kättesaadavuse (HA) multimeistrit. Eelmine samm võimaldab häälestada EMR-is mitme peamise klastri.

EMR võimaldab kahte tüüpi sõlme, Core ja Task. Tuumasõlme kasutatakse nii andmete töötlemiseks kui ka salvestamiseks, ülesandesõlme kasutatakse lihtsalt andmete töötlemiseks. Selle õpetuse jaoks saame valida ainult ühe Core ja mitte Ülesande sõlmed, kuna see tähendab meie jaoks vähem kulusid. Valige ka Kohapealsed juhtumid üle Nõudlusel kuna Spot-eksemplarid on odavamad. Spot-i eksemplaride püüdmine on see, et AWS saab need automaatselt lõpetada a-ga kaks minutit ette . See sobib praktika huvides ja mõnes tegelikus stsenaariumis ka. Spot-eksemplarid lõpetatakse automaatselt, kuna neil on teiste eksemplaride tüüpide ees madal prioriteet. Klõpsake nuppu „Järgmine“.

5. samm: Määrake klastri nimi. ja klõpsake nuppu „Järgmine“. Pange tähele, et „lõpetamise kaitse” on vaikimisi sisse lülitatud, see tagab, et EMR-klastrit ei kustutata kogemata, lisades klastri lõpetamisel mõned toimingud.

6. samm: Vahekaardil on täpsustatud EMR-klastri erinevad turvavõimalused. EC2 eksemplari sisselogimiseks tuleb valida KeyPair. EMR loob automaatselt sobivad rollid ja turbegrupid ning lisab need põhi- ja töötaja EC2 sõlmedele. Klõpsake nuppu „Loo klaster”.

Klastri loomine võtab paar minutit, kuna EC2 eksemplarid tuleb kokku osta ja erinevad Big Data tarkvarad installida ja konfigureerida. Esialgu oleks klastri olek olekus „Algus“ ja liiguks edasi olekusse „Ootel“. Olekus „Ootan“ ootab EMR-klaster meid lihtsalt erinevate suurandmete töötlemise tööde, näiteks MR, Spark, Hive, esitamiseks.

Pange tähele ka EC2 juhtimiskonsooli ja märkige, et juht ja töötaja EC2 eksemplarid peaksid olema töötavas olekus. Need on Spot-eksemplarid, mis on loodud EMR-i klastri loomise osana. Sama EC2-d saab jälgida ka EMR-i juhtimiskonsooli vahekaardilt Riistvara. Pange tähele, et vahekaardil Riistvara on Spot EC2 eksemplaride hinnaks märgitud 0,032 $ / tund. Spot-eksemplaride hind muutub aja jooksul pidevalt ja on palju madalam kui On-Demand EC2 hinnakujundus.

7. samm: Nüüd, kui EMR-klaster on edukalt lisatud, saab lisada toiminguid Steps või Big Data. Minge vahekaardile Sammud ja klõpsake nuppu „Lisa samm” ja valige sammu tüüp (MR, taru, säde jne). Uurime sama ka eelseisvas õpetuses. Praegu klõpsake nuppu Tühista.

8. samm: Nüüd, kui oleme näinud, kuidas EMR-i käivitada, näeme, kuidas sama peatada.

8.1. Samm: Klõpsake nuppu Lõpeta.

Etapp 8.2: Nagu eelmistes etappides mainitud, on EMR-klastri jaoks „Tühistamise kaitse” sees ja nupp Lõpeta on keelatud. Klõpsake nuppu Muuda.

8. samm: Valige raadionupp „Väljas“ ja klõpsake linnukest. Nüüd peaks nupp Lõpeta olema lubatud. See on täiendav samm, mille EMR on sisse viinud, lihtsalt selle tagamiseks, et me ei kustutaks kogemata EMR-klastrit.

Pange tähele, et EMR-klaster on lõpetamise olekus ja EC2-d lõpetatakse. Lõpuks viiakse EMR-klaster olekusse Lõppenud, siit peatub meie arveldus AWS-iga. Lõpeta klaster kindlasti, et AWS-i lisakulusid ei tekiks.

Järeldus

Selles õpetuses oleme näinud, kuidas EMR-klastrit mõne minuti jooksul veebikonsoolist (brauserist) käivitada, sama saab automatiseerida , AWS SDK või kasutades AWS CloudFormation . Nagu märkasime, saab EMR-klastri seadistamise teha vaid mõne minutiga ja Big Data töötlemist saab alustada kohe, kui töötlemine on tehtud, saab väljundi salvestada S3 või DynamoDB ja nii klastri seiskamine arvete peatamiseks. Selle hinnamudeli ja kasutusmugavuse tõttu on EMR suurte hittidega nende hulgas, kes tegelevad Big Data töötlemisega. Pole vaja osta servereid tohutul hulgal, hankida Big Data tarkvara litsentse ja neid hooldada. ”

c ++ nimeruumi näide

Nii et see on see, poisid, see viib meid selle artikli lõppu, kuidas luua Amazon EMR-iga Hadoopi klastrit?Juhul, kui soovite omandada selle aine asjatundlikkust, on Edureka välja töötanud õppekava, mis hõlmab täpselt seda, mida oleksite vaja lahendusearhitekti eksami murda! Saate vaadata kursuse üksikasju koolitus.

Selle ajaveebiga seotud küsimuste korral võite palun esitada küsimuse allpool olevas kommentaaride jaotises ja vastaksime teile kõige varem hea meelega.