Olulised Hadoopi tööriistad suurandmete krigistamiseks

Hadoop on tänapäeva IT-maailmas populaarne sõna ja see postitus kirjeldab hädavajalikke Hadoopi tööriistu, mis krimpsutavad Big Data.



Tänapäeval on IT-maailmas kõige populaarsem termin ‘Hadoop’. Lühikese aja jooksul Hadoop on massiliselt kasvanud ja osutunud kasulikuks paljude erinevate projektide jaoks. Hadoopi kogukond on kiiresti arenev ja sellel on oma ökosüsteemis silmapaistev roll.



Siin on pilk olulistele Hadoopi tööriistadele, mida kasutatakse Big Data töötlemiseks.

c ++ stl intervjuu küsimused

ambari



Ambari on Apache projekt, mida toetab Hortonworks. See pakub enamiku standardsete komponentidega klastrite seadistamiseks viisardiskriptidega veebipõhist GUI-d (graafiline kasutajaliides). Ambari varustab, haldab ja jälgib kõiki Hadoopi töökohtade klastreid.

hdfs-logo

The HDFS Apache'i litsentsi alusel levitatav põhiraamistik andmekogude jagamiseks mitme sõlme vahel. HDFS-is on suured failid jagatud plokkideks, kus mitu sõlme hoiavad faili kõiki plokke. Failisüsteem on loodud viisil, mis võimaldab segada tõrketaluvust suure jõudlusega. HDFS-i plokid laaditakse pideva voogesituse tagamiseks. Neid ei peeta tavaliselt vahemällu, et minimeerida latentsust.



hbaselogo

HBase on veerupõhine andmebaaside haldussüsteem, mis töötab HDFS-i peal. HBase'i rakendused on kirjutatud Java keeles, väga sarnaselt rakendusega MapReduce. See koosneb tabelite komplektist, kus iga tabel sisaldab ridu ja veerge nagu traditsiooniline andmebaas. Kui andmed langevad suurde tabelisse, salvestab HBase andmed, otsib neid ja jagab tabelit automaatselt mitme sõlme vahel, et MapReduce'i tööd saaksid seda kohapeal käivitada. HBase pakub mõnele kohalikule muudatusele piiratud garantiid. Ühes reas toimuvad muudatused võivad samal ajal õnnestuda või ebaõnnestuda.

hive

Kui olete juba SQL-i valdav, saate Hadoopi kasutada Taru . Taru töötasid välja mõned inimesed Facebookis. Apache Hive reguleerib bitide eraldamise protsessi kõigist HBase'i failidest. See toetab Hadoopi HDFS-i ja ühilduvate failisüsteemidesse salvestatud suurte andmekogumite analüüsi. See pakub ka SQL-i sarnast keelt nimega HSQL (HiveSQL), mis pääseb failidesse ja eraldab koodi jaoks vajalikud jupid.

sqoop

Apache Sqoop on spetsiaalselt loodud massandmete tõhusaks edastamiseks traditsioonilistest andmebaasidest Hive'i või HBase'i. Seda saab kasutada ka andmete väljavõtmiseks Hadoopist ja eksportimiseks välistesse struktureeritud andmepoodidesse, nagu relatsiooniandmebaasid ja ettevõtte andmehoidlad. Sqoop on käsurea tööriist, mis kaardistab tabelid ja andmesalvestuskiht, muutes tabelid HDFS, HBase või Hive konfigureeritavaks kombinatsiooniks.

Pig1

Kui salvestatud andmed on Hadoopile nähtavad, Apache siga sukeldub andmetesse ja käitab oma emakeeles kirjutatud koodi nimega Pig Latin. Pig Latin on andmete töötlemiseks täidetud abstraktsioonidega. Pigil on standardsed funktsioonid tavaliste ülesannete jaoks, nagu andmete keskmistamine, töötamine kuupäevadega või stringide vaheliste erinevuste leidmiseks. Pig lubab kasutajal ka ise kirjutada keeli, mida nimetatakse UDF-ks (kasutaja määratletud funktsioon), kui standardfunktsioonid jäävad alla.

zookeper

Loomaaiatalitaja on tsentraliseeritud teenus, mis hooldab, konfigureerib teavet, annab nime ja pakub hajutatud sünkroonimist klastri ulatuses. See paneb klastrisse failisüsteemitaolise hierarhia ja salvestab masinate jaoks kõik metaandmed, nii et saaksime erinevate masinate tööd sünkroonida.

NoSQL

Mõned Hadoopi klastrid integreeruvad rakendusega NoSQL andmekogud, millel on oma mehhanismid andmete salvestamiseks kogu sõlmede klastris. See võimaldab neil salvestada ja hankida andmeid kõigi NoSQL-i andmebaasi funktsioonidega, mille järel saab Hadoopi kasutada andmete analüüsimise tööde ajastamiseks samas klastris.

mahoutlogo

Mahout on loodud paljude algoritmide, klassifikatsioonide ja andmeanalüüsi filtreerimiseks Hadoopi klastrisse. Paljud standardsed algoritmid, nagu K-keskmised, Dirichelet, paralleeljoonised ja Bayesi klassifikatsioonid, on valmis Hadoopi stiilis kaardiga andmetel töötama ja vähendama.

Lucene, kirjutatud Java keeles ja hõlpsasti Hadoopiga integreeritud, on Hadoopile loomulik kaaslane. See on tööriist, mis on mõeldud struktureerimata teksti suurte plokkide indekseerimiseks. Lucene tegeleb indekseerimisega, Hadoop aga kogu klastri jaotatud päringutega. Lucene-Hadoopi funktsioonid arenevad kiiresti uute projektide väljatöötamise käigus.

Avro

Euro on jadastamissüsteem, mis koondab andmed koos skeemiga nende mõistmiseks. Igal paketil on JSON-andmestruktuur. JSON selgitab, kuidas andmeid saab sõeluda. JSON-i päis täpsustab andmete struktuuri, kus saab vältida vajadust kirjutada andmetesse väljade märkimiseks lisamärgendeid. Väljund on tunduvalt kompaktsem kui traditsioonilised vormingud nagu XML.

Tööd saab lihtsustada, jagades selle sammudeks. Projekti jagamisel mitmele Hadoopi töökohale Oozie hakkab neid õiges järjekorras töötlema. See haldab DAG (Directed Acyclic Graph) määratud töövoogu ja pole vaja õigeaegset jälgimist.

GIS-i tööriistad

Geograafiliste kaartidega töötamine on Hadoopi käitavate klastrite jaoks suur töö. GIS ( Geograafiline infosüsteem ) Hadoopi projektide tööriistad on Hadoopiga töötamiseks kohandanud parimad Java-põhised tööriistad geograafilise teabe mõistmiseks. Andmebaasid saavad nüüd koordinaatide abil käsitleda geograafilisi päringuid ja koodid saavad kasutada GIS-i tööriistu.

Kõigi andmete kogumine võrdub nende salvestamise ja analüüsimisega. Apache Flume saadab HDFS-is salvestatava teabe kogumiseks spetsiaalseid esindajaid. Kogutud teave võib olla logifailid, Twitteri API või veebisaidi sissekanded. Neid andmeid saab aheldada ja analüüsida.

Spark

Säde on järgmine põlvkond, mis töötab üsna sarnaselt Hadoopiga, mis töötleb mällu salvestatud andmeid. Selle eesmärk on muuta andmete analüüs üldise täitmismudeliga kiiresti käivitatuks ja kirjutatuks. See võib optimeerida suvalisi operaatorgraafikuid ja toetada mälusisest arvutamist, mis võimaldab tal andmeid pärida kiiremini kui kettapõhised mootorid nagu Hadoop.

SQL Hadoopil

Kui klastri kõigi andmete kiire ad-hoc päringu käivitamine on vajalik, saab uue Hadoopi töö kirjutada, kuid see võtab aega. Kui programmeerijad hakkasid seda sagedamini tegema, tulid nad välja SQL-i lihtsas keeles kirjutatud tööriistadega. Need tööriistad pakuvad kiiret juurdepääsu tulemustele.

Apache Drill

Apache Drill pakub madala latentsusega ad-hoc päringuid paljudele ja mitmekesistele andmeallikatele, sealhulgas pesastatud andmetele. Google'i Dremelist inspireeritud Drill on loodud laiendama 10 000 serverini ja päringuid petabaitide kaupa sekunditega.

Need on hädavajalikud Hadoopi tööriistad Big Data purustamiseks!

Kas teil on meile küsimus? Palun mainige neid kommentaaride jaotises ja me võtame teiega ühendust.

Seonduvad postitused:

Hadoop 2.0 õppimise praktilised põhjused