Sügav sukeldumine siga

See blogipostitus on sügav sukeldumine Siga ja selle funktsioonidesse. Leiate demo selle kohta, kuidas saate Hadoopiga töötada, kasutades seadet, sõltumata Java-st.



Üks suurimaid põhjuseid, miks Hadoopi populaarsus viimasel ajal hüppeliselt tõusis, on asjaolu, et selle peal töötavad sellised funktsioonid nagu Pig ja Hive, võimaldades mitte-programmeerijatel funktsionaalsust, mis varem oli eksklusiivne Java programmeerijatele. Need omadused olid tingitud kasvavast nõudlusest Hadoopi spetsialistide järele. Muud funktsioonid, mida kasutavad Hadoopi spetsialistid, kes pole Java taustaga, on Flume, Sqoop, HBase ja Oozie.



Kui soovite aru saada, miks te Hadoopi õppimiseks Java-d ei vaja, vaadake seda see blogi .

1Sigade ajalugu



Saame aru, kuidas need funktsioonid töötavad.

Me kõik teame, et programmeerimisteadmised on MapReduce-koodide kirjutamise vajadus. Aga mis siis, kui mul on tööriist, mis suudab kodeerida, kui ma lihtsalt esitaksin üksikasjad? Seal näitab Siga oma lihasjõudu. Pig kasutab platvormi Pig Latin, mis võtab programmeerimise Java MapReduce idioomist tähiseks, mis muudab MapReduce programmeerimise kõrgel tasemel, sarnaselt SQLiga RDBMS süsteemide jaoks. Pig Ladina keeles MapReduce kirjutatud koodid teisendatakse automaatselt samaväärseteks MapReduce funktsioonideks. Kas pole mitte vinge? Veel üks meeletu fakt on see, et 200 Java-liini asendamiseks on vaja ainult 10 seapea rida.



10 rida siga = 200 rida Java

See ei tähenda mitte ainult seda, et Java-välised spetsialistid kasutavad Hadoopi, vaid annab tunnistust ka tõsiasjast, et Pigit kasutab võrdne arv tehnilisi arendajaid.

Lisaks, kui soovite oma MapReduce'i koodi kirjutada, saate seda teha ükskõik millises keeles, näiteks Perl, Python, Ruby või C. . Neid toiminguid saab teha struktureeritud, struktureerimata ja ka poolstruktureeritud andmetega. Need pakuvad adRoc-viisi MapReduce'i töökohtade loomiseks ja käivitamiseks väga suurtes andmekogumites.

Järgmisena mõistame taru. See on Hadoopil põhinev avatud lähtekoodiga peta-baidine andmehoidla raamistik andmete kokkuvõtete, päringute ja analüüside jaoks. Hive pakub Hadoopile SQL-laadset liidest. Hive'i abil saate faile Hadoopis lugeda ja kirjutada ning aruandeid BI-tööriistast käivitada. Mõned Hadoopi tüüpilised funktsioonid on:

c ++ fibonacci rekursiivne

Lubage mul näidata teile demot, kasutades seadet Pigstream Clickstream
Kasutame neid Clickstream andmeid ja teeme teisendusi, liitumisi ja rühmitusi.

ClickStream on seeria hiireklikke, mille kasutaja on teinud Interneti-ühenduse ajal, eriti jälgituna, et hinnata inimese huve turunduseesmärkidel. Seda kasutavad peamiselt veebipõhised jaemüügisaidid nagu Flipkart ja Amazon, kes jälgivad teie tegevust soovituste loomiseks. Clickstream'i andmekomplektil, mida oleme kasutanud, on järgmised väljad:

1. Veebirakenduse toetatav keele tüüp

2. Brauseri tüüp

3. Ühenduse tüüp

4. Riigi ID

5. Ajatempel

pakettide kasutamine javas

6. URL

7. Kasutaja staatus

8. Kasutaja tüüp

See näeb koos vastavate väljadega välja selline.

Allpool on loetelu brauseritüüpidest, mida erinevad inimesed on konkreetsel veebisaidil surfates kasutanud. Loendis on sellised brauserid nagu Internet Explorer, Google Chrome, Lynx ja nii edasi.

Interneti-ühenduse tüüp võib olla LAN / Modem / Wifi. Täieliku loendi leiate allolevalt pildilt:

Järgmisel pildil leiate loendi riikidest, kust veebisait on publikut meelitanud, koos nende isikutunnistustega.

Kui oleme kõik andmekogumid kokku kogunud, peame käivitama Pig’s Grunt shell, mis käivitatakse Pig-käskude käivitamiseks.

Esimene asi, mida peame Grunti kesta käivitamisel tegema, on Clickstream-i andmete laadimine Pigu suhtesse. Seos pole midagi muud kui tabel. Allpool on käsk, mida kasutame HDFS-is resideeriva faili seadmiseks Pigi seosesse.

Seose skeemi saame kontrollida käsuga kirjeldada click_stream.

Nüüd peame lisama viidefailid, mis sisaldavad üksikasju riikide nimekirja kohta koos nende ID-dega ja erinevate brauseritüüpide ning nende ID-dega.

Nüüd on meil kaks viitefaili, kuid seose moodustamiseks tuleb need ühendada.
Ühenduse tüübi näitamiseks käivitame ühenduse_ref käsu.

kuidas püütonis arvu ümber pöörata

Nüüd, kui meil on toimiv ühendus ja loodud seos, näitame teile, kuidas me saame neid andmeid teisendada.
Iga Clickstream-i kirje jaoks genereerime uue vormingu uue kirje, see tähendab teisendatud andmed. Uus vorming sisaldab välju nagu TimeStamp, Browser type, Country ID ja veel mõned.

Suurandmete kärpimiseks saame teha filtreerimisoperatsiooni. Erinevat tüüpi kasutajad on administraatorid, külalised või robotid. Meie demos olen külaliste loendi filtreerinud.

Kui mäletate, on riigi ID klikivoogus olemas ja laadisime faili country_ref, mis sisaldas riikide nimesid koos selle ID-dega. Seega saame kahe faili vahel teha liitumisoperatsiooni ja ühendada andmed, et saada ülevaadet.

Kui oleme andmetega liitunud, saame grupeerimise abil teada saada erinevad riigid, kus kasutajad asuvad. Kui need andmed on meil olemas, saame teha loendustoimingu, et tuvastada kasutajate arv konkreetsest riigist.

Ei ole raketiteadus saada Big Data'st teadmisi. Need on vaid mõned paljudest funktsioonidest, mida olen kasutusele võtnud, ja selliste tööriistadega nagu Hive, Hbase, Oozie, Sqoop ja Flume on veel aardeid andmetest, mida tuleb veel uurida. Nii et need teist, kes end Hadoopi õppimisest tagasi hoiavad, on aeg muutuda.

Kas teil on meile küsimus? Palun mainige neid kommentaaride jaotises ja me võtame teiega ühendust.

Seonduvad postitused:

4 viisi R ja Hadoopi kasutamiseks koos

Kõik, mis puudutab Cloudera sertifitseeritud arendajat Apache Hadoopi jaoks