Apache Flume'i õpetus: Twitteri andmete voogesitus

See Apache Flume'i õpetusblogi selgitab Apache Flume'i põhitõdesid ja selle funktsioone. Samuti tutvustatakse Apache Flume'i abil Twitteri voogesitust.

Selles Apache Flume'i õpetuse ajaveebis saame aru, kuidas Flume aitab erinevatest allikatest pärinevaid andmeid voogesitada. Kuid enne seda andke meile aru andmete sisestamise tähtsusest. Andmete sissevõtmine on esmane ja oluline samm andmete töötlemiseks ja analüüsimiseks ning seejärel äriväärtuste tuletamiseks. Organisatsioonis kogutakse andmeid mitmest allikast.

Räägime veel ühest olulisest põhjusest, miks Flume nii populaarseks sai. Loodan, et võite olla tuttav , mida kasutatakse tööstuses tohutult, kuna see suudab salvestada igasuguseid andmeid. Flume saab hõlpsasti integreeruda Hadoopiga ja visata HDFS-i nii struktureerimata kui ka poolstruktureeritud andmeid, mis täiendab Hadoopi jõudu. Seetõttu on Apache Flume Hadoopi ökosüsteemi oluline osa.





Selles Apache Flume'i õpetuse ajaveebis käsitleme järgmist:



Alustame seda Flume'i õpetust, arutades selle üle, mis on Apache Flume. Siis edasi liikudes mõistame Flume'i kasutamise eeliseid.

Apache Flume'i õpetus: sissejuhatus Apache Flume'i

Apache FlumeApache Flume on HDFS-i andmete sisestamise tööriist. See kogub, koondab ja transpordib HDFS-i suures koguses voogesitusandmeid, näiteks logifaile, sündmusi erinevatest allikatest, nagu võrguliiklus, sotsiaalmeedia, e-kirjad jne.Flume on väga usaldusväärne ja levitatud.

Flume'i disaini peamine mõte on voogesituse andmete hõivamine erinevatest veebiserveritest HDFS-i. Sellel on voogedastusvoogudel põhinev lihtne ja paindlik arhitektuur. See on tõrketaluv ja tagab usaldusväärsuse mehhanismi riketaluvuse ja rikete taastamiseks.



Olles aru saanud, mis on Flume, lubage meil nüüd selles Flume'i õpetuse ajaveebis edasi liikuda ja mõista Apache Flume'i eeliseid. Seejärel edasi liikudes vaatame Flume'i arhitektuuri ja püüame mõista, kuidas see põhimõtteliselt töötab.

mis vahe on hashmapil ja hashtable’il

Apache Flume'i õpetus: Apache Flume'i eelised

Apache Flume'il on mitmeid eeliseid, mis muudab selle paremaks valikuks teiste ees. Eelised on järgmised:

  • Flume on skaleeritav, usaldusväärne, talub rikkeid ja on kohandatav erinevate allikate ja valamute jaoks.
  • Apache Flume saab andmeid salvestada tsentraliseeritud kauplustesse (st andmed tarnitakse ühest poest), näiteks HBase ja HDFS.
  • Flume on horisontaalselt laiendatav.
  • Kui lugemiskiirus ületab kirjutamiskiirust, tagab Flume pideva andmevoo lugemis- ja kirjutamistoimingute vahel.
  • Flume pakub usaldusväärset sõnumitoimetust. Flume'i tehingud on kanalipõhised, kus iga sõnumi jaoks säilitatakse kaks tehingut (üks saatja ja üks vastuvõtja).
  • Flume'i abil saame andmeid Hadoopi sisestada mitmest serverist.
  • See annab meile usaldusväärse ja levitatud lahenduse ning aitab meil koguda, koondada ja teisaldada suures koguses andmekogumeid, nagu Facebook, Twitter ja e-kaubanduse veebisaidid.
  • See aitab meil HDFS-is sisestada veebi voogesituse andmeid erinevatest allikatest, nagu võrguliiklus, sotsiaalmeedia, e-kirjad, logifailid jne.
  • See toetab suurt hulka allikaid ja sihtkohtade tüüpe.

Arhitektuur on see, mis annab Apache Flume'ile need eelised. Nüüd, kui me teame Apache Flume eeliseid, võimaldab meil edasi liikuda ja mõista Apache Flume'i arhitektuuri.

Apache Flume'i õpetus: Flume Architecture

Nüüd mõistame Flume'i arhitektuuri alloleval skeemil:

On olemas Flume agent, mis sisestab voogedastuse erinevatest andmeallikatest HDFS-i. Diagrammilt saate hõlpsasti aru, et veebiserver näitab andmeallikat. Twitter on üks kuulsamaid andmete voogesituse allikaid.

Flume agentil on 3 komponenti: allikas, valamu ja kanal.

    1. Allikas : See aktsepteerib sissetuleva sujuvuse andmeid ja salvestab andmed kanalisse.
    2. Kanal : Üldiselt on lugemiskiirus kirjutamiskiirusest suurem. Seega vajame lugemis- ja kirjutamiskiiruse erinevuse sobitamiseks puhvrit. Põhimõtteliselt toimib puhver vahendajana, mis salvestab edastatavaid andmeid ajutiselt ja hoiab seetõttu ära andmete kadumise. Sarnaselt toimib kanal kohaliku salvestusruumina või ajutise salvestusruumina andmeallika ja HDFS-is püsivate andmete vahel.
    3. Valamu : Seejärel kogub meie viimane komponent, st Sink, kanalilt saadud andmed ja seob või kirjutab andmed püsivalt HDFS-i.

Nüüd, kui teame, kuidas Apache Flume töötab, heitkem pilk praktilisse kohta, kuhu me Twitteri andmed uputame ja HDFS-i salvestame.

Apache Flume'i õpetus: Twitteri andmete voogesitus

Selles praktikas voogesitame andmeid Twitterist, kasutades Flume'i, ja salvestame need seejärel HDFS-is, nagu on näidatud alloleval pildil.

Esimene samm on luua Twitteri rakendus. Selleks peate kõigepealt minema sellele URL-ile: https://apps.twitter.com/ ja logige sisse oma Twitteri kontole. Minge rakenduse vahekaardi loomiseks, nagu on näidatud alloleval pildil.

Seejärel looge rakendus, nagu on näidatud alloleval pildil.

Pärast selle rakenduse loomist leiate võtme ja juurdepääsu märgi. Kopeerige võti ja juurdepääsuluba. Selle rakendusega ühenduse loomiseks edastame need märgid meie Flume'i konfiguratsioonifaili.

Nüüd looge flume.conf-fail flume'i juurkataloogis, nagu on näidatud alloleval pildil. Nagu me arutasime, konfigureerime Flume'i arhitektuuris oma allika, valamu ja kanali. Meie allikas on Twitter, kust me voogesitame andmeid ja meie valamu on HDFS, kuhu me andmeid kirjutame.

Allika konfiguratsioonis edastame Twitteri allika tüübi org.apache.flume.source.twitter.TwitterSource. Seejärel edastame kõik neli Twitterist saadud märki. Lõpuks edastame allika konfiguratsioonis märksõnad, millele me tweetid toome.

Valamukonfiguratsioonis konfigureerime HDFS-i atribuudid. Määrame HDFS-i tee, kirjutamisvormingu, faili tüübi, partii suuruse jne. Lõpuks määrame mälukanali, nagu on näidatud alloleval pildil.

Nüüd oleme kõik valmis täitmiseks. Lähme edasi ja täidame selle käsu:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Pärast selle käsu mõnda aega täitmist saate terminalist väljuda, kasutades CTRL + C. Siis saate oma Hadoopi kataloogis edasi liikuda ja kontrollida mainitud teed, kas fail on loodud või mitte.

mida tabloo arendaja teeb

Laadige fail alla ja avage see. Saad midagi, nagu on näidatud alloleval pildil.

Loodan, et see ajaveeb on informatiivne ja annab teile lisaväärtust. Kui soovite rohkem teada saada, võite selle läbi teha mis räägib teile Big Data'st ja kuidas Hadoop lahendab Big Data'ga seotud väljakutseid.

Nüüd, kui olete Apache Flume'ist aru saanud, vaadake järgmist autor Edureka, usaldusväärne veebiõppeettevõte, mille võrgustik koosneb enam kui 250 000 rahulolevast õppijast ja mis levib üle kogu maailma. Edureka Big Data Hadoopi sertifitseerimiskoolitus aitab õppijatel saada HDFS, lõnga, MapReduce, Pig, Hive, HBase, Oozie, Flume ja Sqoop ekspertideks, kasutades reaalajas kasutatavaid juhtumeid jaekaubanduse, sotsiaalse meedia, lennunduse, turismi ja rahanduse valdkonnas.

Kas teil on meile küsimus? Palun mainige seda kommentaaride jaotises ja võtame teiega ühendust.