Apache Spark koos Hadoopiga - miks see oluline on?

Apache Sparki Hadoopiga suures ulatuses juurutamine tippettevõtete poolt näitab selle edu ja potentsiaali reaalajas töötlemise osas.



Hadoop, andmetöötlusraamistik, millest on saanud enda platvorm, muutub veelgi paremaks, kui sellega on ühendatud head komponendid. Mõned Hadoopi puudused, näiteks Hadoopi MapReduce'i komponent, on reaalajas andmete analüüsimisel aeglane.



Sisestage Apache Spark, Hadoopil põhinev andmetöötlusmootor, mis on mõeldud nii partii- kui ka voogesituse töökoormuse jaoks, nüüd oma 1.0 versioonis ja varustatud funktsioonidega, mis näitlikustavad, millist tüüpi tööd Hadoopi kaasatakse. Spark töötab olemasolevate Hadoop-klastrite peal, et pakkuda täiustatud ja täiendavat funktsionaalsust.

Vaatame koos sädeme põhiomadustega ja kuidas see töötab koos Hadoopiga ja .



Apache Sparki peamised eelised:

img2-R

Sparki ägedad omadused:

  • Hadoopi integreerimine - Spark võib töötada HDFS-i salvestatud failidega.
  • Sparki interaktiivne kest - Spark on kirjutatud Scalas ja sellel on Scala tõlgi oma versioon.
  • Sparki analüütiline sviit - Spark sisaldab tööriistu interaktiivseks päringute analüüsiks, suuremahuliseks graafide töötlemiseks ja analüüsimiseks ning reaalajas analüüsimiseks.
  • Elastsed hajutatud andmekogumid (RDD) - RDD-d on hajutatud objektid, mida saab vahemällu salvestada arvutisõlmede klastris. Need on peamised andmeobjektid, mida Sparkis kasutatakse.
  • Hajutatud operaatorid - Lisaks MapReduce'ile on RDD-s palju teisi operaatoreid.

Apache Sparki koos Hadoopiga kasutamise eelised:

valatakse jaavas topelt-int
  • Apache Spark sobib Hadoopi avatud lähtekoodiga kogukonda, hoone Hadoopi hajutatud failisüsteemi (HDFS) peale. Kuid Spark ei ole seotud kaheastmelise MapReduce paradigmaga ja lubab teatud rakenduste puhul kuni 100 korda kiiremat jõudlust kui Hadoop MapReduce.



  • Sobib hästi masinõppe algoritmidele - Spark pakub primitiivseid mälus olevaid klastrite arvutusi, mis võimaldab kasutajaprogrammidel andmeid klastri mällu laadida ja neid korduvalt pärida.

  • Jookse 100 korda kiiremini - Spark, analüüsitarkvara võib kiirendada ka Hadoopi andmetöötlusplatvormil töötavaid töid. „Hadoopi Šveitsi armee nuga” dubleerinud Apache Spark võimaldab luua andmeid analüüsivaid töökohti, mis töötavad 100 korda kiiremini kui tavalisel Apache Hadoop MapReduce'il töötavad. MapReducet on Hadoopi klastrites laialdaselt kritiseeritud kui kitsaskohta, kuna see täidab töid pakettrežiimis, mis tähendab, et andmete reaalajas analüüsimine pole võimalik.

  • MapReduce'i alternatiiv - Spark pakub MapReduce'ile alternatiivi. See täidab töid lühikeste mikropartiide kaupa, mille vahe on viis sekundit või vähem. See tagab ka suurema stabiilsuse kui reaalajas voogule orienteeritud Hadoopi raamistikud, näiteks Twitter Storm. Tarkvara saab kasutada mitmesuguste tööde jaoks, näiteks elusate andmete pidev analüüs ja tänu tarkvarakogule arvutuslikult põhjalikumad tööd, mis hõlmavad masinõpet ja graafikute töötlemist.

  • Mitme keele tugi - Sparki kasutades saavad arendajad kirjutada andmete analüüsiandmeid Java, Scala või Python abil, kasutades enam kui 80 kõrgetasemelise operaatori komplekti.

  • Raamatukogu tugi - Sparki teegid on kavandatud täiendama agressiivsemalt uuritavaid töötlemistööde tüüpe Hadoopi uusimate kaubanduslikult toetatud juurutustega. MLlib rakendab hulgaliselt levinud masinõppealgoritme, nagu naiivne Bayesi klassifikatsioon või klastrite lisamine Spark Streaming võimaldab mitmest allikast pärinevate andmete kiiret töötlemist ja GraphX ​​võimaldab graafikute andmete arvutamist.

  • Stabiilne API - Versiooniga 1.0 pakub Apache Spark stabiilset API-d (rakenduste programmeerimisliides), mida arendajad saavad kasutada Sparkiga suhtlemiseks oma rakenduste kaudu. See aitab Stormi hõlpsamat kasutamist Hadoop-põhisel juurutamisel.

    java mis on märk
  • SPARK SQL-komponent - Spark SQL komponent struktureeritud andmetele juurdepääsu saamiseks võimaldab analüüsitöös andmeid küsida struktureerimata andmete kõrval. Spark SQL, mis on hetkel ainult alfa, võimaldab SQL-i sarnaseid päringuid käivitada Apache Hive'i salvestatud andmete vastu. Andmete väljavõtmine Hadoopist SQL-päringute kaudu on järjekordne Hadoopi ümber kerkiva reaalajas päringu funktsionaalsuse variant.

  • Apache Sparki ühilduvus Hadoopiga [HDFS, HBASE ja YARN] - Apache Spark ühildub täielikult nii Hadoopi hajutatud failisüsteemiga (HDFS) kui ka teiste Hadoopi komponentidega, nagu YARN (veel üks ressursside läbirääkija) ja HBase'i hajutatud andmebaas.

Tööstuse kasutuselevõtjad:

IT-ettevõtted nagu Cloudera, Pivotal, IBM, Intel ja MapR on kõik Sparki kokku pannud oma Hadoopi korstnatesse. Mõne Sparki arendaja asutatud ettevõte Databricks pakub tarkvarale ärilist tuge. Nii Yahoo kui ka NASA kasutavad tarkvara igapäevaselt andmetoiminguteks.

Järeldus:

Sparki pakutav on kindlasti suur loosung nii Hadoopi kasutajate kui ka kaubanduslike müüjate jaoks. Kasutajaid, kes soovivad Hadoopi juurutada ja kes on juba paljud oma analüüsisüsteemid Hadoopi ümber ehitanud, köidab idee, et Hadoopi saaks kasutada reaalajas töötleva süsteemina.

Spark 1.0 pakub neile veel erinevaid funktsioone, et toetada või ehitada varalisi esemeid. Tegelikult on üks kolmest suurest Hadoopi müüjast Cloudera juba pakkunud Sparkile oma Cloudera Enterprise pakkumise kaudu ärilist tuge. Hortonworks on pakkunud Sparki ka oma Hadoopi jaotuse komponendina. Sparki laiem rakendamine tippettevõtete poolt näitab selle edukust ja potentsiaali reaalajas töötlemise osas.

Kas teil on meile küsimus? Mainige neid kommentaaride jaotises ja me võtame teiega ühendust.

Seonduvad postitused:

mis on hadoopis flume