4 viisi R ja Hadoopi kasutamiseks koos

R ja Hadoop täiendavad üksteist suurandmete visualiseerimise ja analüüsi osas üsna hästi. Selles blogipostituses räägitakse neljast võimalusest neid koos kasutada.

Hadoop on häiriv Java-põhine programmeerimisraamistik, mis toetab suurte andmekogumite töötlemist hajutatud arvutuskeskkonnas, R on aga statistilise arvutuse ja graafika programmeerimiskeel ja tarkvarakeskkond. R-keelt kasutatakse statistikute ja andmekaevandajate seas laialdaselt statistikatarkvara arendamiseks ja andmeanalüüsi tegemiseks. Interaktiivse andmeanalüüsi, üldotstarbelise statistika ja ennustava modelleerimise valdkonnas on R oma klassifitseerimise, klastrite moodustamise ja järjestamise võimete tõttu saavutanud tohutu populaarsuse.



KM



Hadoop ja R täiendavad üksteist suurandmete visualiseerimise ja analüüsi osas üsna hästi.

Kasutades R ja Hadoop

Hadoopi ja R koos kasutamiseks on neli erinevat viisi:



1. RHadoop

RHadoop on kolme R-paketi kogu: rmr, rhdfs ja rhbase. rmr pakett pakub R-is Hadoop MapReduce funktsionaalsust, rhdfs pakub R-is HDFS-failihaldust ja rhbase pakub HBase-i andmebaaside haldust R-st. Kõiki neid esmaseid pakette saab kasutada Hadoopi raamistiku andmete paremaks analüüsimiseks ja haldamiseks.

2. ORCH



ORCH tähistab Oracle R Connector for Hadoop. See on R-pakettide kogu, mis pakub asjakohaseid liideseid Hive-tabelite, Apache Hadoopi arvutusinfrastruktuuri, kohaliku R-keskkonna ja Oracle'i andmebaasitabelitega töötamiseks. Lisaks pakub ORCH ka ennustavaid analüütilisi tehnikaid, mida saab rakendada HDFS-failide andmetele.

3. RIPIS

RHIPE on R-pakett, mis pakub Hadoopi kasutamiseks API-d. RHIPE tähistab integreeritud programmeerimiskeskkonda R ja Hadoop ning on sisuliselt teise API-ga RHadoop.

kuidas peatada programm Java-s

Neli. Hadoopi voogesitus

Hadoopi voogesitus on utiliit, mis võimaldab kasutajatel luua ja käivitada mis tahes käivitatavate failidega töökohti kaardistaja ja / või reduktorina. Voogesüsteemi abil saab töötada välja töötavad Hadoopi töökohad, millel on Java kohta piisavalt teadmisi, et kirjutada kaks paralleelselt töötavat shelliskripti.

R ja Hadoopi kombinatsioon on kujunemas kohustusliku tööriistakomplektina statistikat ja suuri andmekogumeid töötavatele inimestele. Teatud Hadoopi entusiastid on aga ülisuurte Big Data fragmentidega tegeledes punase lipu heiskanud. Nad väidavad, et R eeliseks pole mitte selle süntaks, vaid visualiseerimiseks ja statistikaks mõeldud primitiivide täielik raamatukogu. Neid raamatukogusid põhimõtteliselt ei levitata, mistõttu andmete otsimine on aeganõudev asi. See on R-le omane viga ja kui otsustate sellest mööda vaadata, võivad R ja Hadoop tandemina ikkagi imet teha.

Vaatame nüüd demot:

Kas teil on meile küsimus? Palun mainige neid kommentaaride jaotises ja me võtame teiega ühendust.

Seonduvad postitused: