mrjob

Software screenshot:
mrjob
Dettagli del software:
Versione: 0.4
Data di caricamento: 20 Feb 15
Sviluppatore: David Marin
Licenza: Libero
Popolarità: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob è un modulo Python che consente di scrivere ed eseguire i lavori Hadoop Streaming.
mrjob supporta pienamente Elastic MapReduce (EMR) servizio di Amazon, che consente di acquistare il tempo su un cluster Hadoop su base oraria. Funziona anche con il proprio cluster di Hadoop.
Installazione:
python setup.py install
Impostazione EMR su Amazon
& Nbsp; * creare un Web Services account Amazon: http://aws.amazon.com/
& Nbsp; * firmare per Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Ottenere l'accesso e chiavi segrete (andare a http://aws.amazon.com/account/ e cliccare su "Credenziali di sicurezza") e impostare le variabili d'ambiente $ AWS_ACCESS_KEY_ID e $ AWS_SECRET_ACCESS_KEY conseguenza

Provalo!

# Localmente
python mrjob / examples / mr_word_freq_count.py README.md> conteggi
# Su EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> conteggi
# Nel cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> conteggi
Advanced Configuration
Per eseguire in altre regioni AWS, caricare il tuo albero dei sorgenti, eseguire make e utilizzare altre funzioni mrjob avanzate, è necessario configurare mrjob.conf. mrjob cerca il suo file conf in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf ovunque nella vostra $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Vedere mrjob.conf.example per ulteriori informazioni

Caratteristiche :.

  • lavori eseguire sul EMR, il proprio cluster di Hadoop, o localmente (per le prove).
  • Scrivi lavori multi-step (una mappa-reduce passo alimenta il successivo)
  • Duplica l'ambiente di produzione all'interno di Hadoop
  • Carica il tuo albero dei sorgenti e metterlo nel vostro lavoro di $ PYTHONPATH
  • make Esegui e altri script di installazione
  • Imposta variabili di ambiente (ad esempio $ TZ)
  • Facilmente installare pacchetti python da tarball (EMR solo)
  • Imposta gestita in modo trasparente dal file di mrjob.conf config
  • interpretare automaticamente i log di errore da EMR
  • tunnel SSH per Job Tracker Hadoop su EMR
  • setup Minimal
  • Per eseguire il EMR, impostare $ AWS_ACCESS_KEY_ID e $ AWS_SECRET_ACCESS_KEY
  • Per eseguire il cluster Hadoop, impostare $ HADOOP_HOME

Requisiti :

  • Python

Programmi simili

LPBS
LPBS

15 Apr 15

paexec
paexec

20 Feb 15

AppScale
AppScale

18 Jul 15

MPICH
MPICH

11 May 15

Altri software di sviluppo David Marin

doloop
doloop

11 May 15

Commenti a mrjob

I commenti non trovato
Aggiungi commento
Accendere le immagini!