mrjob è un modulo Python che consente di scrivere ed eseguire i lavori Hadoop Streaming.
mrjob supporta pienamente Elastic MapReduce (EMR) servizio di Amazon, che consente di acquistare il tempo su un cluster Hadoop su base oraria. Funziona anche con il proprio cluster di Hadoop.
Installazione:
python setup.py install
Impostazione EMR su Amazon
& Nbsp; * creare un Web Services account Amazon: http://aws.amazon.com/
& Nbsp; * firmare per Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Ottenere l'accesso e chiavi segrete (andare a http://aws.amazon.com/account/ e cliccare su "Credenziali di sicurezza") e impostare le variabili d'ambiente $ AWS_ACCESS_KEY_ID e $ AWS_SECRET_ACCESS_KEY conseguenza
Provalo!
# Localmente
python mrjob / examples / mr_word_freq_count.py README.md> conteggi
# Su EMR
python mrjob / examples / mr_word_freq_count.py README.md -r emr> conteggi
# Nel cluster Hadoop
python mrjob / examples / mr_word_freq_count.py README.md -r Hadoop> conteggi
Advanced Configuration
Per eseguire in altre regioni AWS, caricare il tuo albero dei sorgenti, eseguire make e utilizzare altre funzioni mrjob avanzate, è necessario configurare mrjob.conf. mrjob cerca il suo file conf in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf ovunque nella vostra $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Vedere mrjob.conf.example per ulteriori informazioni
Caratteristiche :.
- lavori eseguire sul EMR, il proprio cluster di Hadoop, o localmente (per le prove).
- Scrivi lavori multi-step (una mappa-reduce passo alimenta il successivo)
- Duplica l'ambiente di produzione all'interno di Hadoop
- Carica il tuo albero dei sorgenti e metterlo nel vostro lavoro di $ PYTHONPATH
- make Esegui e altri script di installazione
- Imposta variabili di ambiente (ad esempio $ TZ)
- Facilmente installare pacchetti python da tarball (EMR solo)
- Imposta gestita in modo trasparente dal file di mrjob.conf config
- interpretare automaticamente i log di errore da EMR
- tunnel SSH per Job Tracker Hadoop su EMR
- setup Minimal
- Per eseguire il EMR, impostare $ AWS_ACCESS_KEY_ID e $ AWS_SECRET_ACCESS_KEY
- Per eseguire il cluster Hadoop, impostare $ HADOOP_HOME
Requisiti :
- Python
I commenti non trovato