DataFu è stato sviluppato presso LinkedIn ed è scritto interamente in Java.
DataFu include funzioni / librerie per lavorare con:
- Statistiche
- Stima
- Sampling
- Sessioni
- Analisi di collegamento
- le operazioni di set
- Borse
DataFu è perfetto per il data mining e applicazioni statistiche che lavorano sulla parte superiore del database Hadoop o di maiale.
Queste funzioni consentono agli sviluppatori di sfruttare appieno tutti i dati memorizzati all'interno di un Hadoop o Pig database senza avere a che fare con i requisiti del sistema di massa al fine di farlo.
Cosa c'è di nuovo in questa versione:.
- Coppia di UDF per campionamento casuale semplice con sostituzione
- Più dipendenze ora confezionati in DataFu dipendenze in modo meno JAR necessari.
- SetDifference UDF per calcolare set differenza (ad esempio A-B o A-B-C).
Cosa c'è di nuovo nella versione 1.2.0:
- Coppia di UDF per un campionamento casuale semplice con sostituzione.
- Più dipendenze ora confezionati in DataFu dipendenze in modo meno JAR necessari.
- SetDifference UDF per calcolare set differenza (ad esempio A-B o A-B-C).
Cosa c'è di nuovo nella versione 1.1.0:.
- Aggiunto SHA hash UDF
- InUDF e AssertUDF aggiunti per Pig 0,12 compatibilità. Questi sono gli stessi e affermare.
- SimpleRandomSample, che implementa un algoritmo di campionamento casuale semplice e scalabile.
I commenti non trovato