Apache parquet è un formato di memorizzazione dei dati "colonnare", che è stato appositamente creato per il Apache Hadoop famiglia di progetti.
Parquet è raccomandato per essere utilizzato con dati di grandi dimensioni, soprattutto perché utilizza un sistema di compressione dei dati complessi, basandosi su una serie di algoritmi record di triturazione e ri-assemblaggio ottimizzati.
In questo modo i dati disaggregati, organizzato in un formato nidificato, e riassemblati quando interrogato.
Il formato parquet può essere utilizzato anche al di fuori l'ecosistema Hadoop, essendo specificamente progettato per essere il più agnostica possibile lavorare con qualsiasi tipo di quadro di elaborazione dei dati e il modello di memorizzazione dei dati.
< strong> Cosa c'è di nuovo in questa versione:
- Rinomina pacchetti e Maven coordinate org.apache
- Aggiungi statistiche di codifica a ColumnMetaData li>
- Streaming parsimonia API
- I nuovi tipi logici
Cosa c'è di nuovo nella versione 2.3.0:
- Rinomina pacchetti e Maven coordinate org.apache
- Aggiungi statistiche di codifica a ColumnMetaData li>
- Streaming parsimonia API
- I nuovi tipi logici
Limitazioni :
- Il progetto è ancora in fase di sviluppo nel repository di Apache Incubator e potrebbe cambiare drasticamente a partire dalla versione alla versione.
I commenti non trovato