Apache Spark

Software screenshot:
Apache Spark
Dettagli del software:
Versione: 1.6.0 Aggiornato
Data di caricamento: 6 Mar 16
Licenza: Libero
Popolarità: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark è stato progettato per migliorare la velocità di elaborazione di programmi di analisi dei dati e la manipolazione.

E 'stato scritto in Java e Scala e fornisce funzionalità non presenti in altri sistemi, soprattutto perché non sono corrente principale né quella utile per le applicazioni di elaborazione non-dati.

Spark è stato creato alla UC Berkeley AMP Lab e successivamente donata alla Apache Software Foundation

Cosa c'è di nuovo in questa versione:.

  • Unified Memory Management -. memoria condivisa per l'esecuzione e la memorizzazione nella cache invece di divisione esclusiva delle regioni
  • Parquet Prestazioni - Migliorare le prestazioni di scansione parquet quando si utilizzano gli schemi piatti
  • .
  • Migliorata la ricerca pianificatore per le query avendo distinte aggregazioni -. Piani di query di aggregazioni distinte sono più robusti quando le colonne distinte hanno alta cardinalità
  • l'esecuzione di query Adaptive -. Il supporto iniziale per la selezione automaticamente il numero di riduttori per join e aggregazioni
  • evitare la doppia filtri in API origine dati -. Quando si implementa una fonte di dati con filtro Pushdown, gli sviluppatori possono ora dire Spark SQL per evitare la doppia valutazione di un filtro spinto verso il basso
  • veloce nullo-safe si unisce - unisce con uguaglianza dei valori di sicurezza (& # x3c; = & # X3e;) sarà ora eseguito utilizzando SortMergeJoin invece di calcolare un prodotto cartisian
  • .
  • In-memory performance colonnare Cache - significativa (fino a 14x) accelerare quando la memorizzazione nella cache di dati che contiene i tipi complessi in DataFrames o SQL
  • .
  • Esecuzione SQL con off-memoria heap - Supporto per la configurazione di esecuzione di query a verificarsi utilizzando la memoria off-heap per evitare GC sovraccarico

Cosa c'è di nuovo nella versione 1.5.2:

  • L'API di base supporta ora gli alberi di aggregazione multi-livello per contribuire ad accelerare costoso ridurre le operazioni.
  • Migliorata la segnalazione degli errori è stato aggiunto per certe operazioni Gotcha.

  • dipendenza Molo
  • di Spark è ora ombreggiato per evitare conflitti con i programmi utente.
  • Spark ora supporta la crittografia SSL per alcuni endpoint di comunicazione.
  • metriche in tempo reale GC e conteggi dei record sono state aggiunte all'interfaccia utente.

Cosa c'è di nuovo nella versione 1.4.0:

  • L'API di base supporta ora gli alberi di aggregazione multi-livello per contribuire ad accelerare costoso ridurre le operazioni.
  • Migliorata la segnalazione degli errori è stato aggiunto per certe operazioni Gotcha.

  • dipendenza Molo
  • di Spark è ora ombreggiato per evitare conflitti con i programmi utente.
  • Spark ora supporta la crittografia SSL per alcuni endpoint di comunicazione.
  • metriche in tempo reale GC e conteggi dei record sono state aggiunte all'interfaccia utente.

Cosa c'è di nuovo nella versione 1.2.0:

  • operatore sorta di PySpark ora supporta spargimento esterno per grandi insiemi di dati .
  • PySpark ora supporta variabili di trasmissione più grandi di 2 GB ed esegue fuoriuscita esterno durante i tipi.
  • Spark aggiunge un livello di pagina di lavoro progresso nell'interfaccia utente Spark, una API stabile per comunicare i progressi, e l'aggiornamento dinamico delle metriche di uscita come posti di lavoro completo.
  • Spark ha ora il supporto per la lettura di file binari per le immagini e altri formati binari.

Cosa c'è di nuovo nella versione 1.0.0:

  • Questa versione espande librerie standard di Spark, l'introduzione di una nuova pacchetto di SQL (SQL Spark) che consente agli utenti di integrare le query SQL in flussi di lavoro Spark esistenti.
  • MLlib, biblioteca apprendimento automatico di Spark, si espande con il supporto vettore radi e diversi nuovi algoritmi.

Cosa c'è di nuovo nella versione 0.9.1:

  • fissi hash collisione bug nella fuoriuscita esterna
  • conflitto fisso con log4j di Spark per gli utenti basandosi su altri backend di registrazione
  • Graphx fisso mancante dal vaso di assemblaggio Spark in Maven build
  • errori silenti fissi dovuti per mappare lo stato di uscita superiore a dimensioni Akka cornice
  • inutili dipendenza diretta di Spark Rimosso su ASM
  • Rimosso metriche-gangli da accumulo di default a causa di conflitti LGPL licenza
  • bug nella distribuzione tarball non contenenti vaso di montaggio scintilla

Cosa c'è di nuovo nella versione 0.8.0:

  • Sviluppo si è spostato alla Fondazione Apache sowftware come progetto di incubatore.

Cosa c'è di nuovo nella versione 0.7.3:

  • Python prestazioni: il meccanismo di Spark per la deposizione delle uova Python VM ha stata migliorata per farlo più velocemente quando la JVM ha una grande dimensione heap, accelerando le API di Python.
  • Mesos corregge: JAR aggiunto al vostro lavoro saranno ora nel classpath quando deserializzazione risultati delle attività in Mesos
  • .
  • segnalazione di errore:. Meglio la segnalazione degli errori per le eccezioni non serializzabili e troppo grandi risultati delle attività
  • Esempi:. Aggiunto un esempio di stream processing stateful con updateStateByKey
  • Corporatura:. Spark Streaming non dipende più repo Twitter4J, che dovrebbe permettere di costruire in Cina
  • Correzioni di bug in foldByKey, conte di streaming, metodi statistici, la documentazione, e web UI.

Cosa c'è di nuovo nella versione 0.7.2:.

  • Versione Scala aggiornato alla 2.9.3
  • diversi miglioramenti per Bagel, tra cui correzioni prestazioni e un livello di storage configurabile.
  • I nuovi metodi API:. SubtractByKey, foldByKey, mappacon, filterWith, foreachPartition, e altri
  • Una nuova metrica di reporting interfaccia, SparkListener, per raccogliere informazioni su ogni fase di calcolo:. Lunghezze compito, byte mescolate, etc
  • Diversi nuovi esempi che utilizzano le API di Java, tra cui K-means e pi di calcolo.

Cosa c'è di nuovo nella versione 0.7.0:

  • Spark 0.7 aggiunge una API di Python chiamato PySpark <. / li>
  • posti di lavoro Spark ora lanciare un cruscotto web per monitorare l'utilizzo della memoria di ciascun set di dati distribuita (RDD) nel programma.
  • Spark può essere costruito utilizzando Maven in aggiunta a SBT.

Cosa c'è di nuovo nella versione 0.6.1:

  • fissi messaggio eccessivamente aggressivo timeout che potrebbero causare i lavoratori a staccare dal cluster.
  • Corretto un bug nella modalità di implementazione standalone che non espongono i nomi host per il programmatore, che colpisce HDFS località.
  • riutilizzo connessione migliorata in riordino, che può notevolmente accelerare piccoli mescola.
  • Corretti alcuni potenziali deadlock nella gestione dei blocchi.
  • Risoluzione di un errore di ottenere gli ID di host falliti da Mesos.
  • Diversi miglioramenti di script EC2, come una migliore gestione delle istanze del punto.
  • Realizzato l'indirizzo IP locale che Spark si lega al personalizzabile.
  • Il supporto per Hadoop 2 distribuzioni.
  • Supporto per l'individuazione di Scala su distribuzioni Debian.

Cosa c'è di nuovo nella versione 0.6.0:.

  • deployment più semplice
  • la documentazione della Spark è stata ampliata con una nuova guida rapida, istruzioni di distribuzione aggiuntivi, guida alla configurazione, la guida messa a punto, e una migliore documentazione scaladoc API.
  • Una nuova responsabile della comunicazione utilizzando asincrona Java NIO consente operazioni di riordino correre più veloce, soprattutto quando l'invio di grandi quantità di dati o quando i lavori hanno molti compiti.
  • Un nuovo storage manager supporta per-set di dati impostazioni del livello di memorizzazione (ad esempio, se mantenere il set di dati in memoria, deserializzati, su disco, ecc, o anche replicato attraverso i nodi).
  • debugging avanzato.

Altri software di sviluppo Apache Software Foundation

Apache Whirr
Apache Whirr

13 Apr 15

Apache Hama
Apache Hama

21 Jul 15

Apache Avro
Apache Avro

10 Apr 16

Commenti a Apache Spark

I commenti non trovato
Aggiungi commento
Accendere le immagini!