Apache Spark

Software screenshot:
Apache Spark
Dettagli del software:
Versione: 1.3.1 Aggiornato
Data di caricamento: 12 May 15
Sviluppatore: UC Berkeley AMP Lab
Licenza: Libero
Popolarità: 45

Rating: 5.0/5 (Total Votes: 1)

Spark è stato progettato per migliorare la velocità di elaborazione per l'analisi dei dati e programmi di manipolazione.
E 'stato scritto in Java e Scala e fornisce funzionalità non presenti in altri sistemi, soprattutto perché non sono corrente principale né quella utile per le applicazioni di elaborazione non di dati.

Cosa c'è di nuovo in questa versione:.

  • L'API di base supporta ora gli alberi di aggregazione multi-livello per contribuire ad accelerare costoso ridurre le operazioni
  • Migliorata la segnalazione degli errori è stato aggiunto per certe operazioni Gotcha.

  • Jetty dipendenza
  • Spark è ora ombreggiato per evitare conflitti con i programmi utente.
  • Spark ora supporta la crittografia SSL per alcuni endpoint di comunicazione.
  • metriche in tempo reale GC e registrare i conteggi sono stati aggiunti per l'interfaccia utente.

Cosa c'è di nuovo nella versione 1.3.0:

  • L'API di base supporta ora multilivello alberi di aggregazione per contribuire ad accelerare costoso ridurre le operazioni.
  • Migliorata la segnalazione degli errori è stato aggiunto per certe operazioni Gotcha.

  • Jetty dipendenza
  • Spark è ora ombreggiato per evitare conflitti con i programmi utente.
  • Spark ora supporta la crittografia SSL per alcuni endpoint di comunicazione.
  • metriche in tempo reale GC e registrare i conteggi sono stati aggiunti per l'interfaccia utente.

Cosa c'è di nuovo nella versione 1.2.1:

  • operatore sorta di PySpark ora supporta spargimento esterna per grandi dataset .
  • PySpark ora supporta variabili di trasmissione superiore a 2 GB ed esegue fuoriuscite esterno durante i tipi.
  • Spark aggiunge una pagina a livello di lavoro progressi nell'interfaccia utente Spark, una API stabile per comunicare i progressi, e l'aggiornamento dinamico delle metriche di uscita come posti di lavoro completo.
  • Spark ha ora il supporto per la lettura di file binari per immagini e altri formati binari.

Cosa c'è di nuovo nella versione 1.0.0:

  • Questa versione espande librerie standard di Spark, l'introduzione di una nuova pacchetto di SQL (SQL Spark) che consente agli utenti di integrare le query SQL nei flussi di lavoro esistenti Spark.
  • MLlib, biblioteca apprendimento automatico di Spark, si amplia con il supporto vettore radi e diversi nuovi algoritmi.

Cosa c'è di nuovo nella versione 0.9.1:

  • fissi hash collisione bug nel rovesciamento esterno
  • conflitto fisso con log4j Spark per gli utenti basandosi su altri backend di registrazione
  • fissi Graphx mancante dal vaso di montaggio Spark in Maven build
  • Fixed errori silenti dovuti a mappare lo stato di uscita superiore dimensione Akka cornice
  • inutile dipendenza diretta Spark Rimosso su ASM
  • Rimosso metriche gangli dalla generazione di default a causa di LGPL licenza conflitto
  • Corretto il bug nella distribuzione tarball contenenti vaso montaggio scintilla

Cosa c'è di nuovo nella versione 0.8.0:

  • Sviluppo si è spostato alla Fondazione Apache sowftware come progetto incubatore.

Cosa c'è di nuovo nella versione 0.7.3:

  • Python prestazioni: il meccanismo di Spark per la deposizione delle uova Python VM ha stata migliorata per farlo più velocemente quando la JVM ha una grande dimensione heap, accelerando le API di Python.
  • Mesos corregge: JAR aggiunto al tuo lavoro sarà ora nel classpath quando deserializzazione risultati dell'attività in Mesos
  • .
  • segnalazione di errore:. La segnalazione degli errori migliore per le eccezioni non serializzabili ei risultati delle attività eccessivamente grandi
  • Esempi:. Aggiunta di un esempio di stream processing stateful con updateStateByKey
  • Corporatura:. Spark Streaming non dipende più repo Twitter4J, che dovrebbe permettere di costruire in Cina
  • Correzioni di bug in foldByKey, conta in streaming, i metodi statistici, la documentazione, e interfaccia utente web.

Cosa c'è di nuovo nella versione 0.7.2:.

  • Versione Scala aggiornato alla 2.9.3
  • Molti miglioramenti Bagel, comprese le correzioni delle prestazioni e un livello di storage configurabile.
  • Nuovi metodi API:. SubtractByKey, foldByKey, mappacon, filterWith, foreachPartition e altri
  • Una nuova metrica di reporting interfaccia, SparkListener, per raccogliere informazioni su ogni fase di calcolo:. Lunghezze compito, byte mescolate, etc
  • Diversi nuovi esempi utilizzando l'API di Java, tra cui K-means e informatica pi.

Cosa c'è di nuovo nella versione 0.7.0:

  • Spark 0.7 aggiunge una API Python chiamato PySpark <. / li>
  • lavori Spark ora lanciano un cruscotto web per monitorare l'utilizzo della memoria di ogni serie di dati distribuita (RDD) nel programma.
  • Spark può essere costruito utilizzando Maven oltre a SBT.

Cosa c'è di nuovo nella versione 0.6.1:

  • fissi messaggio eccessivamente aggressivo timeout che potrebbero causare i lavoratori a staccare dal cluster.
  • Risolto un bug nella modalità deploy standalone che non espongono hostname al programmatore, che colpisce HDFS località.
  • Migliore riutilizzo collegamento in shuffle, che può notevolmente accelerare piccoli shuffle.
  • Corretti alcuni potenziali deadlock in Gestione blocchi.
  • Risoluzione di un errore ricevendo ID di host falliti da Mesos.
  • Diversi miglioramenti di script EC2, come una migliore gestione delle istanze del punto.
  • Fatto l'indirizzo IP locale che Spark lega al personalizzabile.
  • Il supporto per Hadoop 2 distribuzioni.
  • Supporto per l'individuazione di Scala su distribuzioni Debian.

Cosa c'è di nuovo nella versione 0.6.0:.

  • deployment Simpler
  • la documentazione della Spark è stata ampliata con una nuova guida di avvio rapido, istruzioni di distribuzione aggiuntivi, guida alla configurazione, la guida messa a punto, e migliorata la documentazione scaladoc API.
  • Una nuova responsabile comunicazione asincrona utilizzando Java NIO consente operazioni di riordino correre più veloce, soprattutto quando l'invio di grandi quantità di dati o quando i processi hanno molti compiti.
  • Un nuovo storage manager supporta per-dataset impostazioni del livello di memorizzazione (ad esempio, se mantenere il dataset in memoria, deserializzati, su disco, ecc, o anche replicato attraverso nodi).
  • debugging avanzato.

Programmi simili

Commenti a Apache Spark

I commenti non trovato
Aggiungi commento
Accendere le immagini!
Ricerca per categoria