DataCleaner

Software screenshot:
DataCleaner
Dettagli del software:
Versione: 4.0.9 Aggiornato
Data di caricamento: 27 Sep 15
Sviluppatore: -
Licenza: Libero
Popolarità: 0

Rating: nan/5 (Total Votes: 0)

DataCleaner è una soluzione completamente gratuito e open source per le organizzazioni e le imprese che desiderano aumentare e misurare la qualità dei loro dati.
Con DataCleaner, gli utenti saranno in grado di profilare, confrontare, convalidare i dati contro le regole di business, e monitorare la progressione di queste misure nel corso del tempo.
Tra le sue caratteristiche, si possono citare il monitoraggio dei dati, profilazione dei dati e l'analisi DQ, pulizia dei dati e di arricchimento, di rilevare e unire i duplicati, la qualità dei dati dei clienti, così come ETLightweight super-veloce (Extract Transform-Load-).
Per ulteriori informazioni sulle funzioni e le capacità di DataCleaner, così come il modo di lavorare con lui, consultare http://eobjects.dk/docs

What è nuovo in questa versione :

  • I miglioramenti e nuove funzionalità:
  • Abbiamo reso possibile creare e cancellare tabelle tramite l'interfaccia utente del desktop di DataCleaner. Si noti che il termine & quot; tabella & quot; qui in realtà copre più di tabelle di database relazionali solo. Esso comprende anche dei fogli di archivi dati di MS Excel, del Collezionismo in MongoDB, i tipi di documenti in CouchDB e ElasticSearch e così via ... In pratica tutti i tipi di datastore che supportano le riprese di operazioni, ad eccezione di archivi dati a tavolo singolo, quali archivi dati CSV, supporta questa funzionalità! La funzionalità è esposta attraverso:
  • & quot; Crea una tabella & quot; abilitato tramite il menu del tasto destro del schemi nella struttura sul lato sinistro dell'applicazione.
  • & quot; Crea una tabella & quot; abilitata anche tramite ingressi tabella di selezione in componenti come inserire dati nella tabella, Ricerca in una tabella e aggiornamento della tabella.
  • & quot; & quot tabella di goccia; abilitato tramite il menu del tasto destro di tavoli nella struttura sul lato sinistro dell'applicazione.
  • Abbiamo aggiunto la (opzionale) capacità di specificare il vostro servizio web Salesforce.com Endpoint URL. Ciò consente di utilizzare DataCleaner per connettersi ad ambienti sandbox di Salesforce.com, nonché ai propri endpoint personalizzati.
  • Il supporto ElasticSearch è stato migliorato, consentendo mappature personalizzate, nonché il riutilizzo delle definizioni datastore ElasticSearch ora anche per la ricerca e l'indicizzazione.
  • Il campionamento di atti e selezione di potenziali duplicati nella funzione di rilevamento duplicati è stata migliorata, portando alla configurazione più veloce perché le decisioni prese durante la sessione di allenamento sono più rappresentativi.
  • Il formato di file modello di rilevamento duplicati è stato aggiornato, che ha eliminato la necessità di un file separato 'riferimento' per salvare le decisioni di formazione del passato. La compatibilità con il vecchio formato è stato mantenuto, ma utilizzando il nuovo formato aggiunge molti benefici per l'esperienza dell'utente.
  • Bugfix:
  • Una questione filo inedia è stato fissato in video DataCleaner. L'impatto di questo problema è stato grande, ma è successo solo in rari casi e molto personalizzato. Se listener personalizzato oggetti sul monitor DataCleaner getterebbe un errore, si tradurrebbe in una risorsa non essere mai liberato e prendere un thread dal pool di quarzo-programmazione sul server. Se questo sarebbe accaduto molte volte il server potrebbe finalmente esaurirsi di thread in quella piscina.
  • Il menu verticale sullo schermo risultato ora sta facendo un vero e proprio lavoro di visualizzare le etichette dei componenti che hanno risultati. Questo rende più facile il riconoscimento quale voce di menu punti che articolo risultato.

Cosa c'è di nuovo nella versione 3.5.7:

  • La trasformazione 'Sinonimo lookup' ha ora un'opzione per cercare ogni segno dell'ingresso. Ciò è utile se si sta facendo la sostituzione dei sinonimi nei valori di un campo di testo lungo.
  • Blocco esecuzione dei lavori DataCleaner attraverso il servizio web del monitor per questo a volte potrebbe non riuscire con un bug causato dal filo di blocco. Questo problema è stato risolto.
  • Un miglioramento è stato fatto in modo i posti di lavoro e la sequenza dei componenti sono chiusi / ripulito dopo l'esecuzione.
  • Il JNLP versione / Java WebStart di DataCleaner è stato esposto da un bug nel runtime Java causando alcuni file JAR non essere riconosciuti dal lanciatore WebStart, in determinate circostanze. Questo problema è stato risolto facendo lievi modifiche ai file JAR.
  • Alcuni collegamenti guasti nella documentazione è stata fissata.

Cosa c'è di nuovo nella versione 3.5.4:

  • È ora possibile nascondere colonne di output di trasformazioni . Nascondere non influirà sul flusso di elaborazione affatto, ma semplicemente nascondere l'interfaccia utente, e quindi potenzialmente rendere l'esperienza più pulito, quando si interagisce con gli altri componenti.
  • Un nuovo servizio web è stato aggiunto l'applicazione di monitoraggio web, che fornisce un modo per interrogare lo stato di esecuzione di un determinato lavoro.
  • Un bug è stato risolto, causando il report HTML di fallire per alcuni tipi di analisi, quando nessun record erano stati elaborati.
  • E 6 altro bug minore è stato indirizzato.

Cosa c'è di nuovo nella versione 3.5.1:

  • Acquisizione cambiato record:
  • È stato aggiunto un nuovo filtro per consentire l'elaborazione incrementale di record che non sono stati elaborati in precedenza, ad esempio, per la profilazione o la copia solo modificati record. Il nome del nuovo filtro è Capture cambiato record, riferendosi al concetto di Change Data Capture.
  • l'esecuzione di lavori in coda:
  • Il monitor DataCleaner ora in coda l'esecuzione dello stesso lavoro, se viene attivato più volte. Questo assicura che non si esegue accidentalmente lo stesso lavoro contemporaneamente che può portare a tutti i tipi di problemi, a seconda di quello che fa il lavoro.
  • bugfix minori:
  • Diversi bugfix è stato attuato.

Cosa c'è di nuovo in versione 3.5:

  • Diversi maghi sono ora disponibili per la registrazione datastore; tra cui il file-upload sul server per i file CSV, ingresso connessione al database, la registrazione guidata di credenziali di Salesforce.com e altro ancora.
  • I maghi di costruzione di posti di lavoro sono stati estesi anche con diverse caratteristiche avanzate; Selezione della distribuzione del valore e modello di trovare i campi di analisi guidata rapida, una nuova procedura guidata per la creazione di posti di lavoro di pulizia EasyDQ cliente in base e una nuova procedura guidata per la cottura di lavoro posti di lavoro Pentaho Data Integration (leggi sotto).
  • È ora possibile ad-hoc interrogare qualsiasi datastore direttamente nell'interfaccia utente web. Questo rende più facile ottenere intuizioni rapide o sporadiche nei dati senza la creazione di posti di lavoro o di altri approcci gestiti di elaborazione dei dati.
  • Una volta che i lavori o archivi di dati vengono creati, l'utente viene guidato ad agire con l'oggetto di recente costruzione. Ad esempio, è possibile eseguire rapidamente un lavoro subito dopo è costruito, o interrogare un datastore dopo che è stato registrato.
  • Gli amministratori possono ora caricare direttamente i lavori sul repository, che è particolarmente utile se si desidera mano modificare il contenuto XML dei file di lavoro.
  • Un sacco di cruft tecnico è ora nascosto in favore di mostrare finestre di dialogo semplici. Ad esempio, quando un lavoro viene attivato un grande indicatore di caricamento viene visualizzato, e al termine verrà visualizzato il risultato. La schermata di registrazione avanzato che è stato in precedenza non ci può ancora essere visualizzati su cliccando su un link per ulteriori dettagli.

Cosa c'è di nuovo nella versione 3.1.2:

  • Abbiamo aggiunto un servizio web per il monitoraggio domanda per ottenere un (elenco di valori di metrica). Questo rende il monitoraggio ancora più utilizzabile come componente infrastrutturale chiave, come un modo per monitorare i dati (di qualità) ed esporre i risultati di applicazioni di terze parti.
  • La componente 'Ricerca in una tabella' è stata migliorata con l'aggiunta di unirsi semantica una proprietà configurabile. Utilizzando il join semantica si può modificare se si desidera la ricerca di lavorare semanticamente come un LEFT JOIN o un INNER JOIN.
  • I componenti EasyDQ sono stati aggiornati, aggiungendo ulteriori opzioni di configurazione e una più ricca interfaccia risultato deduplicazione.
  • I miglioramenti delle prestazioni sono state un focus specifico di questa release. Sono stati apportati miglioramenti nel motore di DataCleaner di utilizzare ulteriormente un approccio di elaborazione in streaming in alcuni casi angolo che non era coperto in precedenza.

Cosa c'è di nuovo nella versione 3.1.1:

  • La data e le opzioni di analisi relativi al tempo sono stati ampliati , aggiungendo analizzatori di distribuzione per i numeri delle settimane, mesi e anni. Tutti gli analizzatori relativi alla data e l'ora sono ora raggruppati all'interno di un sottomenu chiamato & quot; Data e ora & quot; in & quot; Analizzare & quot;.
  • Un opzionale & quot; & quot statistica descrittiva; opzione è stata aggiunta all'analizzatore Numero e l'analizzatore Data / ora. Questa opzione aggiunge altre metriche ai risultati di questi analizzatori, come mediana, asimmetria, curtosi e percentili. Questi parametri sono facoltativi in ​​quanto la loro occupazione di memoria è un po 'più grande rispetto alle metriche esistenti.
  • Le linee nelle classifiche della timeline dell'applicazione web di monitoraggio hanno ora piccoli punti in loro. Ciò è particolarmente utile per i grafici con pochi (o anche uno solo) le osservazioni in loro -. Precisare esattamente dove i punti di osservazione sono
  • Il parser query quando invocando le query ad hoc sono stati anche sostanzialmente migliorato. Ora query possono contenere clausole DISTINCT, * -wildcards, sottoquery e sono fault-tolerant verso le tematiche del testo e minuscole.
  • sono stati aggiunti due nuovi trasformatori per la generazione di UUID e per la generazione di timestamp.

Cosa c'è di nuovo nella versione 3.1:

  • formule metriche - elaborati Data Quality KPI:
  • È ora possibile costruire molto più elaborato Data Quality KPI in applicazioni web di monitoraggio di DataCleaner. L'interfaccia utente consente di creare formule complesse in stile formula foglio elettronico; utilizzando variabili raccolte dai lavori DataCleaner.
  • formule metriche possono combinare qualsiasi numero di metriche, costanti e operazioni, fintanto che può essere espresso in una equazione matematica.
  • Per esempio - misurare il tasso di record duplicati in percentuale del numero totale di record. O misurare la quantità dei codici dei prodotti che si conformano a un insieme di molteplici modelli di stringa.
  • Ad-hoc interrogazione - di qualsiasi archivio dati:
  • Con DataCleaner 3.1 è ora possibile eseguire query ad-hoc per ogni datastore! Le query possono essere espressi in SQL pianura e saranno applicati a basi di dati e file, database NoSQL e di più, fornendo un meccanismo di query veramente utile per estendere nella vostra esperienza di scoperta e di dati di profilazione.
  • L'opzione richiesta è disponibile anche attraverso un servizio web per monitorare gli utenti con il ruolo admin. La query viene fornito come parametro HTTP o corpo POST, e il risultato viene fornito come una tabella XHTML.
  • Valore matcher - una nuova opzione di analisi:
  • Spesso si ha un'idea costante su cui dovrebbe essere consentito valori e attese per un campo particolare. In DataCleaner c'è sempre stata l'opzione analisi del valore di distribuzione che li aiuterebbe ad affermare la propria ipotesi. In DataCleaner 3.1, però, si dispone di un'offerta più precisa - il valore matcher. Questa opzione analisi consente di specificare un insieme di valori attesi e quindi si esegue una distribuzione dei valori come l'analisi, in particolare per convalidare e identificare i valori imprevisti.
  • copia, la cancellazione e la gestione dei lavori:
  • Gestione di posti di lavoro e dei risultati nell'applicazione del monitor DataCleaner è stata migliorata notevolmente. A questo punto è possibile fare clic su un posto di lavoro nella pagina Pianificazione del monitor, e trovare delle opzioni di gestione disponibili per operazioni come la ridenominazione, la copia, la cancellazione e altro ancora. Ogni operazione rispetta i collegamenti con altri artefatti nel monitor, come i risultati di analisi, orari e altro. Ciò significa che la gestione del repository di monitoraggio è diventato molto più facile e maturo.
  • Gestisci storia della qualità dei dati:
  • A volte si sta affrontando situazioni in cui si vuole realmente fare il monitoraggio con i dati storici! Potrebbe essere che hai discariche storiche o backup dei database, che si desidera mostrare e raccontare la storia di. È ora possibile fare l'analisi di questi dati storici, caricarlo al monitor DataCleaner, e utilizzando un nuovo servizio web, impostare un dato storico di quel particolare risultato dell'analisi. Questo significa che le sequenze temporali potranno tracciare correttamente i risultati con la data prevista, ma con i risultati che avete raccolto magari in un secondo momento.
  • Supporto scheduler cluster (solo EE):
  • Lo scheduler monitor DataCleaner è stato esteriorizzato, in modo che possa essere sostituita da mezzi di semplice configurazione. Nella Enterprise Edition (EE) di DataCleaner, mettiamo a disposizione uno scheduler cluster, fornendo la possibilità di bilanciare il carico e distribuire le esecuzioni su un cluster di macchine.
  • single-sign-on (SSO) utilizzando CAS (EE solo):
  • Nella Enterprise Edition (EE) di DataCleaner ora forniamo una soluzione single-sign-on per l'applicazione monitor. Ora DataCleaner può essere parte integrante della vostra infrastruttura IT, anche la sicurezza-saggio.
  • ... E molto di più:
  • È possibile che questo è solo un riassunto. Più di trenta i problemi sono stati risolti in questa versione. Abbiamo risolto diverse richieste provenienti dai forum e comunità, e noi incoraggiare tutti ad utilizzare questo mezzo come veicolo per il cambiamento. Siamo molto felici di rendere lo sviluppo di DataCleaner essere fortemente influenzato dai torrenti della comunità.

Cosa c'è di nuovo nella versione 3.0.3:

  • Aggiunge un servizio per rinominare i lavori nel repository di monitoraggio .
  • È possibile accedere a questo come un servizio Web RESTful o in modo interattivo nell'interfaccia utente.
  • È stato aggiunto un servizio Web per modificare la data storica di un risultato dell'analisi nel repository di monitoraggio.
  • L'applicazione Web è stato reso compatibile con i contenitori eredità JSF.
  • Caching di configurazione dell'applicazione Web è stata notevolmente migliorata, portando a tempi di caricamento della pagina e di inizializzazione lavoro più veloci.

Cosa c'è di nuovo nella versione 3.0.2:

  • Quando innescando un lavoro nell'applicazione web di monitoraggio, il pannello di auto-aggiorna ogni secondo per ottenere il più recente stato di esecuzione.
  • datastore basati su file (come ad esempio fogli di calcolo CSV o Excel) con percorsi assoluti sono ora risolti correttamente nell'applicazione di monitoraggio web.
  • Il & quot; Selezionare tra chiave / valore map & quot; trasformatore ora supporta annidati selezionare espressioni come & quot; Address.Street & quot; o & quot; righe d'ordine [0] .product.name & quot;.
  • Il meccanismo di tabella di ricerca sono stati ottimizzati per le prestazioni, utilizzando dichiarazioni preparate durante l'esecuzione su database JDBC.
  • Gli amministratori possono ora scaricare archivi di dati basati su file direttamente dal & quot; datastore & quot; pagina.
  • La gestione delle eccezioni nell'applicazione di monitoraggio web è stato un po 'migliorata, rendendo i messaggi di errore più preciso e intuitivo.

Screenshots

datacleaner-70932_1_70932.png
datacleaner-70932_2_70932.png
datacleaner-70932_3_70932.png

Programmi simili

LiquiBase
LiquiBase

17 Jul 15

SQLObject
SQLObject

28 Sep 15

free4my
free4my

20 Feb 15

DTGen
DTGen

20 Feb 15

Altri software di sviluppo -

Commenti a DataCleaner

I commenti non trovato
Aggiungi commento
Accendere le immagini!