DataCleaner è un open source e completamente gratuito soluzione per le organizzazioni e le imprese che desiderano aumentare e misurare la qualità dei dati.
Con DataCleaner, gli utenti saranno in grado di profilo, confrontare, convalidare i dati contro le regole di business, e monitorare la progressione di queste misure nel tempo.
Tra le sue caratteristiche, si possono citare il monitoraggio dei dati, profilazione dei dati e l'analisi DQ, pulizia dei dati e l'arricchimento, rilevare e unisci duplicati, la qualità dei dati dei clienti, così come ETLightweight super-veloce (Extract-Transform-Load).
Per ulteriori informazioni sulle funzioni e le capacità di DataCleaner, così come il modo di lavorare con esso, si prega di fare riferimento a http://eobjects.dk/docs
What è nuovo in questa versione:
- I miglioramenti e nuove funzionalità:
- Abbiamo reso possibile creare e cancellare tabelle tramite l'interfaccia utente desktop del DataCleaner. Si noti che il termine & quot; tabella & quot; qui in realtà copre più di tabelle di database relazionali solo. Esso comprende anche fogli di archivi dati di MS Excel, Collezioni in MongoDB, i tipi di vita in CouchDB e elasticsearch e così via ... In pratica tutti i tipi datastore che supportano riprese di operazioni, ad eccezione di archivi di dati a tavolo singolo, come archivi di dati CSV, supporta questa funzionalità! La funzionalità è esposta tramite:
- & quot; Crea una tabella & quot; abilitata tramite il menu del tasto destro del schemi nella struttura sul lato sinistro dell'applicazione.
- & quot; Crea una tabella & quot; attivato anche tramite ingressi tabella di selezione a componenti quali inserire dati nella tabella, Ricerca in una tabella e la tabella di aggiornamento.
- & quot; & quot tavolo goccia; abilitata tramite il menu di scelta rapida di tabelle nella struttura sul lato sinistro dell'applicazione.
- Abbiamo aggiunto la possibilità (opzionale) di specificare il vostro servizio web Salesforce.com Endpoint URL. Ciò consente di utilizzare DataCleaner per connettersi a ambienti sandbox di Salesforce.com, nonché per i propri endpoint personalizzati.
- Il supporto elasticsearch è stato migliorato, consentendo mappature personalizzate, nonché il riutilizzo delle definizioni elasticsearch datastore ora anche per la ricerca e l'indicizzazione.
- Il campionamento dei registri e selezione di potenziali duplicati nella funzione di rilevamento dei duplicati è stata migliorata, portando alla configurazione più veloce perché le decisioni prese durante la sessione di allenamento sono più rappresentativi.
- Il formato di file modello di rilevamento dei duplicati è stato aggiornato, che ha eliminato la necessità di un file separato 'riferimento' al fine di salvare le decisioni di formazione del passato. La compatibilità con il vecchio formato è stato mantenuto, ma utilizzando il nuovo formato aggiunge molti benefici per l'esperienza dell'utente.
- Bugfix:
- Un problema filo fame è stato risolto in monitor di DataCleaner. L'impatto di questo problema è stato grande, ma è successo solo in rari casi e molto personalizzate. Se listener personalizzato oggetti sul monitor DataCleaner getterebbe un errore, si tradurrebbe in una risorsa non essere mai liberato e prendendo un thread dal pool di quarzo-pianificazione sul server. Se questo sarebbe accaduto molte volte il server potrebbe alla fine a corto di thread in quella piscina.
- Il menu verticale sullo schermo risultato ora sta facendo una corretta lavoro di visualizzare le etichette dei componenti che hanno risultati. Questo rende più facile riconoscere che i punti voce di menu per quello oggetto risultato.
Cosa c'è di nuovo nella versione 3.5.5:
- La trasformazione 'Sinonimo di ricerca' ora ha un'opzione per cercare ogni segno di ingresso. Ciò è utile se si sta facendo la sostituzione dei sinonimi nei valori di un campo di testo lungo.
- Blocco esecuzione dei lavori DataCleaner attraverso il servizio web del monitor per questo potrebbe non riuscire a volte con un bug causato dal filo di blocco. Questo problema è stato risolto.
- Un miglioramento è stato fatto in modo i posti di lavoro e la sequenza dei componenti sono chiusi / ripulito dopo l'esecuzione.
- La versione JNLP / Java Web Start di DataCleaner è stato esposto da un bug nel runtime Java causando alcuni file JAR non essere riconosciuti dal programma di avvio WebStart, in determinate circostanze. Questo problema è stato risolto facendo lievi modifiche a tali file JAR.
- Un po 'di link morti nella documentazione è stata fissata.
Cosa c'è di nuovo nella versione 3.5.4:
- È ora possibile nascondere le colonne di output di trasformazioni . Nascondere non influirà sul flusso di elaborazione a tutti, ma semplicemente nascondere l'interfaccia utente, e quindi potenzialmente rendendo l'esperienza più pulito, quando si interagisce con gli altri componenti.
- Un nuovo servizio web è stato aggiunto l'applicazione di monitoraggio web, che fornisce un modo per interrogare lo stato di esecuzione di un particolare lavoro.
- Un bug è stato risolto, causando il report HTML di fallire per alcuni tipi di analisi, quando nessun record erano stati elaborati.
- e altre 6 bug minore è stato indirizzato.
Cosa c'è di nuovo nella versione 3.5.1:
- Capture cambiato record:
- Un nuovo filtro è stato aggiunto per consentire l'elaborazione incrementale di record che non sono stati trattati in precedenza, ad esempio per la profilazione o la copia modificata solo i record. Il nome del nuovo filtro è cambiato Capture record, facendo riferimento al concetto di Change Data Capture.
- l'esecuzione di lavori in coda:
- Il monitor DataCleaner ora in coda l'esecuzione dello stesso lavoro, se viene attivato più volte. Questo assicura che non accidentalmente esegue lo stesso lavoro contemporaneamente, che possono portare a tutti i tipi di problemi, a seconda di ciò che il lavoro fa.
- bugfix minori:
- Diversi bugfix è stato attuato.
Cosa c'è di nuovo nella versione 3.5:
- Diverse procedure guidate sono ora disponibili per la registrazione datastore; tra cui il file-upload al server per file CSV, ingresso connessione al database, la registrazione guidata di credenziali di Salesforce.com e altro ancora.
- I maghi di costruzione di posti di lavoro sono stati estesi con diverse caratteristiche avanzate; Selezione di distribuzione del valore e modello di trovare campi della procedura guidata di analisi rapida, una nuova procedura guidata per la creazione di posti di lavoro di pulizia del cliente in base EasyDQ e una nuova procedura guidata di lavoro per la cottura di posti di lavoro di Data Integration Pentaho (leggi sotto).
- È ora possibile ad-hoc interrogare qualsiasi archivio dati direttamente nell'interfaccia utente web. Questo rende più facile ottenere intuizioni rapide o sporadiche nei dati senza la creazione di posti di lavoro o altri approcci gestiti di trattamento dei dati.
- Una volta che si creano posti di lavoro o archivi di dati, l'utente viene guidato ad agire con l'oggetto di recente costruzione. Per esempio, è possibile eseguire rapidamente un lavoro giusto dopo che è costruito, o interrogare un archivio dati dopo che è stato registrato.
- Gli amministratori possono ora caricare direttamente i lavori per il repository, che è particolarmente utile se si desidera mano modificare il contenuto XML dei file di lavoro.
- Un sacco di cruft tecnico è ora nascosto in favore di mostrare finestre di dialogo semplici. Per esempio, quando viene attivato un lavoro viene mostrato un grande indicatore di caricamento, e al termine verrà mostrato il risultato. La schermata di registrazione avanzata che è stato in precedenza ci può ancora essere visualizzati su cliccando su un link per ulteriori dettagli.
Cosa c'è di nuovo nella versione 3.1.2:
- Abbiamo aggiunto un servizio web nel monitoraggio richiesta di ottenere un (elenco di valori) metriche. Questo rende il monitoraggio ancora più usabile come una componente chiave delle infrastrutture, come un modo per monitorare i dati (di qualità) ed esporre i risultati di applicazioni di terze parti.
- Il componente 'Ricerca in una tabella' è stata migliorata con l'aggiunta di unirsi semantica come una proprietà configurabile. Utilizzando il join semantica si può modificare se si desidera la ricerca a lavorare semanticamente come un LEFT JOIN o un INNER JOIN.
- sono stati aggiornati i componenti EasyDQ, aggiungendo ulteriori opzioni di configurazione e una più ricca interfaccia risultato di deduplicazione.
- I miglioramenti delle prestazioni sono state un focus specifico di questa release. Sono stati apportati miglioramenti nel motore di DataCleaner di utilizzare ulteriormente un approccio di elaborazione in streaming in alcuni casi angolo che non era coperto in precedenza.
Cosa c'è di nuovo nella versione 3.1.1:
- La data e opzioni di analisi relativi al tempo sono stati ampliati , aggiungendo gli analizzatori di distribuzione per i numeri delle settimane, mesi e anni. Tutti gli analizzatori relativi alla data e l'ora sono ora raggruppati all'interno di un sottomenu chiamato & quot; Data e ora & quot; in & quot; Analizzare & quot;.
- Un opzionale & quot; & quot statistiche descrittive; opzione è stata aggiunta all'analizzatore numero e l'analizzatore data / ora. Questa opzione aggiunge metriche aggiuntive per i risultati di questi analizzatori, come mediana, asimmetria, percentili e curtosi. Queste metriche sono opzionali dal momento che la loro occupazione di memoria è un po 'più grande rispetto alle metriche esistenti.
- Le linee nelle classifiche della timeline dell'applicazione web di monitoraggio ora hanno piccoli punti in loro. Questo è particolarmente utile per i grafici con pochi (o anche uno solo) osservazioni in loro -. Indicare esattamente dove i punti di osservazione sono
- Il parser di query quando le query invocando ad-hoc sono anche stati notevolmente migliorati. Ora query possono contenere clausole distinte, * -wildcards, sottoquery e sono fault-tolerant verso le tematiche del testo e minuscole.
- Due nuovi trasformatori sono stati aggiunti per la generazione di UUID e per la generazione di timestamp.
Cosa c'è di nuovo nella versione 3.1:
- formule metriche - elaborati Data Quality KPI:
- Ora è possibile costruire molto più elaborato Data Quality KPI in applicazione web di monitoraggio di DataCleaner. L'interfaccia utente consente di creare formule complesse in stile formula foglio elettronico; utilizzando variabili raccolte dai lavori DataCleaner.
- formule metriche possono combinare qualsiasi numero di metriche, le costanti e le operazioni, fintanto che può essere espressa in un'equazione matematica.
- Per esempio - misurare il tasso di record duplicati in percentuale del numero totale di record. O misurare la quantità dei codici dei prodotti che si conformano a un insieme di molteplici modelli di stringa.
- Ad-hoc interrogazione - di qualsiasi archivio dati:
- Con DataCleaner 3.1 è ora possibile eseguire query ad-hoc per ogni datastore! Le query possono essere espressi in SQL pianura e saranno applicati a basi di dati e file, database NoSQL e di più, fornendo un meccanismo di query veramente utile per estendere nella vostra esperienza di scoperta e di dati di profilazione.
- L'opzione richiesta è disponibile anche attraverso un servizio web per monitorare gli utenti con il ruolo ADMIN. La query viene fornito come parametro HTTP o corpo POST, e il risultato viene fornito come una tabella XHTML.
- Valore Matcher - una nuova opzione di analisi:
- Spesso si ha un'idea costante su cui valori dovrebbe essere consentito e previsto per un campo particolare. In DataCleaner c'è sempre stata la possibilità di analisi Valore di distribuzione che li aiuterebbe ad affermare la propria ipotesi. In DataCleaner 3.1, però, si dispone di una più precisa offerta - il matcher valore. Questa opzione analisi consente di specificare un insieme di valori attesi e quindi eseguire una distribuzione del valore come l'analisi, in particolare per convalidare e identificare i valori imprevisti.
- copia, la cancellazione e la gestione di posti di lavoro:
- Gestione dei posti di lavoro e risultati nel monitorare l'applicazione DataCleaner è stata migliorata notevolmente. A questo punto è possibile fare clic su un posto di lavoro nella pagina Pianificazione del monitor, e trovare delle opzioni di gestione disponibili per le operazioni di come rinominare, copiare, cancellare e altro ancora. Ogni operazione rispetta i collegamenti con altri artefatti nel monitor, come ad esempio i risultati delle analisi, orari e altro ancora. Ciò significa che la gestione del repository di monitoraggio è diventato molto più facile e maturo.
- Gestisci la storia della qualità dei dati:
- A volte si sta affrontando situazioni in cui si vuole realmente fare il monitoraggio con i dati storici! Potrebbe essere che avete discariche storiche o backup dei database, che si desidera mostrare e raccontare la storia di. È ora possibile fare l'analisi di questi dati storici, caricarlo sul monitor DataCleaner, e l'utilizzo di un nuovo servizio web, impostare un dato storico di quel particolare risultato dell'analisi. Ciò significa che le sequenze temporali potranno tracciare correttamente i risultati con la loro data prevista, ma con i risultati che avete raccolto forse in un secondo momento.
- Supporto scheduler cluster (solo EE):
- Lo scheduler monitor DataCleaner è stato esteriorizzato, in modo che possa essere sostituita da mezzi di semplice configurazione. Nella Enterprise Edition (EE) di DataCleaner, mettiamo a disposizione uno scheduler cluster, fornendo la possibilità di bilanciamento del carico e distribuire i esecuzioni su un cluster di macchine.
- single-sign-on (SSO) utilizzando CAS (EE solo):
- Nella Enterprise Edition (EE) di DataCleaner ora forniamo un'opzione singolo profilo di accesso per l'applicazione del monitor. Ora DataCleaner può essere parte integrante della vostra infrastruttura IT, anche la sicurezza-saggio.
- ... E molto di più:
- È possibile che questo è solo un riassunto. Più di trenta i problemi sono stati risolti in questa versione. Abbiamo risolto diverse richieste provenienti dai forum e comunità, e noi incoraggiare tutti ad utilizzare questo mezzo come veicolo per il cambiamento. Siamo molto felici di rendere lo sviluppo di DataCleaner essere fortemente influenzato dai torrenti nella comunità.
Cosa c'è di nuovo nella versione 3.0.3:
- Aggiunge un servizio per rinominare i lavori nel repository di monitoraggio .
- È possibile accedere a questo come un servizio Web RESTful o in modo interattivo nell'interfaccia utente.
- Un servizio Web è stato aggiunto per cambiare la data storica di un risultato dell'analisi nel repository di controllo.
- L'applicazione Web è stato reso compatibile con i contenitori eredità JSF.
- Caching di configurazione nell'applicazione Web è stato notevolmente migliorato, portando a tempi di caricamento della pagina e di inizializzazione lavoro più veloce.
Cosa c'è di nuovo nella versione 3.0.2:
- Quando innescando un lavoro in applicazione web di monitoraggio, il pannello di auto-aggiorna ogni secondo per ottenere il più recente stato di esecuzione.
- datastore basato su file (come ad esempio CSV o Excel fogli di calcolo) con percorsi assoluti sono ora risolte correttamente nell'applicazione di monitoraggio web.
- Il & quot; Selezionare da chiave / valore map & quot; trasformatore supporta ora nidificati le espressioni di selezione come & quot; Address.Street & quot; o & quot; OrderLines [0] .product.name & quot;.
- Il meccanismo di tabella di ricerca sono stati ottimizzati per le prestazioni, utilizzando le istruzioni preparate durante l'esecuzione contro i database JDBC.
- Gli amministratori possono ora scaricare archivi di dati basati su file direttamente dal & quot; datastore & quot; pagina.
- La gestione delle eccezioni nell'applicazione di monitoraggio web è stato migliorato un po ', rendendo i messaggi di errore più precisa e intuitiva.
Cosa c'è di nuovo nella versione 3.0.1:
- Il bugfix primario in questa versione era sul ripristino del mappatura delle colonne e categorizzazioni enumerabili specifici. Ad esempio, nel nuovo analizzatore completezza, abbiamo scoperto che dopo aver ricaricato un lavoro salvato, la mappatura non è stato sempre corretto.
- Inoltre sono stati fatti alcuni miglioramenti interni, rendendo più facile per distribuire il DataCleaner monitor di applicazioni web in ambienti con Spring Framework.
- Ultimo ma non meno importante, le impostazioni di visualizzazione in applicazione desktop sono state migliorate prendendo automaticamente uno sguardo al lavoro in corso di visualizzato e commutazione visualizzati artefatti in base alle dimensioni dello schermo e la quantità di dettagli necessari per mostrare bene.
Cosa c'è di nuovo nella versione 3.0:
- Visualizzazione della cronologia e le tendenze di metriche di qualità dei dati
- repository centralizzato per la gestione e contenente posti di lavoro, risultati, calendari, ecc.
- Programmazione e alla revisione dei posti di lavoro DataCleaner
- Fornire servizi web per invocare trasformazioni DataCleaner
- Sicurezza e multi-tenancy
- Avvisi e notifiche quando le metriche di qualità dei dati sono fuori delle loro zone di comfort attesi.
- C'è un nuovo analizzatore di completezza che è molto utile per identificare semplicemente record che hanno campi incompleti.
- È ora possibile esportare i risultati in DataCleaner bel aspetto HTML riferisce che si può dare al vostro responsabile, o inviare al vostro parser XML!
- Il nuovo ambiente di monitoraggio è anche strettamente integrato con l'applicazione desktop. Pertanto, l'applicazione desktop ha ora la possibilità di pubblicare lavori e risultati al repository monitor, e per essere usato come un editor interattivo per contenuti già nel repository.
- nuove trasformazioni di data-oriented sono ora disponibili: filtro intervallo di date, che consente di impostazione secondaria set di dati in base a intervalli di date, e il formato della data, che consente di formattare una data utilizzando una maschera di data li>.
- Il Regex Parser (che in precedenza era disponibile solo attraverso il ExtensionSwap) è stata inclusa in DataCleaner. Questo rende molto conveniente per analizzare e standardizzare i campi di testo ricco utilizzando le espressioni regolari.
- C'è un nuovo caso trasformatore di testo disponibili. Con questa trasformazione è possibile convertire facilmente tra / minuscole superiore e propria capitalizzazione di frasi e parole.
- Due nuovi ricerca / sostituzione trasformazioni:. ricerca Plain / sostituire e Regex ricerca / sostituzione
- L'esperienza utente dell'applicazione desktop è stata migliorata. Abbiamo aggiunto diversi messaggi di aiuto in applicazione, fatti i colori appaiono più brillanti e più chiare e migliorato la gestione dei font.
Sono stati aggiunti
Cosa c'è di nuovo nella versione 2.5.2:
- Supporto Apache CouchDB:
- Abbiamo aggiunto il supporto per il database NoSQL Apache CouchDB. DataCleaner supporta sia la lettura, l'analisi e la scrittura alle istanze CouchDB.
- Aggiornamento tabella scrittore:
- A seguito di nostre precedenti sforzi per portare le caratteristiche ETLightweight stile in DataCleaner, abbiamo aggiunto uno scrittore che aggiorna record in una tabella. È possibile utilizzare questo per esempio per inserire o aggiornare i record in base a determinate condizioni.
- Come l'inserimento nella tabella scrittore, il nuovo scrittore tavolo DataCleaner aggiornamento non è limitata ai database basati su SQL, ma qualsiasi tipo di archivio dati che supporta la scrittura (attualmente database relazionali, file CSV, fogli di calcolo Excel, database MongoDB e database MongoDB), ma la semantica sono gli stessi con una dichiarazione tradizionale UPDATE tabella in SQL.
- Drill-to-dettaglio delle informazioni salvate nel file dei risultati:
- Quando si utilizza la funzione Salva risultato di DataCleaner 2.5, alcuni utenti hanno sperimentato che le loro informazioni trapano ai dettagli è stato perso. In DataCleaner 2.5.2 ora persistere anche questa informazione, rendendo gli archivi DQ molto più prezioso nell'ambito delle indagini incidenti di dati storici.
- Migliorata la gestione degli errori EasyDQ:
- I componenti EasyDQ sono stati migliorati in termini di gestione degli errori. Se si verifica un problema di rete momentanea o un altro problema simile causa alcuni record di fallire, i componenti EasyDQ saranno ora recuperare con grazia e soprattutto -. Il vostro lavoro in batch prevarrà anche a dispetto degli errori
- mappatura Tavolo per archivi di dati NoSQL:
- Dal CouchDB e MongoDB non sono tabella in base, ma hanno una struttura più dinamica forniamo due approcci per lavorare con loro: Il valore di default, che è quello di lasciare DataCleaner autodetect una struttura di tabella, e l'avanzato che consente di specificare manualmente il struttura tabella desiderata. In precedenza l'opzione avanzata era disponibile solo tramite configurazione XML, ma ora l'interfaccia utente contiene le finestre di dialogo appropriate per fare questo direttamente nell'applicazione.
Cosa c'è di nuovo nella versione 2.4.1:
- miglioramenti Feature:
- Batch di carico caratteristiche stiamo notevolmente migliorata durante la scrittura dei dati in tabelle di database. Aspettiamo di vedere molti ordini di grandezza miglioramenti qui.
- La scrittura di dati sono stati più convenientemente messo a disposizione aggiungendo le opzioni per il menu della finestra.
- È ora possibile rinominare facilmente i componenti di un posto di lavoro con un doppio clic sulle loro schede.
- Il trasformatore JavaScript ora ha la colorazione della sintassi, in modo che i Javascript sono più facili da controllare e modificare.
- Bugfix:
- Durante la lettura e la scrittura allo stesso archivio dati (ad es. L'area di sosta DataCleaner) abbiamo fatto in modo che la cache tavolo di che datastore viene aggiornato. In precedenza alcuni scenari permesso di vedere una visione out-of-date delle tabelle.
- Un potenziale situazione di stallo quando si avvia l'applicazione è stato risolto. Questa situazione di stallo è stata una conseguenza di un problema nella JVM, ma abbiamo lavorato intorno ad esso sincronizzando tutte le chiamate alla particolare API in Java.
Cosa c'è di nuovo nella versione 2.4: (. Aka deduplicazione o fuzzy matching di record)
- Rilevamento dei duplicati , che è libero di utilizzare per un massimo di 500.000 valori.
- convalida i dati di indirizzo e la pulizia. Ciò consente di verificare se esistono indirizzi, se sono correttamente formattati e anche per suggerire correzioni nel caso in cui si dispone di errori.
- la convalida dei dati Nome e pulizia. Con il servizio Nome, EasyDQ non formato non solo i nomi in modo coerente, ma verifica anche per gli errori ortografici e interpreta le parti del nome.
- E-mail e telefono convalida e la pulizia. Questi servizi forniscono la verifica dei dati e-mail e telefono, facendo in modo che domini di posta elettronica esistono, che i codici dei paesi sono corretti e molto altro ancora.
Cosa c'è di nuovo nella versione 2.3:
- Supporto dati internazionale:
- Se si lavora con i dati internazionali, allora si potrebbe avere diversi set di caratteri nei dati, ad esempio cinesi o ebraico. Abbiamo aggiunto l'analizzatore di distribuzione set di caratteri, che è un'opzione profiling che consente di capire quale set di caratteri vengono utilizzati nei dati.
- Lavorare con i dati che contengono diversi set di caratteri può essere problematico. Utilizzando il nuovo trasformatore di traslitterare è ora possibile traslitterare stringhe provenienti da diversi sistemi di scrittura a caratteri latini.
- C'è anche una nuova dimostrazione webcast, concentrandosi sulle capacità di dati internazionali di DataCleaner 2.3 nella sezione relativa alla documentazione.
- Il raggruppamento dei risultati delle analisi da una colonna secondaria:
- L'analizzatore del modello è ora in grado di modelli di gruppo basate su una colonna secondaria. Questo è utile per le analisi come:
- Ottenere modelli di numeri di telefono, raggruppate in base al paese.
- Ottieni modelli di nome utente e-mail basate su dominio di posta elettronica.
- Qualcosa di simile è stato fatto per l'analizzatore di distribuzione del valore; questo permette di analisi come ad esempio:
- Sono tutti nomi di città distinte, quando raggruppati per codice postale?
- Qual è la distribuzione di genere all'interno di particolari tipologie di clienti?
- i grafici migliorati:
- I risultati del modello Finder possono ora essere visualizzati in un grafico. Ciò rende la distribuzione visibile e mostra quanto di un & quot; lunga coda & quot; dei modelli che ci sia.
- L'uscita dell'analizzatore distribuzione del valore è stato migliorato in un paio di aree:
- La leggibilità del grafico è stata migliorata.
- indica il numero totale di righe e il conteggio distinto su queste righe: il numero di diversi valori che esistono nelle righe. Questo aiuta a capire come spesso esistono valori duplicati.
- Se non ci sono stringhe vuote, usiamo la parola per esso, in modo che sia più facile riconoscere loro.
- Output:
- Accanto ai formati già esistenti di output (file CSV e datastore H2) abbiamo aggiunto la scrittura in uscita di fogli di calcolo Excel.
- Dopo aver scritto a un archivio dati, è ora possibile visualizzare in anteprima l'uscita, in modo da poter controllare se l'uscita è secondo le vostre aspettative.
- È ora possibile aggiungere l'output come un nuovo archivio dati, in modo che possa essere usato come ingresso per un nuovo lavoro.
- Altri miglioramenti:
- La documentazione è stata generalmente migliorata. In particolare, sono state aggiunte di registrazione e di interfaccia a riga di comando descrizioni.
- Il meccanismo di estensione è stata migliorata modularizzando diversi pezzi di applicazione e l'introduzione di Google Guice come un quadro di iniezione di dipendenza in generale disponibile per sviluppatori di estensioni.
- E, naturalmente, abbiamo fatto più di venti piccoli miglioramenti e correzioni di bug.
Cosa c'è di nuovo nella versione 2.2:
- Il driver principale di questa versione è stata una storia di estensibilità . Mentre rilasciando l'applicazione che stiamo simultaniously rilasciando un sito web una nuova DataCleaner che dispone di una nuova importante area: Il ExtensionSwap. L'idea del ExtensionSwap è quello di consentire la condivisione di estensioni DataCleaner e l'installazione semplicemente cliccando su un pulsante nel browser!
- L'estensione API DataCleaner è stata migliorata molto in questa versione, rendendo possibile creare i propri trasformatori, analizzatori e filtri. Se ti senti le estensioni potrebbero essere di interesse per gli altri utenti, si prega di condividerlo sul ExtensionSwap fornendo un canale per di distribuire facilmente a migliaia di utenti. L'API di estensione ed il ExtensionSwap è ulteriormente spiegato nella nostra nuova dimostrazione webcast per sviluppatori e altri techies con un interesse.
- Stiamo anche il rilascio di una serie di estensioni iniziali sulla ExtensionSwap: I Hiquality Contatti per estensione DataCleaner che fornisce Nome avanzate, Telefono e-mail pulizia, basato su deduzioni umana linguaggio naturale servizi web di elaborazione DQ. Anche noi siamo la spedizione di un estensione di esempio che servirà come esempio per gli sviluppatori che vogliono provare sviluppo di estensioni se stessi. Nei prossimi mesi faremo in modo di inviare ancora più estensioni provenienti dal nostro portafoglio interna di strumenti che usiamo a squadre di conoscenza raccolta di Human Inference.
- In aggiunta a estensibilità stiamo anche concentrando su embeddability. Vogliamo essere in grado di incorporare DataCleaner facilmente in altre applicazioni per fare profiling e analisi di dati possibili ovunque! Abbiamo creato una nuova API bootstrapping, che consente alle applicazioni di fascio DataCleaner e inizializzarlo con una configurazione dinamica o eseguire in un & quot; unico modo datastore & quot ;, in cui l'applicazione è sintonizzato verso solo l'ispezione di un singolo archivio dati (tipicamente definito dall'applicazione che incorpora DataCleaner). Abbiamo già alcuni casi molto interessanti di incorporare DataCleaner nelle opere -. Sia in altre applicazioni open source e applicazioni commerciali
- Abbiamo aggiunto il supporto per l'analisi di insiemi di dati SAS. Questo è qualcosa che siamo molto orgogliosi di come siamo, a nostra conoscenza, la prima applicazione importante open source per fornire tale funzionalità, in ultima analisi, liberando un sacco di utenti SAS. La parte interoperabilità SAS è stato creato come un progetto separato, SassyReader, quindi ci aspettiamo di vedere l'adozione in comunità open source gratuiti di DataCleaner presto troppo!
- Abbiamo anche aggiunto il supporto per un altro tipo di datastore: fisso i file di larghezza. file di larghezza fissa sono file di testo in cui ogni colonna ha una larghezza fissa. Non vi è alcuna separazione o di citazione carattere, come file CSV, invece ogni linea sono uguali in lunghezza e ogni linea sarà formato token in base a una serie di lunghezze di valore.
- Una opzione & quot; fallire su incongruenze & quot; è stato aggiunto al file CSV e datastore di file larghezza fissa. Queste flag aggiungono un controllo di integrità formato quando si utilizzano questi archivi di dati basati su file di testo.
- Un bug è stato risolto, che ha causato impostazioni CSV separatore di non essere trattenuti nell'interfaccia utente, quando si modifica un archivio dati CSV.
- giapponesi e altri personaggi non sono supportati nell'interfaccia utente. Questo & quot; bug & quot; era una questione di indagare i font disponibili sul sistema e la selezione di un tipo di carattere che può rendere i caratteri particolari. Sulla maggior parte dei sistemi moderni ci saranno caratteri capaci disponibile, ma su alcuni rami Unix / Linux ci potrebbe essere ancora limitazioni.
- La sezione relativa alla documentazione è stata aggiornata! Fin dal rilascio iniziale 2.0 la documentazione sono stati molto indietro, ma abbiamo finalmente riuscito ad ottenere fino ad oggi. Ci sono ancora pezzi mancanti nella documentazione, ma dovrebbe sicuramente essere utile per l'uso di base, nonché un punto di riferimento per la maggior parte degli argomenti.
- tempo di avvio Application è stata migliorata parallelizzando carico configurazione e ritardando l'inizializzazione di quelle parti della configurazione che non sono necessari per la visualizzazione iniziale della finestra.
- L'analizzatore somiglianza fonetica Finder sono stati rimossi dalla distribuzione principale, in quanto questo era piuttosto sperimentale e serve principalmente come una prova di concetto e un antipasto per la comunità per creare gli analizzatori di corrispondenza più avanzate. Ora è possibile trovare e installare il finder somiglianza fonetica sul ExtensionSwap.
- Annullato o la gestione del lavoro errornous è stato migliorato e l'interfaccia utente risponde più correttamente disabilitando pulsanti e indicatori di progresso, se un lavoro è fermato.
- fissi alcuni problemi minori dell'interfaccia utente relative alla tabella di dimensionamento e l'uso di barre di scorrimento.
Cosa c'è di nuovo nella versione 2.1.1:
- Miglioramenti:
- Aggiunto un campo di testo di ricerca / filtraggio sulla lista datastore. Ciò consente di trovare rapidamente il vostro datastore se si è registrato più di datastore disponibili sullo schermo.
- I dati di riferimento per i codici paese è stato aggiunto alla distribuzione standard, grazie va a Graham Rhind per la fornitura di questi.
- Aggiunta una barra di scorrimento orizzontale per i dati in anteprima finestre di ci sono più di 10 colonne.
- Possibilità di aggiungere un pacchetto di estensione con nuove funzionalità nella finestra di dialogo Opzioni in fase di esecuzione. Più attenzione per le estensioni seguirà nelle prossime uscite.
- Abbiamo esposto un'anteprima della nostra Command-Line Interface (CLI), consentendo di richiamare l'applicazione con il & quot; -usage & quot; parametro che mostrerà le opzioni CLI.
- numero Aggiunto opzioni di formattazione per il & quot; Conversione in numero & quot; trasformatore.
- Bugfix:
- Risolto un problema per out-of-memoria quando l'interrogazione di tabelle con un sacco di colonne (150 +).
- Risolto un problema che causa il & quot; analisi Limite & quot; casella di controllo per non essere controllato in modo corretto quando un lavoro è stato riaperto dopo il salvataggio.
- Non proprio un bugfix, come non è mai stato una caratteristica ufficiale, ma ora supporta il ripristino delle preferenze dell'utente (il file userpreferences.dat) da versioni precedenti di DataCleaner.
Cosa c'è di nuovo nella versione 2.1:
- C'è stato un sacco di lavoro fatto sull'interfaccia utente ( vedi pagina media):
- Abbiamo deciso di rimuovere la finestra lato sinistro contenente le opzioni di configurazione dell'ambiente.
- Invece tutte queste opzioni sono ora stati spostati alla finestra dell'edificio lavoro in modo che l'utente deve solo concentrarsi su una singola finestra per tutte le interazioni necessarie per costruire un posto di lavoro.
- La finestra di benvenuto / login è stato rimosso in favore di un pannello più discreto che può essere tirato in o nascosto dalla finestra principale.
I commenti non trovato