progetto cpdetector è un piccolo quadro ma intelligente per il rilevamento codepage.
cpdetector è un framework piccolo ma intelligente per il rilevamento tabella codici che integra diverse strategie. Può essere utilizzato come una libreria per software di terze parti che accede ai dati testuali sulla rete.
Esso include anche una implementazione di best practice in forma di uno strumento a riga di comando che permette la selezione e trasformazione di grandi raccolte di documenti in base alla loro tabella di codici.
Strategie disponibili includono: jchardet (esclusione, analisi in frequenza, e indovinare), rilevazione della proprietà charset HTML, e la rilevazione della dichiarazione di codifica XML.
Che cosa è una pagina di codice?
Inizialmente, un documento testuale è altro che sequenze di bit. Un computer deve decidere, come può visualizzare tali dati in forma di personaggi (che sono identificati dal computer come numeri).
Una pagina di codice - che è anche conosciuto come la codifica charset - associa i dati grezzi di un documento di testo in caratteri. La pagina di codice ASCII originale per esempio utilizza solo 7 bit di un ottetto (byte) per decidere il personaggio che viene rappresentato in modo da permettere mappare solo 128 caratteri diversi. In memoria del passato era costoso e computer più spesso avuto solo registri e bus per 8 bit.
Quando un mainframe è stato concepito doveva essere deciso, che i personaggi si dovrebbe sostenere. I medici e matematici per esempio necessari caratteri speciali per equazioni. Come risultato, un computer spesso fornito con una tabella codici speciale
Cosa c'è di nuovo in questa versione:.
- Questo importante bugfix versione corregge due problemi in modalità batch da riga di comando.
- Il passaggio per saltare in movimento documenti rilevati ora funziona nuovamente.
- verrà fatto alcun tentativo di convertire i documenti non rilevati (quest'ultimo ha causato flusso programma eccezionale).
Cosa c'è di nuovo nella versione 1.0.8:
- Questa versione è una versione stabilità e corregge il byte ordinare il riconoscimento del segno e di incompatibilità con OpenJDK. Inoltre richiede Java 1.5 ora.
I commenti non trovato