Dettagli del software:
Versione: 2.6.0
Data di caricamento: 20 Feb 15
Licenza: Shareware
Prezzo: 1900.00 $
Popolarità: 63
progetto PDFTextStream è una libreria di estrazione di testo in formato PDF e metadati disponibili per Java, Python, e .NET.
Supporta tutte le versioni della specifica documento PDF, (inclusi v1.6, utilizzati da Acrobat 7), l'estrazione di testo codificato con set di caratteri a doppio byte (tra cui cinese, giapponese e coreano), decrittazione di 40 bit e 128 documenti bit criptato, e l'estrazione di tutti i metadati dei documenti forniti dai documenti PDF (compresi i dati dei moduli, segnalibri e le annotazioni).
Facile integrazione con Jakarta Lucene è incluso
Cosa c'è di nuovo in questa versione:.
- Questa versione include una serie di correzioni di fatto per garantire PDFTextStream è in grado di estrarre testo da documenti PDF che sono non conformi alla specifica PDF.
- Esso include anche una serie di miglioramenti delle prestazioni.
Cosa c'è di nuovo nella versione 2.3.0:
- Aggiunto un metodo .isStruckThrough () per com. snowtide.pdf.TextUnit, che indica se un personaggio ha un barrato disegnato attraverso di esso.
- Supporto migliorato di PDFTextStream per mapping di caratteri incorporati.
- Il calcolo di spazi bianchi tra le parole è stato corretto per tenere conto correttamente per spazi che è esplicitamente codificato nei documenti di origine PDF.
- Migliorata la gestione di PDFTextStream di codifiche di contenuti compositi, che in precedenza potevano mancare causando alcune gamme di contenuti PDF in fase di 'ignorato' durante l'estrazione.
- Risolto un bug in cui il testo VisualOutputTarget da una singola linea sarebbe suddiviso su più righe
- Migliore allineamento verticale del testo estratto utilizzando VisualOutputTarget
- Improved estratti VisualOutputTarget-prodotto per eliminare spuria ulteriore spazio tra le parole strettamente adiacenti
Cosa c'è di nuovo nella versione 2.2.5:
- Questa versione aggiunge il supporto per l'estrazione XFA moduli dati XML.
- Si migliora significativamente le prestazioni di estrazione di testo utilizzando VisualOutputTarget. Il supporto per i documenti PDF di dimensioni superiori a 2 GB.
- Una correzione per un bug per cui le codifiche di font Type1 incorporati erano in precedenza non applicati correttamente in alcune circostanze.
- Una correzione per un problema in cui è stato a volte ignorata recenti contenuti in documenti PDF aggiornato.
- Una correzione per un problema in cui i segnalibri e metadati PDFDocEncoding codifica non venivano decodificati correttamente.
- Metodo a com.snowtide.pdf.Bookmark .getDestinationName ().
Requisiti :
- Apache Lucene
I commenti non trovato