PDFTextStream

Software screenshot:
PDFTextStream
Dettagli del software:
Versione: 2.6.0
Data di caricamento: 20 Feb 15
Licenza: Shareware
Prezzo: 1900.00 $
Popolarità: 2

Rating: nan/5 (Total Votes: 0)

progetto PDFTextStream è una libreria di estrazione di testo in formato PDF e metadati disponibili per Java, Python, e .NET.
Supporta tutte le versioni della specifica documento PDF, (inclusi v1.6, utilizzati da Acrobat 7), l'estrazione di testo codificato con set di caratteri a doppio byte (tra cui cinese, giapponese e coreano), decrittazione di 40 bit e 128 documenti bit criptato, e l'estrazione di tutti i metadati dei documenti forniti dai documenti PDF (compresi i dati dei moduli, segnalibri e le annotazioni).
Facile integrazione con Jakarta Lucene è incluso

Cosa c'è di nuovo in questa versione:.

  • Questa versione include una serie di correzioni di fatto per garantire PDFTextStream è in grado di estrarre testo da documenti PDF che sono non conformi alla specifica PDF.
  • Esso include anche una serie di miglioramenti delle prestazioni.

Cosa c'è di nuovo nella versione 2.3.0:

  • Aggiunto un metodo .isStruckThrough () per com. snowtide.pdf.TextUnit, che indica se un personaggio ha un barrato disegnato attraverso di esso.
  • Supporto migliorato di PDFTextStream per mapping di caratteri incorporati.
  • Il calcolo di spazi bianchi tra le parole è stato corretto per tenere conto correttamente per spazi che è esplicitamente codificato nei documenti di origine PDF.
  • Migliorata la gestione di PDFTextStream di codifiche di contenuti compositi, che in precedenza potevano mancare causando alcune gamme di contenuti PDF in fase di 'ignorato' durante l'estrazione.
  • Risolto un bug in cui il testo VisualOutputTarget da una singola linea sarebbe suddiviso su più righe
  • Migliore allineamento verticale del testo estratto utilizzando VisualOutputTarget
  • Improved estratti VisualOutputTarget-prodotto per eliminare spuria ulteriore spazio tra le parole strettamente adiacenti

Cosa c'è di nuovo nella versione 2.2.5:

  • Questa versione aggiunge il supporto per l'estrazione XFA moduli dati XML.
  • Si migliora significativamente le prestazioni di estrazione di testo utilizzando VisualOutputTarget. Il supporto per i documenti PDF di dimensioni superiori a 2 GB.
  • Una correzione per un bug per cui le codifiche di font Type1 incorporati erano in precedenza non applicati correttamente in alcune circostanze.
  • Una correzione per un problema in cui è stato a volte ignorata recenti contenuti in documenti PDF aggiornato.
  • Una correzione per un problema in cui i segnalibri e metadati PDFDocEncoding codifica non venivano decodificati correttamente.
  • Metodo a com.snowtide.pdf.Bookmark .getDestinationName ().

Requisiti :

  • Apache Lucene

Commenti a PDFTextStream

I commenti non trovato
Aggiungi commento
Accendere le immagini!