PDFMiner funziona prima di prendere il contenuto di un file PDF e convertirlo in un formato più malleabile come HTML.
Da lì, testo e dati vengono estratti e analizzati, e in base alle regole predefinite separati e presentati all'utente o inviati ad altre più potenti strumenti di analisi dei dati.
Se l'analisi del testo non è quello che si intende fare, si può facilmente configurare PDFMiner per estrarre semplicemente o semplicemente convertire i dati in formato PDF pure.
Le sue funzioni possono funzionare indipendentemente l'uno dall'altro e consentire un più ampio spettro di utilizzo grazie ad esso
Caratteristiche .
- 100% Python codice, nessun C o C ++
- parse PDF
- Analizzare i PDF
- Convertire file PDF in altri formati
- ToC estrattore
- Ottieni solo tag contenuto
- Il supporto per un gran numero di caratteristiche testo PDF
- Il supporto per un gran numero di tipi di font all'interno di file PDF
- la crittografia di base (RC4) sostegno
Cosa c'è di nuovo in questa versione:
- metodo PDFDocument.initialize () viene rimosso e non è più necessario . Una password viene dato come argomento di un costruttore PDFDocument.
Cosa c'è di nuovo nella versione 20110515:.
- modifiche API
- classe LTPolygon è stato rinominato come LTCurve.
Cosa c'è di nuovo nella versione 20110227:.
- Correzioni di bug e miglioramenti di analisi del layout
Cosa c'è di nuovo nella versione 20101226:.
- Un paio di bugfix e miglioramenti minori
Cosa c'è di nuovo nella versione 20101017:.
- Un paio di bugfix e miglioramenti minori
Cosa c'è di nuovo nella versione 20100424:.
- Bugfix e piccoli miglioramenti su estrazione TOC
Requisiti
- Python 2.4 fino a 3
Limitazioni .
- PDFMiner può essere 20 volte più lento / C ++ C - software basato
I commenti non trovato