Apache Tika è un toolkit open source progettato per rilevare ed estrarre i metadati, così come contenuto testuale strutturati da vari documenti, utilizzando nient'altro esistente librerie parser.
Apache Tika supporta i seguenti formati di documenti: HyperText Markup Language (HTTP), formati XML e derivati, formati di documento di Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), in formato elettronico di pubblicazione (EPF), Rich Text Format (RTF ), formati di compressione e di packaging, i formati di testo / audio / immagini / video, il formato mbox, e file di classi Java e gli archivi.
In precedenza, Apache Tika era un sotto-progetto della biblioteca software Apache Lucene. Ora è distribuito come pacchetto standalone da Apache Software Foundation
Cosa c'è di nuovo in questa versione:.
- Rimosso un file di test HTML con un testo GPL mal scelto in esso (TIKA-1129).
- Miglioramenti tika-server per consentire di produrre text / html e text / xml contenuti (TIKA-1126, TIKA-1127).
- I miglioramenti sono stati fatti per il compressore Parser per gestire i file g'zipped che richiedono l'opzione decompressConcatenated impostata su true (TIKA-1096).
- Indirizzata un errore tipografico che impediva di rilevamento di file awk (TIKA-1081).
- Aggiunta una nuova end-point al server JAX-RS REST di Tika che rileva solo il tipo di supporti basati su una piccola parte del documento presentato (TIKA-1047).
- RTF:. Liste ordinate e non sono ora estratti (TIKA-1062)
- MP3: durata Audio è ora estratta (TIKA-991)
- file Java .class:. Aggiornato da ASM 3.1 a ASM 4.1 per analizzare i bytecode Java (TIKA-1053)
- Tipi Mime: Definizioni estesi opzionalmente includere Link (URL) e UTI, con dettagli per diversi formati comuni (TIKA-1012 / TIKA-1083)
- Eccezioni durante l'analisi di documenti OLE10 incorporato, durante l'analisi di informazioni di riepilogo da documenti Office, e quando il salvataggio documennts incorporati in TikaCLI sono ora registrati invece di interrompere l'estrazione (TIKA-1074)
- MS Word: linea carattere tabellare è ora sostituito con la nuova linea (TIKA-1128)
- XML: ElementMetadataHandlers può ora accettare opzionalmente valori duplicati e vuoti (TIKA-1133) .
Requisiti :
- Java 2 Standard Edition Runtime Environment
I commenti non trovato