Apache Tika

Software screenshot:
Apache Tika
Dettagli del software:
Versione: 1.4
Data di caricamento: 20 Feb 15
Licenza: Libero
Popolarità: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika è un toolkit open source progettato per rilevare ed estrarre i metadati, così come contenuto testuale strutturati da vari documenti, utilizzando nient'altro esistente librerie parser.
Apache Tika supporta i seguenti formati di documenti: HyperText Markup Language (HTTP), formati XML e derivati, formati di documento di Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), in formato elettronico di pubblicazione (EPF), Rich Text Format (RTF ), formati di compressione e di packaging, i formati di testo / audio / immagini / video, il formato mbox, e file di classi Java e gli archivi.
In precedenza, Apache Tika era un sotto-progetto della biblioteca software Apache Lucene. Ora è distribuito come pacchetto standalone da Apache Software Foundation

Cosa c'è di nuovo in questa versione:.

  • Rimosso un file di test HTML con un testo GPL mal scelto in esso (TIKA-1129).
  • Miglioramenti tika-server per consentire di produrre text / html e text / xml contenuti (TIKA-1126, TIKA-1127).
  • I miglioramenti sono stati fatti per il compressore Parser per gestire i file g'zipped che richiedono l'opzione decompressConcatenated impostata su true (TIKA-1096).
  • Indirizzata un errore tipografico che impediva di rilevamento di file awk (TIKA-1081).
  • Aggiunta una nuova end-point al server JAX-RS REST di Tika che rileva solo il tipo di supporti basati su una piccola parte del documento presentato (TIKA-1047).
  • RTF:. Liste ordinate e non sono ora estratti (TIKA-1062)
  • MP3: durata Audio è ora estratta (TIKA-991)
  • file Java .class:. Aggiornato da ASM 3.1 a ASM 4.1 per analizzare i bytecode Java (TIKA-1053)
  • Tipi Mime: Definizioni estesi opzionalmente includere Link (URL) e UTI, con dettagli per diversi formati comuni (TIKA-1012 / TIKA-1083)
  • Eccezioni durante l'analisi di documenti OLE10 incorporato, durante l'analisi di informazioni di riepilogo da documenti Office, e quando il salvataggio documennts incorporati in TikaCLI sono ora registrati invece di interrompere l'estrazione (TIKA-1074)
  • MS Word: linea carattere tabellare è ora sostituito con la nuova linea (TIKA-1128)
  • XML: ElementMetadataHandlers può ora accettare opzionalmente valori duplicati e vuoti (TIKA-1133)
  • .

Requisiti :

  • Java 2 Standard Edition Runtime Environment

Altri software di sviluppo The Apache Software Foundation

Apache Pig
Apache Pig

18 Jul 15

Apache HBase
Apache HBase

17 Feb 15

Apache ManifoldCF
Apache ManifoldCF

20 Feb 15

Commenti a Apache Tika

I commenti non trovato
Aggiungi commento
Accendere le immagini!