Apache Tika

Software screenshot:
Apache Tika
Dettagli del software:
Versione: 1.4
Data di caricamento: 20 Feb 15
Licenza: Libero
Popolarità: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika è un toolkit open source progettato per rilevare ed estrarre i metadati, così come contenuto testuale strutturati da vari documenti, utilizzando nient'altro esistente librerie parser.
Apache Tika supporta i seguenti formati di documenti: HyperText Markup Language (HTTP), formati XML e derivati, formati di documento di Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), in formato elettronico di pubblicazione (EPF), Rich Text Format (RTF ), formati di compressione e di packaging, i formati di testo / audio / immagini / video, il formato mbox, e file di classi Java e gli archivi.
In precedenza, Apache Tika era un sotto-progetto della biblioteca software Apache Lucene. Ora è distribuito come pacchetto standalone da Apache Software Foundation

Cosa c'è di nuovo in questa versione:.

  • Rimosso un file di test HTML con un testo GPL mal scelto in esso (TIKA-1129).
  • Miglioramenti tika-server per consentire di produrre text / html e text / xml contenuti (TIKA-1126, TIKA-1127).
  • I miglioramenti sono stati fatti per il compressore Parser per gestire i file g'zipped che richiedono l'opzione decompressConcatenated impostata su true (TIKA-1096).
  • Indirizzata un errore tipografico che impediva di rilevamento di file awk (TIKA-1081).
  • Aggiunta una nuova end-point al server JAX-RS REST di Tika che rileva solo il tipo di supporti basati su una piccola parte del documento presentato (TIKA-1047).
  • RTF:. Liste ordinate e non sono ora estratti (TIKA-1062)
  • MP3: durata Audio è ora estratta (TIKA-991)
  • file Java .class:. Aggiornato da ASM 3.1 a ASM 4.1 per analizzare i bytecode Java (TIKA-1053)
  • Tipi Mime: Definizioni estesi opzionalmente includere Link (URL) e UTI, con dettagli per diversi formati comuni (TIKA-1012 / TIKA-1083)
  • Eccezioni durante l'analisi di documenti OLE10 incorporato, durante l'analisi di informazioni di riepilogo da documenti Office, e quando il salvataggio documennts incorporati in TikaCLI sono ora registrati invece di interrompere l'estrazione (TIKA-1074)
  • MS Word: linea carattere tabellare è ora sostituito con la nuova linea (TIKA-1128)
  • XML: ElementMetadataHandlers può ora accettare opzionalmente valori duplicati e vuoti (TIKA-1133)
  • .

Requisiti :

  • Java 2 Standard Edition Runtime Environment

Altri software di sviluppo The Apache Software Foundation

Apache Chukwa
Apache Chukwa

19 Feb 15

Apache Mahout
Apache Mahout

19 Feb 15

Apache Hadoop
Apache Hadoop

2 Apr 18

Commenti a Apache Tika

I commenti non trovato
Aggiungi commento
Accendere le immagini!