Apache Tika è stato sviluppato come un kit di strumenti di basso livello per la ricerca di contenuti all'interno di altri file.
Tika non fa molto da solo essere una semplice libreria, ma può essere integrato negli strumenti più potenti come i motori di ricerca, i sistemi di gestione delle risorse digitali o CMS per fornire una completamente funzionale sistema di ricerca in-file.
La biblioteca può accedere solo un colpo di testa del file per una rapida informazione generale del file, o può andare veramente in profondità e cercare anche nel corpo del file di vari tipi di dati, in formato testo o binario.
Una vasta gamma di tipi di file sono supportati e Tika può essere utilizzato anche con altri linguaggi di programmazione grazie ad una serie di attacchi di terze parti e involucri.
Cosa c'è di nuovo in questa versione :
- Questa versione include correzioni di bug e nuove caratteristiche tra cui una nuova Tesseract OCR Parser; un nuovo parser GDAL; più formati supportati, e il miglioramento generale della stabilità Tika.
Cosa c'è di nuovo nella versione 1.8:
- Questa versione include correzioni di bug e nuove caratteristiche tra cui un nuovo Tesseract OCR Parser; un nuovo parser GDAL; più formati supportati, e il miglioramento generale della stabilità Tika.
Cosa c'è di nuovo in versione 1.7:
- Questa versione include correzioni di bug e nuove caratteristiche tra cui un nuovo Tesseract OCR Parser; un nuovo parser GDAL; più formati supportati, e il miglioramento generale della stabilità Tika.
Cosa c'è di nuovo nella versione 1.6:
- Questa versione include correzioni di bug e nuove caratteristiche tra cui una nuova traduzione API, più formati supportati, e il miglioramento generale della stabilità Tika.
Cosa c'è di nuovo nella versione 1.5:.
- Corretto il bug nella gestione di elaborazione dei file incorporato in PDF
- Aggiunto SourceCodeParser per supportare java, i file Groovy, C ++.
- Aggiornamento Tika server per supportare carichi multipart / form-data.
- Aggiornamento Tika server di CXF 2.7.8.
- Aggiornamento Tika Server per accettare richieste su indirizzi con caratteri jolly.
- Aggiunta l'opzione per usare NonSequentialPDFParser alternativo.
- Contenuto dal AcroForms PDF viene ora estratto.
- fissi asterischi non validi da schema diapositiva in PPT.
- casi di test Aggiunto per confermare la gestione di auto-date in PPT e PPTX.
Cosa c'è di nuovo in versione 1.4:
- Rimosso un file di prova HTML con un testo GPL mal scelto in esso.
- Miglioramenti tika-server per consentire di produrre text / html e contenuto text / xml.
- Sono stati apportati miglioramenti al compressore parser per gestire i file g'zipped che richiedono l'opzione decompressConcatenated impostata su true.
- Indirizzata un errore tipografico che impediva di rilevamento di file awk.
Cosa c'è di nuovo nella versione 1.2:
- Apache Tika 1.2 contiene una serie di miglioramenti e correzioni di bug.
Cosa c'è di nuovo nella versione 1.0:
- Apache Tika 1.0 contiene una serie di miglioramenti e correzioni di bug.
Cosa c'è di nuovo nella versione 0.9:.
- Questa release include diversi importanti bug fix e nuove funzionalità
Cosa c'è di nuovo in versione 0.8:
- Identificazione La lingua è ora dinamicamente configurabile, gestito tramite un file di configurazione caricato dal classpath.
- Tika ora supporta l'analisi Feeds avvolgendo la libreria di Roma sottostante.
- Una guida rapida per Tika analisi è un contributo.
- Un approccio per l'impianto idraulico attraverso attributi XHTML è stato aggiunto.
- tipo di supporto informazioni sulla gerarchia è ora preso in considerazione quando si seleziona il miglior parser per un determinato documento di input.
- Il supporto per l'analisi di dati scientifici formati comuni, tra cui netCDF e 'stato aggiunto HDF4 / 5.
- I test unitari per Windows sono stati fissati, permettendo TestParsers di completare.
Cosa c'è di nuovo in versione 0.7:
- file MP3 analisi è stata migliorata, compresa l'estrazione Channel e sampleRate e supporto ID3v2. Inoltre, il rilevamento mimo analisi audio è stato anche migliorato per il formato MIDI.
- Tika si basa non più su X11 per la sua funzionalità RTF analisi.
- Un bug thread-safe nel AutoDetectParser è stato scoperto e affrontato.
- Aggiornamento a PDFBox 1.0.0. La nuova versione migliora le prestazioni PDFBox PDF analisi e corregge una serie di problemi di estrazione di testo.
Requisiti :
- Java 6 o superiore
I commenti non trovato