Molte applicazioni che si occupano di dati non strutturati richiedono l'accesso al contenuto del testo di documenti formattati o contrassegnati-up. Le organizzazioni che archiviano documenti spesso richiedono l'accesso al contenuto testuale per rendere i documenti ricercabili e consentire l'aggregazione dei contenuti, reporting e estrazione degli archivi di documenti. Ricerca e applicazione di recupero anche bisogno di estrarre e tokenize testo da vari formati di file.
Un meccanismo standard per accedere ed estrarre testo da documenti è fornito dall'interfaccia plug-in IFilter utilizzato in motori di ricerca Microsoft. Ci sono alcune implementazioni IFilter sviluppati da Microsoft e altri fornitori che coprono una varietà di formati di file. La qualità standard o estrazione affidabilità e testo varia tra più sviluppatori IFilter.
Filtri testo Opait è un piccolo programma di utilità con una semplice interfaccia per IFilters già installato sul computer host e pochi filtri di estrazione di testo personalizzato che lavorano direttamente con i formati di file e migliorare le implementazioni IFilter default.
. L'interfaccia per estrarre il testo è fornito da una biblioteca piccola classe chiamati Opait.Filters che è incluso e può essere utilizzato per integrare i filtri di testo in applicazioni .NET
Requisiti :
.NET Framework 4.5
I commenti non trovato