Apache Nutch

Software screenshot:
Apache Nutch
Dettagli del software:
Versione: 2.3
Data di caricamento: 1 Mar 15
Licenza: Libero
Popolarità: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch è stata costruita sulla cima di Apache Lucene , un potente motore di ricerca Java.
Sviluppatori Nutch modificato il codebase Lucene, trasformando il data-agnostico Lucene codebase in un progetto dedicato per la ricerca di dati sul Web in particolare.
Questa tecnologia può essere utilizzata per cercare le proprie pagine Web come un server di ricerca integrato, o la scansione del web alla ricerca di dati per analizzare e raschiare nel vostro database.
Nutch può essere eseguito su una singola macchina, ma funziona meglio in Hadoop cluster.
Diversi plugin sono disponibili per espandere il suo spettro utilizzo

Cosa c'è di nuovo in questa versione:.

  • Assicurarsi che non esistono tag duplicati in microformat-reltag tag set.
  • Una migliore ricadere valore per il campo della data.
  • Sbarazzarsi del temuto.
  • Aggiornamento a Hadoop 1.2.0.
  • Aggiornamento a Tika 1.3.

Cosa c'è di nuovo nella versione 2.0:.

  • Rinominato HTMLParseFilter in ParseFilter
  • Rimuovi restante robot codice di blocco / IP in lib-http.
  • logging Port a SLF4J.
  • parser esterno supporta l'attributo encoding.
  • impostazioni di configurazione Ivy non includono Gora.
  • Injector deve aggiungere metadati prima di chiamare injectedScore.
  • Port Nutch benchmark a Nutchbase.
  • Aggiungi parse-html indietro.
  • MoreIndexingFilter formato data mancante.
  • Timeout per Parser.
  • Intervallo tentativi in ​​data crawl è impostato su 0.
  • Genera uscita log per solr indicizzatore e dedup.
  • Migliorata NutchConfiguration.
  • SolrDeleteDuplicates deve clonare gli oggetti SolrRecord.
  • librerie Hadoop nativi non disponibili attraverso Maven.
  • Separate gli ambienti di compilazione e di runtime.

Cosa c'è di nuovo in versione 1.5:

  • Questa versione include diversi miglioramenti inclusi gli aggiornamenti di diversi componenti importanti, tra cui Tika 1.1 e 1.0.0 Hadoop, miglioramenti LinkRank ed elementi WebGraph così come un certo numero di nuovi plugin coprono lista nera, il filtraggio e l'analisi per citarne alcuni.

Cosa c'è di nuovo in versione 1.4:.

  • Aggiunto Solr 4x (tronco) esempio di schema
  • Aggiunto '/ runtime' a SVN ignorare.
  • application / xhtml + xml dovrebbe essere abilitata in plugin.xml di parse-html; consentire a più mimetypes per plugin.xml.
  • fissi parse-Tika e analizzare-html per utilizzare la risoluzione URL relativo per RFC-3986.
  • aggiornato a Tika 0,10. NOTA:. Nuovo parser RTF di Tika possono ignorare più testo nei documenti malformati rispetto al passato - vedi TIKA-748 per i dettagli
  • obiettivi Aggiunto Sonar a Ant build.xml.
  • aggiornato alla versione 3.4.0 SolrJ.
  • target Ant pmd è rotto.
  • Aggiornato Solr schema alla versione 1.4.

Cosa c'è di nuovo nella versione 1.3:

  • Questa versione include diversi miglioramenti (supporto migliorato RSS parsing, stretto integrazione con Apache Tika, il supporto di analisi esterna, l'identificazione della lingua migliore e un ordine di grandezza più piccola fonte di rilascio tarball -. solo circa 2MB)

Cosa c'è di nuovo in versione 1.2:.

  • Make-index più plug-in configurabile
  • configurabile protocollo di file directory principale crawling.
  • Timeout per Parser.
  • sito è ancora Lucene marca.
  • Intervallo tentativi in ​​data crawl è impostato su 0.

Cosa c'è di nuovo nella versione 1.0:.

  • Consenti parser per tornare più oggetti Parse
  • Rimosso ridondante commons-logging jar dal plugin di ontologia.
  • Bug in SegmentReader provoca ciclo infinito.
  • Filtro Scoring dovrebbe distribuire punteggio a tutti outlinks in una volta.
  • Ridurre il numero di avvisi in base nutch.

Programmi simili

solrpy
solrpy

12 May 15

jui_filter_rules
jui_filter_rules

12 May 15

Yioop!
Yioop!

10 Dec 15

Texticle
Texticle

13 May 15

Altri software di sviluppo Apache Software Foundation

Apache MINA
Apache MINA

13 Apr 15

Apache Xalan Java
Apache Xalan Java

13 Apr 15

Apache Olingo
Apache Olingo

20 Jul 15

Commenti a Apache Nutch

I commenti non trovato
Aggiungi commento
Accendere le immagini!
Ricerca per categoria