Apache Nutch

Software screenshot:
Apache Nutch
Dettagli del software:
Versione: 2.3
Data di caricamento: 1 Mar 15
Licenza: Libero
Popolarità: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch è stata costruita sulla cima di Apache Lucene , un potente motore di ricerca Java.
Sviluppatori Nutch modificato il codebase Lucene, trasformando il data-agnostico Lucene codebase in un progetto dedicato per la ricerca di dati sul Web in particolare.
Questa tecnologia può essere utilizzata per cercare le proprie pagine Web come un server di ricerca integrato, o la scansione del web alla ricerca di dati per analizzare e raschiare nel vostro database.
Nutch può essere eseguito su una singola macchina, ma funziona meglio in Hadoop cluster.
Diversi plugin sono disponibili per espandere il suo spettro utilizzo

Cosa c'è di nuovo in questa versione:.

  • Assicurarsi che non esistono tag duplicati in microformat-reltag tag set.
  • Una migliore ricadere valore per il campo della data.
  • Sbarazzarsi del temuto.
  • Aggiornamento a Hadoop 1.2.0.
  • Aggiornamento a Tika 1.3.

Cosa c'è di nuovo nella versione 2.0:.

  • Rinominato HTMLParseFilter in ParseFilter
  • Rimuovi restante robot codice di blocco / IP in lib-http.
  • logging Port a SLF4J.
  • parser esterno supporta l'attributo encoding.
  • impostazioni di configurazione Ivy non includono Gora.
  • Injector deve aggiungere metadati prima di chiamare injectedScore.
  • Port Nutch benchmark a Nutchbase.
  • Aggiungi parse-html indietro.
  • MoreIndexingFilter formato data mancante.
  • Timeout per Parser.
  • Intervallo tentativi in ​​data crawl è impostato su 0.
  • Genera uscita log per solr indicizzatore e dedup.
  • Migliorata NutchConfiguration.
  • SolrDeleteDuplicates deve clonare gli oggetti SolrRecord.
  • librerie Hadoop nativi non disponibili attraverso Maven.
  • Separate gli ambienti di compilazione e di runtime.

Cosa c'è di nuovo in versione 1.5:

  • Questa versione include diversi miglioramenti inclusi gli aggiornamenti di diversi componenti importanti, tra cui Tika 1.1 e 1.0.0 Hadoop, miglioramenti LinkRank ed elementi WebGraph così come un certo numero di nuovi plugin coprono lista nera, il filtraggio e l'analisi per citarne alcuni.

Cosa c'è di nuovo in versione 1.4:.

  • Aggiunto Solr 4x (tronco) esempio di schema
  • Aggiunto '/ runtime' a SVN ignorare.
  • application / xhtml + xml dovrebbe essere abilitata in plugin.xml di parse-html; consentire a più mimetypes per plugin.xml.
  • fissi parse-Tika e analizzare-html per utilizzare la risoluzione URL relativo per RFC-3986.
  • aggiornato a Tika 0,10. NOTA:. Nuovo parser RTF di Tika possono ignorare più testo nei documenti malformati rispetto al passato - vedi TIKA-748 per i dettagli
  • obiettivi Aggiunto Sonar a Ant build.xml.
  • aggiornato alla versione 3.4.0 SolrJ.
  • target Ant pmd è rotto.
  • Aggiornato Solr schema alla versione 1.4.

Cosa c'è di nuovo nella versione 1.3:

  • Questa versione include diversi miglioramenti (supporto migliorato RSS parsing, stretto integrazione con Apache Tika, il supporto di analisi esterna, l'identificazione della lingua migliore e un ordine di grandezza più piccola fonte di rilascio tarball -. solo circa 2MB)

Cosa c'è di nuovo in versione 1.2:.

  • Make-index più plug-in configurabile
  • configurabile protocollo di file directory principale crawling.
  • Timeout per Parser.
  • sito è ancora Lucene marca.
  • Intervallo tentativi in ​​data crawl è impostato su 0.

Cosa c'è di nuovo nella versione 1.0:.

  • Consenti parser per tornare più oggetti Parse
  • Rimosso ridondante commons-logging jar dal plugin di ontologia.
  • Bug in SegmentReader provoca ciclo infinito.
  • Filtro Scoring dovrebbe distribuire punteggio a tutti outlinks in una volta.
  • Ridurre il numero di avvisi in base nutch.

Programmi simili

Reds
Reds

1 Mar 15

Apache Blur
Apache Blur

13 Apr 15

Searchkick
Searchkick

10 Feb 16

SearchBlox
SearchBlox

10 Dec 15

Altri software di sviluppo Apache Software Foundation

Apache Tika
Apache Tika

20 Jul 15

Apache HBase
Apache HBase

9 Apr 16

Apache Helix
Apache Helix

13 Apr 15

Apache Cassandra
Apache Cassandra

25 May 16

Commenti a Apache Nutch

I commenti non trovato
Aggiungi commento
Accendere le immagini!
Ricerca per categoria