Apache Nutch

Software screenshot:
Apache Nutch
Dettagli del software:
Versione: 2.3 Aggiornato
Data di caricamento: 17 Jul 15
Sviluppatore: Sami Siren
Licenza: Libero
Popolarità: 1

Rating: 1.0/5 (Total Votes: 2)

progetto Apache Nutch è una fonte aperta, scalabile, software web crawler Web-based altamente estensibile e gratuito che si basa su Apache Lucene (versione Java) libreria.
Aggiunge specifiche Web, come un cingolato, un database link-grafico, parser per HTML e altri formati di documento, ecc E 'sviluppato e distribuito dalla Fondazione Apache, esso due rami separati.
Essendo modulare e plug, Apache Nutch ha i suoi vantaggi, fornendo interfacce estensibili come Parse, indice e ScoringFilter per implementazioni personalizzate, come Apache Tika per l'analisi.
Inoltre, Apache Nutch è progettato per funzionare su una singola macchina, ma è più potente durante l'esecuzione in un cluster Hadoop. Esiste indicizzazione innesto per Ricerca elastico, Apache Solr, ecc

Cosa c'è di nuovo in questa versione:.

  • Nutch-1779 Applicare formattazione al codice (lewismc)
  • Nutch-1907 uscita errata del outlinks a Host entro HostDbUpdateReducer (lewismc)
  • Nutch-1856 Documento webpage.avsc e host.avsc (lewismc)
  • Nutch-1834 GeneratorMapper comportamento dipende dal livello di log (Gerhard Gossen via snagel)
  • Nutch-1899 lib aggiornamento Restlet per evitare errore di generazione (Talat)
  • Nutch-1797 remove pacchetto inutilizzato oanhtml (Saurabh Chhajed via snagel)
  • Nutch-1888 Specificare HTMLMapper da utilizzare in TikaParser (Halil Simsek via jnioche)
  • Nutch-1897 più facile il debug di errori XML plug (Markus)
  • Nutch-1823 aggiornamento a elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • Nutch-1829 Generatore: in grado di distinguere gli errori reali (Mathieu Bouchard, jnioche, snagel)
  • Generator Nutch-1778 non la registrazione numero di URL in modalità batch in modo corretto (jnioche via snagel)
  • Nutch-1877 filtro suffisso URL ignorare query string di default (Markus via snagel)
  • Nutch-1825 protocollo HTTP può bloccarsi per determinate pagine Web (Phu Kieu via snagel)
  • Nutch-1483 Impossibile eseguire la scansione del file system con plug protocollo file (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • Nutch-1885 protocollo file dovrebbe trattare i collegamenti simbolici come redirect (Mengying Wang, snagel)
  • Nutch-1880 URLUtil non dovrebbe aggiungere barre aggiuntive per gli URL di file (snagel)
  • Nutch-1879 Regex URL normalizzatore dovrebbe rimuovere più barre dopo di file: protocollo (snagel)
  • Nutch-1820 Field rimuovi & quot; orig & quot; che duplica & quot; id & quot; (lewismc, snagel)
  • Aggiornamento Nutch-1843 al 0,5 Gora (Talat, lewismc, Kiril Menshikov, drazzib)
  • Nutch-1883 bin / crawl: funzione di uso per eseguire bin / nutch e verificare il valore di uscita (snagel)
  • Nutch-1882 bersaglio eclisse formica per aggiungere percorso di uscita a src / test (snagel)
  • Nutch-1827 Port Nutch-1467 e Nutch-1561 2.x (snagel)
  • Aggiornamento Nutch-1876 al Crawler Commons 0.5 (jnioche)
  • Nutch-1866 bersaglio eclisse formica non dovrebbe eliminare runtime (nimafl via lewismc)
  • Nutch-1859 Fai porto webapp Nutch configurabile (Nima Falaki via lewismc)
  • Bug Nutch-1848 a DashboardPage.html casi contatore (Nima Falaki via lewismc)
  • Nutch-841 Creazione di un'applicazione Web basato Wicket-per Nutch (Fjodor Vershinin via lewismc)
  • Nutch-1832 Fai lavoro Nutch senza un indicizzatore (Mattmann via lewismc)
  • Nutch-1840 la funzione di descrivere in SolrIndexWriter non è corretto (Kaveh minooie via jnioche)
  • Aggiornamento Nutch-1837 al Tika 1.6 (lewismc)
  • Nutch-1829 Generatore: in grado di distinguere gli errori reali (Mathieu Bouchard via jnioche)
  • Nutch-1828 bin / crawl: gestione non corretta degli errori Nutch (Mathieu Bouchard via jnioche)
  • Nutch-1693 TextMD5Signature calcolata su contenuti testuali (Tien Nguyen Manh, Markus via snagel)
  • Nutch-1409 remove deprecato proprietà db. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle via snagel)
  • Nutch-1819 BatchID a GeneratorJob (Fjodor Vershinin via lewismc)
  • uso Nutch-1708 stesso id quando indicizzazione e reindirizzamenti eliminazione (snagel)
  • Nutch-1817 Togliere pom.xml da fonte (jnioche)
  • Nutch-1811 bin / JUnit nutch utilizzare JUnit 4 test runner (snagel)
  • Nutch-1776 Log File Path plugin.folder errato (Diaa via snagel)
  • Nutch-1566 bin / nutch per consentire spazi nei percorsi (tejasp, snagel)
  • Nutch-1605 rivelatore tipo MIME riconosce xlsx come file zip (snagel)
  • Nutch-385 Migliorare la descrizione di configurazione filo correlati per Fetcher (jnioche, Lufeng)
  • Nutch-1798 copione Crawl non chiamare comando indice correttamente (Aaron Bedward via jnioche)
  • Nutch-1769 REST API refactoring (Fjodor Vershinin via lewismc)
  • Nutch-1633 slf4j è fornita da Hadoop e non dovrebbe essere incluso nel file di lavoro (Kaveh minooie via jnioche)
  • Nutch-1787 update e completa pagina Panoramica API doc (snagel)
  • Nutch-1767 rimuovono trattamento speciale di & quot; params & quot; in collegamenti relativi (snagel)
  • Nutch-1718 ridefiniscono http.robots.agent come & quot; & quot nomi aggiuntivi di agente; (snagel, Tejas Patil, Daniel Kugel)
  • Nutch-1796 Garantire i costruttori di oggetti Gora sono usati come opporsi ai costruttori vuoti (snagel via lewismc)
  • Nutch-1590 vulnerabilità iniezione frame [SICUREZZA] a Javadoc pubblicato (jnioche)
  • Nutch-1736 Impossibile recuperare la pagina se intestazione di risposta HTTP contiene Transfer-Encoding: Chunked (YSC via jnioche)
  • Nutch-1782 NodeWalker per tornare nodo corrente (Markus)
  • Nutch-1781 Aggiornamento gora - * - mapping.xml e gora.proeprties per riflettere Gora 0.4 (lewismc)
  • Aggiornamento Nutch-1768 a ElasticSearch 1.1.0 (jnioche)
  • -Stats ReadDb Nutch-1634 mostra il risultato due volte (Kaveh minooie via jnioche)
  • Nutch-1780 TTL e gc_grace_seconds attributi risultano mancanti dal file gora-cassandra-mapping.xml (Kaveh minooie via lewismc)
  • Nutch-1676 Aggiungere il supporto SSL rudimentale al protocollo HTTP (jnioche, Markus)
  • Nutch-1674 filtro Usa BatchID per abilitare la scansione (GORA-119) per Fetch, Parse, aggiornamento, Index (Tien Nguyen Manh e Alparslan Avci via jnioche)
  • Aggiornamento Nutch-1714 a 0,4 Gora (Alparslan Avci via jnioche)
  • Nutch-1752 regole robots.txt Cache per protocollo: host: porta (snagel)
  • Nutch-1613 timeout in protocollo httpclient durante la scansione stesso host con & gt; 2 fili (brian44 via jnioche)
  • fetcher Nutch-1182 per accedere thread appesi (snagel)
  • Nutch-1618 Girare esecuzione speculativa fuori per andare a prendere (Talat)
  • Nutch-1657 ORIGINAL_CHAR_ENCODING e CHAR_ENCODING_FOR_CONVERSION mai messo in HTMLParser (Talat)
  • riduttore Nutch-1725 di CleaningJob non commettere documenti eliminati. (ilhamikalkan via Talat)
  • Nutch-1728 plug-indicizzatore solr non è eliminare i documenti da Solr (ilhamikalkan via Talat)
  • Nutch-1753 Eclipse problema dependecy per 2.x (Talat)
  • Nutch-1720 linee duplicate in HttpBase.java (Walter Tietze via jnioche)
  • Nutch-797 URL non costruito in modo corretto quando destinazione del collegamento inizia con una & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab via snagel)
  • Aggiornamento Nutch-1759 per Crawler Commons 0.4 (jnioche)
  • Nutch-1700 Remove codice deprecato in src / plugin / creativecommons / build.xml (lewismc)
  • Nutch-1761 copione Crawl non riesce a trovare file di lavoro, se non avviato dall'interno bin dir (David Hosking, jnioche)
  • Nutch-1603 parser ZIP lamenta troncato file PDF (snagel via lewismc)
  • Nutch-1743 parsechecker per mostrare outlinks (snagel)
  • Nutch-1732 migliore linea di cmd analisi per NutchServer (Fjodor Vershinin via lewismc)
  • Nutch-1751 tasselli vuoti non devono indice (Sertac Turkel via lewismc)
  • Nutch-1733 parse-html per supportare HTML5 definizioni charset (snagel)
  • Nutch-1727 di lunghezza configurabile per TLD (Sertac Turkel via lewismc)
  • Nutch-1738 espongono numero di URL generati al lotto in GeneratorJob (Talat UYARER via ewismc)
  • indexchecker Nutch-1671 per aggiungere digerire campo (snagel, Lufeng)
  • -1645 Nutch Test Case Junit per Adaptive Fetch Orario (Yasin Kilinc, Lufeng, Sertac Urkel via snagel)
  • Nutch-1478 Parse-metatag e plug-indice dei metadati per le serie 2.x Nutch (Kiran, Nguyen Anh Tien, Talat UYARER, Vangelis Karvounis via lewismc)
  • Aggiornamento Nutch-1729 al Tika 1.5 (jnioche)
  • Nutch-1721 Aggiornamento per Crawler comune 0,3 (tejasp)
  • Nutch-1719 DomainStatistics fallisce 2.x perché URL non viene non invertita (Gerhard Gossen via lewismc)

  • Versioni
  • Nutch-1253 incompatibili quanto neko e Xerces (snagel, lewismc, Talat UYARER)
  • Nutch-1715 RobotRulesParser aggiunge ulteriore '*' per il nome robot (tejasp)
  • Nutch-356 Plugin cache di repository può portare a perdita di memoria (Enrico Triolo, Dogacan Guney via Markus)
  • Nutch-1164 test JUnit per il protocollo Write-http (Sertac Turkel via tejasp)
  • Nutch-1710 Add gora pacchetto di registrazione su log4j.properties (lewismc)
  • Nutch-1655 Indexer Plugin per Ricerca elastico (Talat UYARER via lewismc)
  • Nutch-1699 Tika Parser - Parse immagine Bug (Mehmet Zahid Yuzuguldu, snagel via lewismc)
  • Nutch-1568 porta pluggable architettura indicizzazione per 2.x (Talat UYARER via lewismc)
  • Inlinks Nutch-1672 vengono aggiunti due volte in DbUpdateReducer (Tien Nguyen Manh via lewismc)
  • Nutch-1667 updatedb ignorare sempre BatchID (Tien Nguyen Manh via lewismc)
  • Nutch-1695 NutchDocument.toString () (Markus via lewismc)
  • Nutch-1696 abilitare l'uso di (Gora) dipendenze SNAPSHOT (lewismc)
  • Nutch-1681 In URLUtil.java, metodo ToUnicode non funziona correttamente (A

Commenti a Apache Nutch

I commenti non trovato
Aggiungi commento
Accendere le immagini!