Il software Methabot è una velocità ottimizzata, script e altamente configurabile web, ftp e locale crawler del file system. Supporta filetype Scripted analisi, una vasta gamma di opzioni di personalizzazione ed è facilmente configurato per soddisfare anyones esigenze.
Con l'uso del sistema modulare e linguaggio di script, gli utenti sono in grado di assumere il controllo totale o parziale del processo di scansione e decidere comunque Methabot dovrebbe archiviare i dati web, statistiche e molto altro ancora.
Solo eseguendo Methabot da linea di comando si è in grado tipi di file di configurazione personalizzate, filtrando le espressioni, comportamenti, e molto altro, in modo da non devi essere un scripter
Caratteristiche :
- E 'veloce, progettato da zero e con velocità di ottimizzazione in mente.
- Scriptable tramite Javascript con E4X
- Filtro filetype definito dall'utente (in base al tipo MIME, estensione del file o l'espressione UMEX)
- Multi-threaded
- Altamente configurabile da linea di comando
- sistema modulare estensibile, sostenendo parser dati personalizzati e filtri.
- semplice ma potente filtraggio di URL attraverso UMEX.
- download automatico
- Il supporto per la gestione automatica cookie quando si esegue tramite HTTP
- affidabile, rete fault-tolerant
- portatile, testato con successo su 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP e Mac OS X. dovrebbe funzionare su quasi tutti i sistemi operativi Unix-like.
Cosa c'è di nuovo in questa versione:
- Bugfix, quando è stato utilizzato esterno-peek il limite di profondità è stato incasinato.
- Memoria pulizia
- dinamico-url non è impostato per ricerca di default, dal momento che rallenta la scansione in modo significativo
- Crea sistema ora crea e installa alcuni file di intestazione che i moduli possono utilizzare durante il collegamento
- strumento metha-config aggiunto
- lmm_mysql spostato al di fuori di questo pacchetto
Correzioni di utilizzo
Opzione
Cosa c'è di nuovo nella versione 1.5.0:
- Modifiche e nuove funzionalità:
- Il supporto per la lettura di buffer intial da stdin
- - tipo e --base-url opzioni della riga di comando aggiunto, insieme all'opzione initial_filetype nei file di configurazione
- Cookie e informazioni DNS vengono ora correttamente condivise tra i lavoratori durante l'esecuzione multithreaded
- Comandi aggiunta qualche esempio di utilizzo di --examples
- Grandi miglioramenti per la comunicazione inter-thread, ora più veloce e più organizzata li>
- Aggiunto il supporto per le funzioni 'init' a script. Per saperne di più sulle funzioni di init in http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha non congelare quando si fa più diverse richieste HEAD HTTP simultanee. La ragione per le blocca era un bug in libcurl che ora è risolto. Alcune soluzioni sono state aggiunte libmetha per evitare che si blocca da verificano quando si utilizzano le versioni difetto libcurl pure.
- Il supporto per le versioni più vecchie libcurl 7.17.x e 7.16.x
- Nuove informazioni sono disponibili nella sezione & quot; questo & quot; oggetto javascript parser, tipo di contenuto e lo stato di trasferimento del codice. Per saperne di più a http://bithack.se/projects/methabot/docs/e4x/this.html
- - opzione verbose sostituito con --silent, dal momento che la modalità dettagliata è ora di default
- Il supporto iniziale per FTP scansione e l'opzione ftp_dir_url crawler
- limitazione di profondità è ora crawler-specifico
- aggiunta le opzioni della riga di comando --crawler e --filetype
- Il supporto per l'estensione e prioritario crawler e tipi di file già definiti
- Il supporto per la parola chiave copia nei file di configurazione
- Il supporto per la commutazione dinamica crawler attiva, questo ti permette di strisciare diversi siti web in modi completamente diversi in una sola sessione strisciare. Per saperne di più sul cambio di cingolato a http://bithack.se/projects/methabot/docs/crawler_switching.html
- Versione libev aggiornamento a 3.51
- La direttiva include nel file di configurazione rende ora che il file di configurazione in dotazione non è già stato caricato, per evitare includere-loops e molteplici definizioni filetype / cingolati.
- Varie SpiderMonkey correzioni raccolta rifiuti, libmetha non va in crash più quando la pulizia dopo una sessione multithread
- Aggiunta qualche informazione in più per l'opzione di --info
- L'opzione 'esterno' è stato corretto e abilitato di nuovo
- Nuova opzione --spread di lavoro
- Nuova API libmetha funzione lmetha_global_setopt () permette di cambiare l'errore / messaggio / avviso giornalista globale
- Aggiunta la realizzazione iniziale di una suite di test per gli sviluppatori
- la segnalazione di errori Meglio durante il caricamento dei file di configurazione
- Bugfix quando un server HTTP non ha restituito un header Content-Type, dopo una richiesta HEAD
- Bugfix quando smistamento URL dopo richieste HEAD HTTP multipla
- Bugfix in html per convertitore XML quando la pagina HTML non ha avuto un & lt; html & gt; tag
- Bugfix, l'opzione extless-url non ha funzionato
- Bugfix, html per XML Converter non soffoca marchi byte di ordine o di altro testo prima del HTML attuale
- Bugfix, impedito libmetha di tentare di accedere agli URL dei protocolli che non sono supportati
- Bugfix alla chiusura dopo un errore.
- Bugfix, URL irrisolvibili non è scoppiata il ciclo di tentativo dopo tre tentativi
- Molto sperimentale ed il supporto instabile per Win32, principalmente destinato agli sviluppatori
- I nuovi file di configurazione:
- google.conf, per eseguire le ricerche di Google
- youtube.conf, youtube ricerca
- meta.conf, stampe meta informazioni quali parole chiave e descrizione circa le pagine HTML
- title.conf, stampa il titolo delle pagine HTML
- ftp.conf, per la scansione server FTP
Cosa c'è di nuovo nella versione 1.4.1:
- Configura non è stato trovato jsapi.h su alcuni sistemi , questo dovrebbe essere risolto.
- I file di configurazione sono ora in grado di modificare cingolati e tipi di file bandiere, ha aggiunto 'esterna' e 'external_peek' le opzioni
- Bugfix, Methabot a volte in crash durante la pulizia di URL vuote dopo più HEAD HTTP
- Risolto un crash che si è verificato durante l'esecuzione in modo sincrono.
- sistema di compilazione includere fix quando jsconfig.h non è stato trovato.
Requisiti
- intestazioni SpiderMonkey
- CURL
I commenti non trovato