ASPseek

Software screenshot:
ASPseek
Dettagli del software:
Versione: 1.2.10
Data di caricamento: 3 Jun 15
Sviluppatore: SWsoft
Licenza: Libero
Popolarità: 4

Rating: nan/5 (Total Votes: 0)

aspseek è un software di motore di ricerca Internet sviluppato da SWsoft e concesso in licenza come software libero con licenza GNU GPL.
Aspseek consiste in un robot di indicizzazione, un demone di ricerca, e un frontend ricerca CGI. E 'in grado di indicizzare come molti come un paio di milioni di URL e la ricerca di parole e frasi, utilizzare caratteri jolly, e fare una ricerca booleana. Risultati della ricerca possono essere limitati a periodo di tempo determinato, il sito o spazio web (insieme di siti) e ordinati per rilevanza (PageRank è usato) o la data.
Aspseek è ottimizzato per più siti (indice filettato, le ricerche DNS asincrone, raggruppando i risultati per sito, spazi web), ma può essere utilizzato per la ricerca di un sito pure. Aspseek può lavorare con più lingue / codifiche in una volta (tra cui la codifica multibyte quali il cinese) a causa di modalità di archiviazione Unicode. Altre caratteristiche includono stopword e supporto ispell, un set di caratteri e la lingua guesser, modelli HTML per i risultati di ricerca, brani e parole della ricerca evidenziando.
Aspseek è scritto in C ++ utilizzando la libreria STL, e utilizza mix di database SQL e file binari per la conservazione.
Qui sono alcune caratteristiche chiave di "aspseek":
Capacità di indicizzazione e ricerca attraverso diversi milioni di documenti
 
· Usando aspseek, è possibile costruire un database e la ricerca in molti siti, e risultati per ogni query verrà restituito veloce anche se si dispone di un paio di milioni di documenti indicizzati. Naturalmente, questo dipende da hardware, quindi non aspettatevi "buon vecchio" macchina i486 per gestire tutti i siti nel dominio .com. Tutto dipende dalla CPU (s), la memoria, la velocità del disco, ecc in modo da fare le vostre prove prima di acquistare hardware dedicato.
 
· Il fatto che aspseek è ottimizzata per i volumi elevati non si dovrebbe smettere di usarlo per cercare il proprio sito che contiene poche centinaia di documenti - funziona anche lì.
 
Molto buono pertinenza dei risultati
 
· L'obiettivo del motore di ricerca è quello di trovare ciò che l'utente vuole. Ci possono essere migliaia di URL trovati come risultato della query di ricerca, ma tutto può essere irrilevante, così l'utente sarà insoddisfatto.
 
· Risultati uscita in aspseek sono ordinati per rilevanza (o grado), ma il calcolo rango non è un compito facile. Gli sviluppatori hanno fatto del loro meglio per integrare le tecniche più grandi e le più recenti nel motore aspseek pur mantenendo una buona velocità di ricerca.
 
Supporto Ispell
 
· Se aspseek viene utilizzato con ispell supporto, searchd (1) può opzionalmente trovare tutte le forme per tutte le parole specificate (esempio: creare -> Crea creati o crea). Quindi, consente di trovare la parola in tutte le forme diverse.
 
Modalità di memorizzazione di Unicode
 
· Aspseek può memorizzare le informazioni sui documenti in Unicode, rendendo così possibile realizzare un motore di ricerca multi-lingua. Quindi, è possibile indicizzare e ricercare i documenti in inglese, russo e anche cinese, il tutto in un unico database.
 
HTTP, HTTPS, HTTP proxy, FTP (via proxy) Protocolli
 
· Come aspseek è un motore di ricerca sul Web, si utilizza il protocollo HTTP per siti indice. Aspseek supporta anche https sicure: // protocollo. Protocollo FTP non è supportato direttamente, ma è possibile utilizzare proxy (come Squid) e siti indice FTP tramite proxy.
 
· Aspseek supporta la funzione "autorizzazione di base" di HTTP in modo da poter aree protette da password di indice (ad esempio le informazioni private in rete Intranet).
 
Text / html e text / plain sostegno tipi di documenti
 
· Aspseek può capire documenti scritti in HTML e documenti di testo. Questi sono i formati più popolari di Internet.
 
· Altri formati, come PDF, RTF, ecc, possono essere supportati con l'aiuto di un programma / script esterno che è in grado di convertire i formati che in HTML o testo semplice.
 
Disegno multithread, asincrona resolver DNS, ecc
 
· Aspseek utilizza i thread POSIX, il che significa che un processo ha molti thread in esecuzione in parallelo. Così download indicizzare i documenti provenienti da molti siti, e processi di ricerca daemon molte query di ricerca contemporaneamente. Questo non solo aiuta aspseek in scala bene su sistemi multiprocessore (SMP), ma migliora anche la velocità di indicizzazione, perché in caso di un thread più tempo sarà speso in attesa di dati dalla rete.
 
· Una cosa che lento processo di indicizzazione giù un sacco è ricerca DNS (un processo di determinazione indirizzo IP utilizzando il nome del server). Per evitare ritardi, le ricerche asincroni (ricerca viene effettuata mediante processi dedicati separate) e cache di indirizzi IP sono implementati.
 
Stopwords
 
· Stopwords sono alcune parole che non hanno alcun significato di per sé. Esempi: è, sono, a questo. Ricerca di a è inutile, così queste parole sono esclusi dalla ricerca. Stopwords sono esclusi anche dal database durante l'indicizzazione, in modo del database diventa più piccolo e più veloce.
 
· Non ci sono "built-in" stopwords in aspseek, vengono caricati durante l'avvio da file. Molti file stopword per le diverse lingue viene fornito con aspseek.
 
Charset guesse
 
· Alcuni server rotti o mal configurati non dicono i clienti il ​​charset in cui forniscono i contenuti. Se l'indicizzazione di tali server, o utilizzando aspseek ai server indice ftp (protocollo FTP non sanno nulla di set di caratteri), charset guesser può essere utilizzato per trattare con esso. Charset guesser usa tabelle di frequenza di parole (chiamati langmaps) per determinare corretto charset.
 
(Robots.txt) supporto standard esclusione robot
 
· Aspseek supporta pienamente questo standard. Esso è destinato per gli autori di siti web per raccontare il robot (per esempio, l'indice di aspseek (1)) per passare l'indicizzazione alcune directory dei loro siti.
 
· Per ulteriori informazioni vedere http://www.robotstxt.org/wc/robots.html
 
Impostazioni per controllare l'utilizzo della banda di rete e server Web di carico
 
· È possibile controllare con precisione la larghezza di banda che l'indice (1) utilizza. Esattamente, è possibile limitare la larghezza di banda (espressa in byte al secondo) utilizzato da indice (1) per un dato momento della giornata. Ad esempio, è possibile limitare la banda durante le ore lavorative così la gente al vostro ufficio non sperimenteranno Internet lenta.
 
· È inoltre possibile impostare il tempo minimo tra due query allo stesso server Web, quindi non sarà sovraccarico e si mise al ginocchio durante l'esecuzione di indice (1).
 
In tempo reale indicizzazione asincrono
 
· Alcuni motori di ricerca richiede che la ricerca deve essere interrotto per il tempo di aggiornamento del database. Aspseek non ne ha bisogno, in modo da poter cercare non-stop.
 
· Più di dire, non vi è un modo speciale di indicizzazione definito indicizzazione "in tempo reale". Si può usare per piccolo numero di documenti, e per quanto tale documento viene scaricato ed elaborato, i cambiamenti sono immediatamente visibili nella interfaccia di ricerca. Questa caratteristica è di grande aiuto se si sta costruendo il motore di ricerca per le pagine con rapida evoluzione contenuti quali notizie online, ecc
 
· Si noti che il numero di documenti in "tempo reale" del database è limitato. Si tratta di circa 1000 sul nostro hardware (la tua situazione potrebbe essere diversa), e le più documenti che avete nel database "in tempo reale", più lenta sarà la velocità di indicizzazione in quella (e solo quella) di database. Ciò non influirà velocità di ricerca però.
 
· I documenti dal database "in tempo reale" vengono spostati normale database dopo l'esecuzione di indice (1) in modo normale.
 
Ordinamento risultati per rilevanza o per data
 
· I motori di ricerca restituisce in genere risultati più rilevanti prima. Ma se siete alla ricerca di tutte le pagine, si può dire aspseek per ordinare i risultati per data dell'ultima modifica, così di recente modificati (o creati) pagine vengono visualizzate per prime.
 
Estratti, parole della ricerca mettendo in evidenza
· Estratto è un pezzo di documento trovato con le parole cercato evidenziato, giusto per dare un'idea di ciò che il documento è circa. È possibile personalizzare il numero di brani che mostrano e la loro lunghezza. Se si disattivare brani, verrà visualizzato l'inizio del documento.
 
· Ogni documento trovato è accompagnato con il link "Copia cache". Aspseek conserva una copia compressa locale di tutti i documenti elaborati, così l'utente può vedere il l'intero documento con (opzionale) evidenziato parole che sono state cercato, anche se è stato rimosso dal sito originale (che succede a volte).
 
Raggruppare i risultati per sito
 
· I risultati di un sito possono essere raggruppati insieme. Se il raggruppamento da siti è in solo due risultati vengono visualizzati dallo stesso sito di default, e l'utente può vedere altre pagine dello stesso sito seguendo una "Altri risultati da ..." collegamento.
 
Cloni
 
· I cloni sono certificati identici in luoghi diversi. Essi vengono rilevati e raggruppati, così l'utente non verranno presentati con una pagina piena di URL ai documenti identici.
 
· Rilevazione Clone è di solito limitata da un sito (quindi certificati identici da diversi siti non sono conteggiati come cloni), ma è possibile modificare questo ricompilando aspseek con l'opzione --disable-cloni per sito.
 
Spazi e sottoinsiemi
 
· Spazio è l'insieme di siti. Quindi, se si vuole fornire la ricerca ristretta ad una certa zona, è possibile creare uno spazio e di ricerca all'interno di quello spazio. Solo i siti interi (ad esempio http://www.mysite.com/) possono essere inclusi nello spazio.
 
· Sottoinsiemi possono anche essere utilizzati per limitare la ricerca. È possibile creare sottoinsieme e mettere la maschera URL (come http://www.mysite.com/mydir/%) in quella, e quindi limitare l'ambito di ricerca per data solo sottoinsieme.
 
· È possibile limitare l'ambito di ricerca non solo uno ma diversi sottoinsiemi o spazi.
 
Modelli HTML per i risultati di ricerca facili da personalizzare
 
· È possibile personalizzare le pagine di ricerca, in modo che sarà simile ed essere perfettamente integrato con il resto del tuo sito. Questo è fatto da semplice modifica di file di ricerca del modello.
Installazione
gzip -DC aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / configure
creare
su
make install

Altri software di sviluppo SWsoft

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ kernel
OpenVZ kernel

2 Jun 15

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Commenti a ASPseek

I commenti non trovato
Aggiungi commento
Accendere le immagini!