WebGraph è un framework per lo studio grafico web. WebGraph fornisce modi semplici per gestire grandi grafici, sfruttando tecniche di compressione moderne. Più precisamente, è attualmente costituita da:
1. Un insieme di codici piane, chiamati codici, che sono particolarmente adatti per la memorizzazione grafici web (o, in generale, interi con distribuzione legge di potenza in un certo intervallo esponente). Il fatto che questi codici funzionano bene può essere facilmente verificata empiricamente, ma anche cercare di fornire un'analisi matematica dettagliata.
2. Algoritmi per comprimere grafici web che sfruttano la compressione lacuna e referenziazione (la LINK), intervalisation e codici per fornire un elevato rapporto di compressione: per esempio, il grafico WebBase (2001 scansione) è compresso a 3.08 bit per collegamento e un'istantanea di circa 18.500.000 pagine del dominio .uk raccolte da UbiCrawler viene compressa a 2.22 bit per collegamento (i dati corrispondenti per i grafici sono recepite 2.89 bit per collegamento e 1,98 bit per link). Gli algoritmi sono controllati da diversi parametri, che forniscono diversi livelli di velocità di accesso e rapporto di compressione.
3. Algoritmi per l'accesso un grafico compressa senza realmente decomprimerlo, utilizzando tecniche pigri che ritardano la decompressione fino a quando non è realmente necessario.
4. Una completa, documentata attuazione degli algoritmi sopra in Java, contenute nel pacchetto it.unimi.dsi.webgraph. Oltre ad una API ben definito, il pacchetto contiene diverse classi che consentono di modificare (ad esempio, trasposizione) o ricomprimere un grafico, in modo da provare diverse impostazioni. Il pacchetto si basa su fastutil un quadro collezioni tipo specifico, ad alte prestazioni, in MG4J per a livello di bit I / O, sulla distribuzione per COLT, algoritmi efficienti pronti per l'uso e getopt GNU per la linea di comando-analisi.
5. I set di dati di molto grande grafico (ad esempio, un miliardo di collegamenti). Questi sono raccolti sia da fonti pubbliche (come WebBase), o prodotti da UbiCrawler.
Alla fine, con WebGraph è possibile accedere e analizzare un grafico Web di grandi dimensioni, anche su un PC con un minimo di 256 MB di RAM. Utilizzando WebGraph è facile come l'installazione di alcuni file jar e scaricare un insieme di dati. Questo rende lo studio fenomeni come PageRank, la distribuzione di proprietà del grafico del grafico web, ecc molto facile
Cosa c'è di nuovo in questa versione:.
- Questa versione aggiunge diversi miglioramenti al HyperANF, e qualche bugfix.
- WebGraph si trova ora a Maven centrale.
Cosa c'è di nuovo nella versione 2.4.5:
- Questa versione contiene una implementazione di HyperANF, un nuovo algoritmo altamente scalabile per il calcolo della funzione di quartiere di un grafico, e metodi che calcolano il percorso più breve medio e altri dati derivati dalla funzione dintorni.
- Inoltre, una grande quantità di dati statistici è ora calcolata durante la compressione.
Cosa c'è di nuovo nella versione 2.4.4:.
- Alcune vecchie opzioni sono state rimosse
- I file di proprietà ora contengono una ricchezza di statistiche utili.
- velocità di accesso casuale è stata migliorata.
Cosa c'è di nuovo nella versione 2.4.3:
- ArrayListMutableGraph.addNodes fissi () (grazie a Erik Lumer per trovare e risolvere questo bug).
- Nuove opzioni per spostare la produzione di grafici ASCII.
- RemappedImmutableGraph.successorArray (x) stava fornendo la stessa matrice su ogni chiamata, rendendo così i successori ereditati (x) Metodo inutilizzabili per la scansione in liste diverse in parallelo. Fisso (ora restituisce una copia della matrice, invece).
- Nuovo trasformazione casuale che permuta casualmente un grafico.
Cosa c'è di nuovo nella versione 2.4.2:
- Un nuovo & quot; comporre & quot; costruire rende possibile comporre (arc-etichettato) grafici.
I commenti non trovato