Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Dettagli del software:
Versione: 3.4
Data di caricamento: 10 Dec 15
Sviluppatore: Martin Jericho
Licenza: Libero
Popolarità: 12

Rating: nan/5 (Total Votes: 0)

E 'possibile modificare i tag server-side e client-side, mentre riproducendo testualmente qualsiasi codice HTML non riconosciuto o non valido.

Inoltre fornisce funzioni di manipolazione modulo HTML di alto livello

Caratteristiche .

  • La presenza di HTML correttamente formattato non interferisce con l'analisi del resto del documento, il che rende la biblioteca ideale per l'uso con & quot; reali & quot; HTML che soffoca altre parser.

  • variabili del server
  • ASP, JSP, PSP, PHP e Mason sono esplicitamente riconosciuti dal parser. Questo significa che il normale HTML è ancora analizzato correttamente anche se ci sono variabili del server al loro interno, che è comune ad esempio, quando l'impostazione dinamica gli attributi degli elementi.
  • Una nuova opzione di analisi flusso basato utilizzando la classe StreamedSource, che consente il trattamento efficace della memoria file di grandi dimensioni utilizzando un iteratore evento. Questo è essenzialmente un StAX alternativa con la capacità di elaborare HTML e XML non-validante, così come diverse altre caratteristiche non disponibili in altri parser di streaming.
  • Nella sua forma standard non è né un evento, né albero parser basato, ma piuttosto utilizza una combinazione di semplice ricerca di testo, il riconoscimento tag efficiente e una cache di posizione tag. Il testo del documento intero origine viene prima caricato in memoria, e quindi solo i segmenti rilevanti cercato per i personaggi rilevanti di ciascuna operazione di ricerca.
  • Rispetto ad un parser ad albero, come DOM, i requisiti di memoria e di risorse può essere molto meglio se solo piccole sezioni del documento devono essere analizzati o modificato. Errata o mal formattati HTML può essere facilmente ignorata, a differenza di parser ad albero, che deve individuare ogni nodo del documento da cima a fondo.
  • Rispetto ad un parser basato evento come SAX, l'interfaccia è a un livello molto più alto e più intuitiva, e una rappresentazione ad albero della gerarchia elemento del documento può essere facilmente creato se necessario.
  • L'inizio e posizioni finali nel documento di origine di tutti i segmenti analizzati sono accessibili, permettendo la modifica di segmenti solo selezionate del documento senza dover ricostruire l'intero documento da un albero.
  • Il numero di riga e la colonna di ogni posizione nel documento di origine sono facilmente accessibili.
  • Fornisce una semplice ma completa interfaccia per l'analisi e la manipolazione di HTML controlli di modulo, compresa l'estrazione e la popolazione dei valori iniziali, e la conversione di sola lettura o di visualizzazione dei dati modalità. L'analisi dei controlli di modulo permette anche di dati ricevuti dal modulo deve essere conservato e presentato in maniera adeguata.
  • Built-in funzionalità di estrarre tutto il testo da codice HTML, adatto per l'alimentazione in un motore di ricerca a testo come Apache Lucene.
  • Built-in funzionalità per rendere markup HTML con semplice formattazione del testo.
  • Built-in funzionalità per formattare il codice sorgente HTML che fa rientrare gli elementi in base alla loro profondità nella gerarchia elemento del documento. (Clicca qui per una dimostrazione on-line)
  • Built-in funzionalità compatto codice sorgente HTML rimuovendo tutti gli spazi bianchi non necessari.
  • tipi di tag personalizzati possono essere facilmente definiti e registrati per il riconoscimento da parte del parser.

Cosa c'è di nuovo in questa versione:.

  • Aggiunto di origine (file) di costruzione
  • metodo Aggiunto OutputDocument.getSegment ().
  • Aggiunto OutputDocument.remove (int iniziare, int end) Metodo.
  • metodo Aggiunto Renderer.setHRLineLength ().
  • Aggiunto RenderToText.jsp campione webapp.
  • metodo Aggiunto Segment.getRowColumnVector ().
  • rilevazione codifica ora ignora codifiche comuni specificati nella meta tag che hanno una dimensione di unità di codice non compatibile con la codifica preliminare.

Cosa c'è di nuovo nella versione 3.1:

  • Bug risolti:
  • ciclo infinito su Segment.getAllStartTags ()
  • ciclo infinito su Segment.getAllElements ()
  • Segment.getFirst * metodi restituiti segmenti di fuori del segmento di delimitazione.

  • Metodi
  • Segment.getAllElements non ha restituito tutti gli elementi racchiusi in alcune circostanze.
  • errori di documentazione fissi nei metodi Segment.getAllElements.
  • classe Aggiunto StreamedSource.
  • Le modifiche che potrebbero influenzare il comportamento dei programmi esistenti:
  • Cambiato ParseText dalla classe di interfacciarsi.
  • Segment.getNodeIterator () ora restituisce i riferimenti di carattere come nodi separati.
  • tag Aggiunto modalità di ricerca basato sul valore di attributo espressioni regolari.
  • tag Aggiunto metodi di ricerca basati su attributi classe HTML.
  • Aggiunto proprietà Source.LegacyNodeIteratorCompatabilityMode statica temporaneamente per ripristinare la funzionalità Segment.getNodeIterator () a quello delle precedenti versioni.
  • Rimosso char [] Metodi di ricerca in base a ParseText.
  • Aggiunto CharacterReference.appendCharTo (aggiungibile) metodo.
  • Aggiunto OutputDocument (segmento) costruttore.
  • programma di esempio Aggiunto StreamedSourceCopy.

Programmi simili

phpHaml
phpHaml

5 Jun 15

Baker
Baker

1 Mar 15

url2html
url2html

13 Apr 15

Altri software di sviluppo Martin Jericho

Commenti a Jericho HTML Parser

I commenti non trovato
Aggiungi commento
Accendere le immagini!
Ricerca per categoria