Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Dettagli del software:
Versione: 3.3
Data di caricamento: 20 Feb 15
Sviluppatore: Martin Jericho
Licenza: Libero
Popolarità: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser è un open source, semplice ma potente libreria scritto interamente in Java.
Esso consente ai programmatori di manipolare e analizzare parti di un documento HTML.
Jerich HTML Parser incorpora anche funzioni di manipolazione forma HTML di alto livello

Cosa c'è di nuovo in questa versione:.

  • Correzioni di bug:
  • [3581664] CharacterReference.decode () non decodificare entità contenenti cifre - & frac12; & Frac14; & Frac34; & SUP1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor non rispetta TEXTAREA
  • [3519131] Uscita rendering corretto quando costruito con un oggetto Element.
  • [3538829] uscita renderer di decorazione carattere sul margine di un blocco non corretto.
  • Segment.getAllStartTags (nome) e Segment.getFirstElement (nome) non funzionano se l'argomento contiene caratteri maiuscoli.
  • Il delimitatore fine di un tag server comune all'interno di un tag server di escape viene erroneamente riconosciuto come delimitatore fine del tag sfuggito.
  • modifiche che potrebbero compromettere IL COMPORTAMENTO DI PROGRAMMI ESISTENTI:
  • [3427073] Segment.getStyleURISegments () ora include stile contenuto di un elemento così come valori di attributi di stile.
  • [3427927] Segment.getURIAttributes () ora include gli attributi di archivio di elementi oggettuali e applet.
  • Commenti più riconosciuti all'interno elementi di script durante pieno parse sequenziale. In precedenza sono stati riconosciuti per la compatibilità con i principali browser, ma moderna comportamento del browser è cambiato.
  • cambiato il livello di log di tutti gli errori di parsing dalle INFO all'errore, e il livello di log della Source.fullSequentialParse () messaggio di avviso dal WARN a INFO. I livelli precedenti hanno dato il messaggio di avviso di gravità superiore alle errori di analisi, evitando sistemi di registrazione di nascondere il messaggio di avviso pur evidenziando errori di analisi. Avvisi di codifica dei caratteri rimangono invariate a WARN livello.
  • Cambiato il comportamento del metodo Renderer.renderHyperlinkURL (starttag) in modo che gli URL relativi non sono resi.
  • Cambiato il comportamento del renderer modo che il contenuto elemento collegamento ipertestuale non è reso se è lo stesso del URL collegamento ipertestuale, ignorando qualsiasi http: //. Prefisso o / suffisso
  • EndTag.tidy () ora rimuove spazio prima della parentesi di chiusura.
  • Aggiunto Source (File) di costruzione.
  • metodo Aggiunto OutputDocument.getSegment ().
  • Aggiunto OutputDocument.remove (int inizio, int end) metodo.
  • metodo Aggiunto Renderer.setHRLineLength ().
  • Aggiunto RenderToText.jsp campione webapp.
  • metodo Aggiunto Segment.getRowColumnVector ().
  • rilevazione codifica ora ignora codifiche comuni di cui meta tag che hanno una dimensione di unità di codice compatibile con la codifica preliminare.
  • Aggiornato alle seguenti API logger: slf4j-api-1.7.2, log4j-1.2.17

Cosa c'è di nuovo in versione 3.1:

  • Bug risolti:
  • [2793556] ciclo infinito su Segment.getAllStartTags ()
  • ciclo infinito su Segment.getAllElements ()
  • Segment.getFirst * metodi restituiti segmenti di fuori del segmento di delimitazione.

  • Metodi
  • Segment.getAllElements non ha restituito tutti gli elementi racchiusi in alcune circostanze.
  • errori di documentazione fisse nei metodi Segment.getAllElements.
  • class Aggiunto StreamedSource.
  • modifiche che potrebbero compromettere IL COMPORTAMENTO DI PROGRAMMI ESISTENTI:
  • Cambiato ParseText dalla classe di interfacciarsi.
  • Segment.getNodeIterator () ora restituisce i riferimenti di carattere come nodi separati.
  • tag Aggiunto modalità di ricerca basato sul valore di attributo espressioni regolari.
  • tag Aggiunto metodi di ricerca basati su attributo class HTML.
  • Aggiunta proprietà Source.LegacyNodeIteratorCompatabilityMode statica temporaneamente per ripristinare Segment.getNodeIterator funzionalità () a quello delle versioni precedenti.
  • Rimosso char [] metodi di ricerca con sede a ParseText.
  • Aggiunto CharacterReference.appendCharTo (aggiungibile) metodo.
  • Aggiunto OutputDocument (Segment) constructor.
  • programma di esempio Aggiunto StreamedSourceCopy.

Cosa c'è di nuovo nella versione 3.0:

  • Bug risolti:
  • Riferimenti a caratteri che rappresentano i caratteri supplementari Unicode non venivano decodificati correttamente coppie unità UTF-16 del codice.
  • [2188446] Element.getDepth () e Element.getParentElement () ha restituito risultati non corretti se chiamato parse modalità on demand.
  • I commenti sono ora riconosciuti all'interno di & lt; sceneggiatura & gt; elementi.

  • CAMBIAMENTI
  • API che non sono compatibili:
  • nome del pacchetto Cambiato net.htmlparser.jericho
  • I valori degli attributi deve ora essere String anziché CharSequence.
  • rimossi tutti i metodi deprecati / classi di versioni precedenti.
  • All trovare metodi * deprecati in favore di metodi get * al fine di applicare una convenzione di denominazione coerente su tutti i metodi di tag di ricerca.
  • Tag, HTMLElements Element e classi implementano l'interfaccia non è più HTMLElementName. (Utilizzare l'importazione statico invece)
  • Le collezioni ora stongly digitato utilizzando farmaci generici.
  • cambiato classe FormControlOutputStyle di enum.
  • Cambiato classe FormControlType di enum.
  • Aggiunto CharStreamSource.appendTo (aggiungibile) metodo.
  • metodo Aggiunto Source.iterator ().
  • Fonte ora implementa Iterable.
  • usa internamente StringBuilder per migliorare le prestazioni.
  • Aggiunto Source.getNextStartTag (StartTagType) metodo.
  • Aggiunto Source.getNextEndTag (EndTagType) metodo.
  • Aggiunto Source.getPreviousStartTag (StartTagType) metodo.
  • Aggiunto Source.getPreviousEndTag (EndTagType) metodo.
  • Aggiunto Segment.getAllStartTags (StartTagType) metodo.
  • Aggiunto tutti * i metodi Segment.getFirst.
  • Aggiunto Renderer.renderHyperlinkURL (starttag) metodo.
  • programma di esempio Aggiunto HTMLSanitiser.
  • Aggiornato a SLF4J-api-1.5.6

Requisiti :

  • Java 2 Standard Edition Runtime Environment

Programmi simili

LaTeX2HTML
LaTeX2HTML

3 Jun 15

AutoLaTeX
AutoLaTeX

17 Feb 15

ChkTeX
ChkTeX

20 Feb 15

Altri software di sviluppo Martin Jericho

Commenti a Jericho HTML Parser

I commenti non trovato
Aggiungi commento
Accendere le immagini!