htmltotext.

Estrai il testo e alcuni metainfo da HTML, coping con pagine malformate nel miglior modo possibile.
Scarica ora

htmltotext. Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • GPL
  • Prezzo:
  • FREE
  • Nome editore:
  • Richard Boulton
  • Sito web dell'editore:
  • http://lemurconsulting.com

htmltotext. Tag


htmltotext. Descrizione

Estrai il testo e un po 'di metainfo da HTML, coping con pagine malformate nel miglior modo possibile. htmltotext è un pacchetto Python che è stato scritto per un motore di ricerca, per consentirgli di estrarre il contenuto testuale e i metadati dalle pagine HTML. Cerca di far fronte a un markup non valido e ai set di caratteri specifici erroneamente e si spoglia tag HTML (dividere le parole a tag in modo appropriato). Elimina anche il contenuto dei tag e dei tag di script e tag Style.as come testo dal corpo della pagina, estrae il titolo della pagina e il contenuto di meta descrizione e tag parole chiave. Parses Meta Robot Tags per determinare se la pagina dovrebbe essere indicizzata. Il parser HTML utilizzato da questo modulo è stato estratto dalla libreria dei motori di ricerca Xapian (e in particolare, dall'utilità di indicizzazione Omindex in quella libreria). Requisiti: · Python.


htmltotext. Software correlato

Rxp.

RXP è un parser XML convalidatore scritto in C. ...

189

Scarica

Latex2ps.

LaTeX2PS è un'interfaccia grafica per il compito di documenti in lattice. ...

188

Scarica

Latex2html.

LateX2HTML è un convertitore scritto in Perl che converte i documenti in lattice in HTML. ...

333

Scarica