| Webstemmer. Analizzatore di layout Web gratuito e open source e open source |
Scarica ora |
Webstemmer. Classifica e riepilogo
- Nome editore:
- Yusuke Shinyama
- Sito web dell'editore:
- http://www.unixuser.org/~euske/
- Sistemi operativi:
- Mac OS X
- Dimensione del file:
- 317 KB
Webstemmer. Tag
Webstemmer. Descrizione
Analizzatore di layout web gratuito e open source WebStemmer è un analizzatore di layout HTML e un crawler Web che estrae automaticamente il testo principale di un sito di notizie senza avere banner, annunci e / o collegamenti di navigazione misti. Generalmente, estrarre il contenuto del testo dai siti Web (in particolare i siti di notizie) finisce con un sacco di Stuff inutili: annunci e banner. Potresti creare alcuni modelli di espressioni regolari per raccogliere solo le parti desiderate, ma per costruire un tale schema è spesso un compito difficile e dispendioso in termini di tempo. Inoltre, alcuni modelli devono essere consapevoli dei contesti circostanti. Alcuni siti di notizie hanno anche diversi layouts.Webstemmer analizza il layout di ogni pagina in un determinato sito Web e si finanzia in cui si trova il testo principale. L'analisi può essere eseguita in modo completamente automatico con un piccolo intervento umano. Hai solo bisogno di dare un URL della pagina migliore. Requisiti: · Python. Cosa c'è di nuovo in questa versione: · Setup.py Aggiunto.
Webstemmer. Software correlato