| Sitemapcrawler. Applicazione console che blocca tutti gli URL elencati nel file sitemap.xml |
Scarica ora |
Sitemapcrawler. Classifica e riepilogo
- Sito web dell'editore:
- http://www.codeproject.com/Members/Summer-son
- Sistemi operativi:
- Windows All
- Dimensione del file:
- 47 KB
Sitemapcrawler. Tag
Sitemapcrawler. Descrizione
Il programma SiteMapCrawler è stato sviluppato per essere un'applicazione console che chiude tutti gli URL elencati nel file sitemap.xml. Hai mai pensato di provare a convalidare ogni URL elencato nel tuo file Sitemap? Ho un sito con collegamenti di pagina generati dinamicamente. Questi collegamenti sono generati in base a un titolo di pagina che può essere qualsiasi combinazione di lettere, numeri e simboli. Naturalmente, il sito rimuove tutti i personaggi proibiti dal titolo della pagina prima di generare il suo URL, i rifiniture e accorcialo un po '... tuttavia gli errori si verificano ancora di volta in volta. Ad esempio, una pagina con un titolo: '' ... is_broken '' '' '' A causa delle mie specifiche di conversione dell'URL avrà il seguente URL: /.is_broken+ ci sono migliaia di pagine, quindi è chiaro che non posso verificare Ogni pagina separata che il database del sito contiene. BASED su un elenco di URL generati dinamicamente I Genera un file sitemap.xml. Che contiene tutte le pagine del sito. Quindi ogni volta che viene generato un file mappa, è necessario assicurarsi che non ci siano elementi ripetutori (questo potrebbe accadere se diverse pagine hanno gli stessi titoli) e ciascun URL separato è accessibile, vale a dire non produce alcuna richiesta negativa o 404 o qualcosa di simile Questo. Ho creato un programma C # che cammina attraverso ogni URL elencato nel file SiteMap.xml e tenta di accedervi. Registra tutti gli errori si sono verificati in un file di output, quindi è facile da tracciare pagine problematiche. Uso la classe XmlDocument per caricare un sitemap.xml; Le classi webrequest e webresponse per determinazione se esiste un URL.
Sitemapcrawler. Software correlato