Il progetto LemurModellazione della lingua e applicazione di recupero delle informazioni | |
Scarica ora |
Il progetto Lemur Classifica e riepilogo
Annuncio pubblicitario
- Licenza:
- Freeware
- Prezzo:
- FREE
- Nome editore:
- The Lemur Team
- Sito web dell'editore:
- http://www.lemurproject.org/
- Sistemi operativi:
- Mac OS X
- Dimensione del file:
- 63.6 MB
Il progetto Lemur Tag
Il progetto Lemur Descrizione
Applicazione per la modellazione della lingua e l'applicazione di recupero delle informazioni Il Lemur Toolkit è un'applicazione gratuita e open source progettata per facilitare la ricerca nella modellizzazione della lingua e il recupero delle informazioni. Il TOOLKIT Lemur include tecnologie come ad hoc e recupero distribuito, recupero di cross-lingua, riepilogamento, filtraggio e classificazione. Ecco alcune caratteristiche chiave di "The Lemur Project": · Lingue di query strutturate sofisticate (utilizzando incoraria e INDRI) · Supporto per il recupero del documento XML e strutturato · Utilizzato comunemente con una vasta gamma di collezioni di test di ricerca (ad esempio, Trec CDS 1-5, WT10G, RCV1, Gov, Gov2) · Indice le tue pagine Web con una capacità di ricerca del sito "out-of-the-box" · Interfacce interattive per Windows, Linux e Web · Applicazioni di recupero delle informazioni distribuite e applicazioni del clustering del documento · Codice multipiattaforma, rapido e modulare scritto in C ++ · API di C ++, Java e C # · Software gratuito e open source · In uso da oltre 6 anni da una grande e crescita della comunità degli utenti Indicizzazione: · Metodi di indicizzazione multipli per raccolte piccole, medie e su larga scala (terabyte) · Supporto integrato per il testo inglese, cinese e arabo · Porter e Krovetz Word stemming · Indicizzazione incrementale · Supporto per indicizzazione out-of-the-box per TREC Text, Trec Web, Text Trec Text, HTML, XML, PDF, MBOX, Microsoft Word e Microsoft PowerPoint · Indici Inline e offset annotazioni di testo (ad es., Parte di part-of-discorso e entità nominate) · Attributi dei documenti degli indici Recupero: · Supporta approcci di modellazione delle lingue principali come INDRI e KL-Divergence, oltre a spazio vettoriale, TF.IDF, OKAPI e Inquisty · Rilevanza - e feedback per rilevanza pseudo · Espansione del termine jolly (usando INDRI) · Passaggio e recupero dell'elemento XML · Recupero cross-lingual · Levigatura tramite priori di Dirichlet e catene Markov · Supporta i priori del documento arbitrario (ad esempio, page rank, profondità dell'URL) Cosa c'è di nuovo in questa versione: · 2799440 Terminfo restituito da indriterminfolist non ha posizioni · 2794361 HarvestLinks non riesce a creare directory di raccolta · 2788507 Krovetzstemmertransformation può traboccare un buffer · 2788504 ANCHORTESTORNOTORNOTOSNOTATOR può traboccare un buffer · 2787935 Dumps PageRank Core se il percorso dei collegamenti è cattivo · 2784994 Articolo errato · 2783665 TextTokenizer Termina prematuramente Attributi tag quotati · 2782954 INDRI :: Parse :: HTMLParser :: La handletag può traboccare un buffer · 2772914 IREVALGUI.JAR dà risultati folli · 2772846 BIN / IREVAL.JAR è un file .jar non valido (Lemur V48) · 2770916 Corruzione del buffer di DocumentLength con thread multipli · 2747981 Warcdocumenterator manca i documenti nel file WARC · 2747707 TextTokenizer non riconosce alcuni attributi di tag quotati
Il progetto Lemur Software correlato
XCCDF2PDF.
Utility della riga di comando che converte i documenti XCCDF in documenti PDF ...
200 8.1 MB