Xapian e Omega.

Xapian è una libreria di recupero delle informazioni probabilistiche open source, rilasciata sotto il GPL.
Scarica ora

Xapian e Omega. Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • GPL
  • Prezzo:
  • FREE
  • Nome editore:
  • Xapian Team
  • Sito web dell'editore:
  • http://www.xapian.org/

Xapian e Omega. Tag


Xapian e Omega. Descrizione

Xapian è una libreria di recupero di informazioni probabilistiche open source, rilasciata sotto il GPL. Xapian è una libreria di recupero di informazioni probabilistiche open source, rilasciata sotto il GPL. Xapian ISS scritto in C, con attacchi per consentire l'uso da utilizzare da altre lingue (Perl, Java, Python, PHP e TCL sono attualmente supportati; Guile e C # sono attivati). Lapian è progettato per essere un toolkit altamente adattabile per consentire agli sviluppatori Per aggiungere facilmente le strutture avanzate di indicizzazione e di ricerca alle proprie applicazioni. Se sei dopo un motore di ricerca confezionato per il tuo sito web, dovresti dare un'occhiata a Omega, che è un'applicazione che forniamo costruita su Xapian. Ma a differenza della maggior parte delle altre soluzioni di ricerca del sito Web, la versatilità di Xapian ti consente di estendere l'Omega per soddisfare le tue esigenze come crescono. Ecco alcune caratteristiche chiave di "Xapian e Omega": · Software gratuito / open source - concesso in licenza sotto il GPL. · Altamente portatile: funziona su molte Linux, MacOS X, molte altre piattaforme UNIX e Microsoft Windows. · Scritto in c. Le associazioni perl sono disponibili nella ricerca del modulo :: xapian su cpan. Le associazioni Java JNI sono incluse nel modulo Xapian-Bindings. Supportiamo anche Swig che può generare legami per 13 lingue. Attualmente quelli per Python, PHP4 e TCL stanno funzionando. Guile e C # vengono lavorati. · Ricerca probabilmente classificata - Le parole importanti ottengono più peso rispetto alle parole non importanti, quindi i documenti più rilevanti hanno maggiori probabilità di avvicinarsi alla cima dell'elenco dei risultati. · Rilevanza Feedback - Dato uno o più documenti, Xapian può suggerire i termini dell'indice più rilevanti per espandere una query, suggerire documenti correlati, categorizzare documenti, ecc. · Ricerca di frase e prossimità: gli utenti possono cercare parole che si verificano in una frase esatta o in un numero specificato di parole, in un ordine specificato o in qualsiasi ordine. · Gamma completa di operatori di ricerca booleana strutturata ("stock non mercato", ecc.). I risultati della ricerca booleana sono classificati dai pesi probabilmente. I filtri booleani possono anche essere applicati per limitare una ricerca probabilistica. · Supporta stemming dei termini di ricerca (ad esempio una ricerca di "calcio" corrisponderebbe ai documenti che menzionano "calcio" o "calciatore"). Questo aiuta a trovare documenti rilevanti che altrimenti potrebbero essere persi. I stemmer sono attualmente inclusi per danese, olandese, inglese, finlandese, francese, tedesco, italiano, norvegese, portoghese, russo, spagnolo e svedese. · Supporta i file del database> 2 GB - essenziale per il ridimensionamento alle raccolte di documenti di grandi dimensioni. · Formati dati indipendenti della piattaforma: è possibile creare un database su una macchina e cercarlo su un altro. · Consente l'aggiornamento simultaneo e la ricerca. I nuovi documenti diventano subito ricercabili. Oltre alla biblioteca forniamo una serie di piccoli programmi di esempio e un'applicazione più grande: un'applicazione di indicizzazione e basata su CGI denominata Omega: · L'indicizzato fornito può indicizzare HTML, PHP, PDF, PostScript e testo normale. L'aggiunta di supporto per l'indicizzazione di altri formati è facile dove sono disponibili i filtri di conversione (ad es. Microsoft Word). Questo indicizzatore funziona utilizzando il sistema di archiviazione, ma forniamo anche uno script per consentire a HTDig Web Crawler di essere agganciati, consentendo di cercare i siti remoti utilizzando Omega. · È inoltre possibile indicizzare i dati da qualsiasi SQL o altri RDBMS supportati dal modulo DBI PERL. Ciò include MySQL, PostgreSQL, SQLite, Sybase, MS SQL, LDAP e ODBC. · CGI Cerca front-end fornito con aspetto altamente personalizzabile. Questo può anche essere personalizzato per ottenere risultati di output in XML o CSV, che è utile se si stanno generando dinamicamente pagine (ad esempio con PHP o MOD_PERL) e semplicemente vogliono risultati di ricerca RAW che è possibile elaborare nel tuo codice di layout di pagina. Cosa c'è di nuovo in questa versione: API: · Xapian :: Il documento non più memorizza mai i valori vuoti esplicitamente. Questo non era un comportamento intenzionale, e come questo caso è stato gestito non è stato documentato. Il comportamento modificato è coerente con il modo in cui viene gestito i metadati dell'utente. Questa modifica non è osservabile utilizzando il documento: Get_Value (), ma può essere notato quando iterazioni con il documento :: vai_begin (), utilizzando il documento :: vai_count () o cercando di eliminare il valore con il documento :: Remove_Value (). TestSuite: · Fissare Testcase ScaleWeight4 non fallire su x86 se compilato con -o0. Il problema era nel codice di prova, ed è stato causato dalla precisione in eccesso nei valori FP intermedi. · TestCases che controllano che le operazioni abbiano il comportamento O (...) previsto senza controllare il tempo della CPU anziché il tempo di WallClock sulla maggior parte delle piattaforme, che dovrebbe eliminare guasti occasionali a causa di picchi di carico da altri processi. · (Biglietto # 308) · Fissare i guasti di test dovuti a skip_test_for_backend ("Inmemory") Non saltare quando dovrebbe dovuto confrontare le stringhe di caratteri con == (sul trunk il valore di ritorno che viene testato è std :: stringa piuttosto che const char *). · Migliora la copertura di prova in diversi casi d'angolo. · Fissare TestCase Coentency2 per essere effettivamente eseguito (fortunatamente passa). · Nelle prove generate, Chiama Get_Description () sull'oggetto costruito predefinito di ciascuna classe per assicurarsi che funzioni (e non tenta di dereferenziare null o fallire un po 'di asserzione, ecc.). Tutte le classi attualmente controllate vanno bene - questo è per evitare future regressioni o tali problemi con nuove classi. · Nell'esercizio della copertura di prova, utilizzare "--Coverage" invece di "-Fprofile-ARCS -FTEST-Copertura". · L'imbracatura del test ha ora il backend dell'incarico contrassegnato come supportando i metadati specificati dall'utente (a parte iterazione sui tasti metadati). Matcher: · Se una query contiene una sottoschetteria matchAll, verificarlo prima di controllare gli altri termini in modo che il loop che controlli quante termini corrispondono possono uscire presto se si abbinano. · Quando un o o qualsiasi_maybe decaduto a un e, stavamo scambiare con attenzione i bambini per la massima efficienza, ma la condizione è stata invertita, quindi eravamo infatti peggiorare le cose. Questo è stato notato perché si trattava della stessa query in esecuzione più velocemente quando sono stati richiesti più risultati! · Costruisci solo il termine a TermFreq e Mappa di peso per la prima sottodatabase invece di ricostruirlo per ciascuno. Inoltre non copiare questa mappa per restituirlo. Questo dovrebbe accelerare un po 'di ricerche, specialmente quelli su più database. · Se un submatcher fallisce, ma ErroresHerler ci dice di continuare senza di esso, usiamo solo un puntatore NULL per stare in piedi piuttosto che allocare uno speciale oggetto dummy porter. · Rimuovere AndostList, a favore di MultiandPostList. Andostlist è stato utilizzato solo come prodotto di decadimento (da andmaybepostlist e orpostlist), e non sembra essere più veloce. La rimozione riduce la pressione della cache della CPU ed è meno codice da mantenere. · Controllo chiamata () invece di skip_to () sul ramo opzionale di and_maybe. Backend di selce: · Fissare un bug nel termiteratore :: skip_to () su tasti metadati. Backend remoto: · Correggere l'opzione Xapian-TCPSRV -Interface per lavorare su Macos X (Biglietto # 373). · Correggere il tapografo che ci ha fatto restituire il documento invece del peso massimo un documento da una partita remota potrebbe tornare! Ciò potrebbe aver portato a risultati errati durante la ricerca di più database con il backend remoto, ma probabilmente di solito non ha importanza come con BM25 i pesi sono generalmente piccoli (spesso tutti <1) mentre i documenti sono inevitabilmente> = 1. Backend Inmemory: · Il back-end inmemory non supporta i tasti di metadati. Cercando di farlo usato per dare un'iterazione vuota, ma ora è stato fissato per lanciare · UnimplementedError (e questa limitazione è stata ora documentata). Sistema di costruzione: · Rimuovere un sacco di inclusioni di intestazione inutilizzate e alcuni codici non utilizzati che dovrebbero rendere la build più veloce e leggermente più piccola. · Fissare a compilare underidisable-backend-flint, -disable-backend-remoto e -disable-backend-demmory. · Non rimuovere alcuna fonti integrata in "Make Clean" anche in modalità sotto-mauring-manutentore in quanto ciò interrompe la commutazione di un albero lontano dalla modalità manutentore con: rendere Distclean; ./ Configura · Configura: Abilita più Avvertenze GCC - "-WoverLoaded-Virtual" per tutte le versioni, "-WStrict-Null-Sentinel" per 4.0+, "-Wlogical-op -wmissing-dichiarazioni" per 4.3+. In particolare "-Wmiscial-dichiarazioni" catturato che Consistency2 non è stato eseguito. · Internamente, correggi i pochi luoghi in cui passiamo Std :: String by Value per passare da Const Reference invece (tranne dove abbiamo bisogno di una copia modificabile comunque) in quanto benchmarking mostra che Const Reference è leggermente più veloce e genera meno codice con il riferimento di GCC :: String Implementation - con un'implementazione con contato non di riferimento, il riferimento const dovrebbe essere molto più veloce. (Biglietto # 140) documentazione: · Installa: non tentiamo più regolarmente la build con GCC 2.95.4 e stiamo sollevando la versione minima GCC richiesta a 3.1 per Xapian 1.1.x. · Documentare cosa passa maxitem = 0 per informarsi :: get_mset () lo fa. · Docs / QueryParser.html: aggiungi esempi di utilizzo di un prefisso su una frase o su misura. · Commenti corretti DOXYGEN per le funzioni dei metadati dell'utente: Database :: Get_metadata () Throw UnimplementeDeReRorror ma writabledatabase :: set_metadata () può. · Documentare quel database :: metadata_keyys_begin () restituisce un iteratore di fine se il backend non supporta i metadati. · Hacking: aggiorna l'elenco dei pacchetti Debian / Ubuntu necessari per un ambiente di sviluppo. Codice di debug: · Correggere la costruzione con debug -enable. · Aggiunto alcune maggiori asserzioni.


Xapian e Omega. Software correlato

Opina.

Uno strumento di gestione Web per la gestione dei sondaggi. ...

189

Scarica

Wdb.

WDB è un sistema di database progettato per memorizzare dati meteorologici, idrologici e oceanografici (MHO). ...

178

Scarica

OpenPSA.

Un pacchetto software di gestione basato sul Web per le consulenza. ...

147

Scarica