Gestione dei gigabyte per Java

Gestione Gigabytes for Java è un sistema di indicizzazione completo completo per le raccolte di documenti di grandi dimensioni scritte in Java.
Scarica ora

Gestione dei gigabyte per Java Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • LGPL
  • Prezzo:
  • FREE
  • Nome editore:
  • Sebastiano Vigna
  • Sito web dell'editore:
  • http://archive4j.dsi.unimi.it/

Gestione dei gigabyte per Java Tag


Gestione dei gigabyte per Java Descrizione

Gestione Gigabytes for Java è un sistema di indicizzazione completo completo per le grandi collezioni di documenti scritte in Java. Gestione Gigabytes per Java (MG4J) è un sistema di indicizzazione completo completo per le collezioni di documenti di grandi dimensioni scritte in Java. Come sottoprodotto, offre diverse classi ottimizzate per uso generico, comprese stringhe mutevoli veloci e compatte, I / O a livello bit, flussi tamponi tamponati senza pilota veloce, (possibilmente firmati) un hashing perfetto minimo per collezioni di stringhe molto grandi, ecc. Rilascio 1.1, MG4J diventa un sistema di indicizzazione del testo altamente personalizzabile e ad alte prestazioni, che fornisce funzioni all'avanguardia (come il punteggio BM25) e i nuovi algoritmi di ricerca.HERE sono alcune caratteristiche chiave di "Gigabyte di gestione per Java ": - Indicizzazione potente. Il supporto per le raccolte e le fabbriche di documenti rende possibile analizzare, indicizzare e interrogare collezioni di documenti in modo coerente di grandi dimensioni, fornendo snippet di facile comprensione che evidenziano passaggi pertinenti nei documenti recuperati. - Efficienza. Non forniamo dati privi di significato come "indicizziamo X GIB al secondo" (con quale configurazione? Quale lingua? Quale origine dati?) - Ti invitiamo a provarlo. MG4J può indicare senza sforzo La collezione Trec Gov2 (le fabbriche di documenti sono fornite a tal fine) e scale a centinaia di milioni di documenti. - Semantica a intervalli multi-index. Quando si invia una query, MG4J ritorna, per ciascun indice, un elenco di intervalli che soddisfano la query. Ciò fornisce la base per diversi marcatori di alta precisione e per un'implementazione molto efficiente di operatori sofisticati. Gli intervalli sono costruiti in tempo lineare utilizzando nuovi algoritmi di ricerca. - Operatori espressivi. MG4J va ben oltre il modello di borse-of-words, fornendo un'efficiente implementazione di query frase, restrizioni di prossimità, congiunzione ordinata e combinate query multilinee. Ogni operatore è rappresentato internamente da un oggetto astratto, in modo da poter collegare facilmente la tua sintassi preferita. - Campi virtuali. MG4J supporta campi virtuali-campi contenenti testo per un documento virtuale diverso; L'esempio tipico è il testo dell'ancora, che deve essere attribuito al documento di destinazione. - Flessibilità. È possibile costruire indici molto più piccoli cadendo le posizioni del termine, o anche il termine conta. Tocca a voi. Possono essere scelti diversi tipi di codici diversi per bilanciare l'efficienza e la dimensione dell'indice. I documenti provenienti da una collezione possono essere rinumerati (ad esempio, per abbinare un rango statico o sperimentare le tecniche di indicizzazione). - Apertura. Le interfacce di raccolta / fabbrica documenti forniscono un modo semplice per presentare la propria rappresentazione dei dati a MG4J, rendendolo un gioco da gioco per configurare un motore di ricerca basato sul Web che accede direttamente ai tuoi dati. Ogni elemento lungo il percorso della risoluzione della query (parser, accumuli di documenti-iteratori, motori di query, ecc.) Può essere sostituito con le proprie versioni. - Elaborazione distribuita. Gli indici possono essere costruiti per una collezione divisa in diverse parti e combinate in seguito. La combinazione di indici consente indici non contigui e persino lo stesso documento può essere suddiviso su diverse raccolte (ad esempio, quando si indicizza il testo dell'ancoraggio). - Multithreading. Gli indici possono essere interrogati e segnati in concomitanza. - clustering. Gli indici possono essere raggruppati sia lessali che documentalmente (possibilmente dopo un partizionamento). Il sistema di clustering è completamente aperto e le strategie definite dall'utente decidono come combinare documenti da fonti diverse. Questa architettura lo rende possibile, ad esempio, per caricare la RAM la parte di un indice che contiene termini che appaiono più frequentemente nelle query degli utenti. Requisiti: · FastUtatil. · Jal. Cosa c'è di nuovo in questa versione: · AVVERTENZA: massaggio massiccio del sottosistema del documentazione. Ora tali visitatori possono restituire i dati, molto simile a un queryiteratorbuildervisovisore. Ha anche un metodo di visita speciale per i multiturmindesiteratori. Dovrai adattare le tue precedenti implementazioni. · Avvertenza: le istanze di queryparser sono necessarie per fornire un metodo Parse (mutablestraring) e due nuovi metodi di fuga che possono essere utilizzati per trasformare una stringa in un token di testo. Questa funzione è fondamentale per la generazione di query automatica (grazie a Hugo Saragoza per aver sottolineato questo problema). · ATTENZIONE: Per rendere più facili alcune cose, ora abbiamo iteratori documenti espliciti che rappresentano vere e false. La loro costruzione richiede un indice di riferimento (contrariamente a quello che stava accadendo con DocumentIterators.EMPTY_ITERATOR), in modo che il getInstance () i metodi della maggior parte dei iteratori documenti dovevano essere aggiornati, e le istanze DocumentIteratorVisitor necessario implementato due nuove visita) metodi (. Gli iteratori sono generati dal token #TRUE e #FALSE. · ATTENZIONE: Indicizzazione dei campi virtuali usa molta meno memoria, ma lotti ora hanno un contenuto diverso: essi rappresentano posizioni reali nel documento virtuale finale. Misure di ciascun lotto rappresentano la dimensione nota di un momento virtuale quando il lotto è stato scritto. Con questa modifica, non Incollare non richiedono più memoria rispetto Concatenate. · ATTENZIONE: Una nuova classe RemappingDocumentIterator consente di mescolare i risultati di diversi indici con gli operatori di posizione. Poiché non v'è un nuovo nodo di query Remap, tutti DocumentVisitors dovranno essere aggiornati. · ATTENZIONE: Tutte le classi deprecate sono stati rimossi. · ATTENZIONE: l'opzione -b del IndexBuilder è ora allineato a scansione - specifica il nome base di una collezione che verrà realizzato a tempo di indicizzazione. È usato per essere la dimensione del buffer combinate. · Nuove classi di efficienza costruzione raccolta di documenti in fase di indicizzazione. L'architettura è ora anche molto aperto - è possibile collegare i propri costruttori. · La gestione dei formati Completamente ristrutturato per Combinare e sottoclassi. Se non si utilizza la codifica Golomb, non sarà necessario alle dimensioni del carico. Questo è vero anche di lotti di campi virtuali, come incollare ora di default fa posizioni non Rinumera, ma si aspetta che siano già rinumerati. Il vecchio comportamento può essere ottenuto tramite una bandiera. · Ci siamo trasferiti a Jetty 6. Inoltre, sono stati corretti alcuni problemi con la velocità modelli non trovando. · Nuovo, più intelligente gestione che la memoria deve essere in grado di evitare completamente gli errori di out-of-memoria. C'è anche un limite al numero di termini per lotto che dovrebbe aiutare con la raccolta dei rifiuti. · Risolto un bug nella creazione collezione: abbiamo usato per fornire la fabbrica originale, ma questo è sbagliato come noi non potremmo essere indicizzare tutti i campi. Ora generiamo una fabbrica adatto che contiene solo i campi indicizzati. · Nuova funzione importante: indici ad alte prestazioni possono avere quanti ora variabile a seconda della frequenza di lista e la densità. Indici società Sport un file .posnumbits che registra il numero di bit vengono utilizzati per memorizzare le posizioni. È usato come una statistica di base per calcolare il quantum corretta. Si può chiedere una percentuale dell'indice da utilizzare per saltare le torri, e il quantum giusta per ogni lista sarà calcolato per voi. Il processo è abbastanza empirica, in modo sempre guardare in file .stats per verificare che si sono effettivamente non più della percentuale richiesta utilizzando. In generale, i vecchi indici dovranno essere ricostruite prima di poter combinare in un indice con quanti variabile, ma per gli indici ad alte prestazioni le ComputePosNumBitsPositions strumento può essere utilizzato per aggiungere il file mancante. · La mappatura della memoria degli indici utilizza ora il nuovo approccio multiplex implementato in ByteBufferInputStream. Questo significa che siamo in grado di mappare in memoria essenzialmente ogni indice. Grazie a Valentin Tablan e Ian Roberts per suggerire questo approccio. · Ora ci sono dotati di un'implementazione della funzione graduatoria state-of-the-art BM25F. · ZipDocumentCollection.getInstance () permette di caricare realiably casi ZipDocumentCollection, anche se non sono nella directory corrente. · Nuovo UTF-8 bei simboli matematici per congiunzione, disgiunzione, TRUE e FALSE. · Corretto il problema con troppe connessioni aperte quando si utilizza JdbcDocumentCollection. · Una nuova chiave SUCCINCTSIZES URI permette di chiedere per le dimensioni di carico in una lista compressa Elias-Fano. Ciò rallenta accesso da due ordini di grandezza, ma può essere molto utile quando si incolla grandi indici, come incollando necessità di caricare una grande quantità di dati di dimensioni. · Casi EmptyIndexIterator non sono più single basati su indici. Questo cambiamento era necessario per rendere possibile l'esecuzione Classifica algoritmi che richiedono di impostare il peso o addirittura id di iteratori vuote. Questo dovrebbe causare alcun problema. · Tutti gli iteratori di documenti hanno ormai un peso impostabile. Il peso può essere espressed nella sintassi usando parentesi standard. Si noti che i pesi per sé non hanno alcun significato - è compito dei marcatori di usarli. · Ora l'opzione solo dei metadati di combinata e le sue implementazioni genera il file delle frequenze. Questo è molto utile in quanto consente di calcolare le frequenze del termine per i documenti virtuali ottenuti concatenando tutti i campi - qualcosa che è necessario per il calcolo corretto di BM25F. · Risolto un bug nella grammatica: query come "(A))" sarebbe stato analizzato come "(A)" a causa della mancanza di controllo per EOF (grazie a Hugo Saragoza per aver segnalato questo bug). · Il parser accetterà ora caratteri Unicode 0x2227 e 0x2228 (i simboli matematici standard per la congiunzione e la disgiunzione) per e e o, rispettivamente. · Seguendo alcuni test TREC GOV2, i valori predefiniti per Maxpreanchor e MaxPostanchor in HtmldocumentFactory sono stati ridotti rispettivamente a 8 e 4. · Risolto il vecchio bug in semiexternalgammalist; Letture (0) non è stata chiamata dopo la stima di Numlongs, portando ad eofessicazioni. · I puntatori del documento possono ora essere codificati in un anno. · Risolto un bug cattivo in partizionically: per indici ad alte prestazioni, le posizioni dell'ultimo termine non sono state scritte. · HttpFileserver ha una porta impostabile. · Metodo del nuovo scorer.getweights () per ottenere pesi. · Risolto un bug nel marcatore TFIDF che avrebbe causato nans. · Query accetta un elenco di titoli separati da Newline, oltre al solito oggetto serializzato.


Gestione dei gigabyte per Java Software correlato

SDO.

converte gli oggetti Oracle Sdo_geometry in WKT e Geojson. ...

225

Scarica

Utilità DSI.

Le utenze DSI sono un Mish Mash of Classi accumulato negli ultimi dieci anni in progetti sviluppati presso il DSI. ...

199

Scarica