Poliqarp.

Poliqarp è un'utilità per la ricerca di grandi corpora.
Scarica ora

Poliqarp. Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • GPL
  • Prezzo:
  • FREE
  • Nome editore:
  • Daniel Janus
  • Sito web dell'editore:

Poliqarp. Tag


Poliqarp. Descrizione

Poliqarp è un programma di utilità per la ricerca di grandi dimensioni corpora. Poliqarp è un programma di utilità per la ricerca di grandi dimensioni corpora. Qui sono alcune caratteristiche chiave di "Poliqarp": Supporto per corpora Tagged: · L'cercato di raccolta può contenere non solo il testo crudo, ma anche informazioni riguardo le parole ed i testi che lo costituiscono (forme grammaticali di parole, la struttura dei testi, una varietà di meta-informazioni sui testi come paternità e la data di scrittura). linguaggio di query espressiva: linguaggio di query di Poliqarp è basato su espressioni regolari e permette di cercare non solo per una data parola o sequenze di parole, ma anche, ad esempio, per: · Un aggettivo seguito da un sostantivo · Cinque nomi di fila · Cinque, sei, o sette nomi di fila · Una data parola che si verificano vicino, ma non necessariamente il prossimo, ad un altro parola data · Parole che iniziano con 'z' che si verificano nei testi pubblicati nel 19 ° secolo · Frasi più lunghe di 100 parole · ...e molti altri Sostenere per tagsets posizionali: · I tag assegnati alle parole possono avere una struttura interna, e questa struttura possono essere incorporati nelle query. Ad esempio, i nomi potrebbero avere genere, numero o caso, verbi potrebbero avere aspetto, e così via. · Questo è particolarmente utile con le lingue che sono ricchi di inflessione, come il polacco (in realtà, Poliqarp è stato originariamente sviluppato ed è usato all'interno di un progetto corpus polacco - l'IPI PAN Corpus). · Non dipende da un particolare insieme di tag · Supporto per Unicode · È possibile creare corpora di testi scritti in quasi tutte le lingue nella sua scrittura nativa - che si tratti di inglese, polacco, giapponese o tailandese - fintanto che sono codificati nel formato UTF-8. Sostenere per ambiguità: · Tag di una parola non sono necessariamente unico: ci potrebbero verificarsi situazioni in cui una parola può essere interpretata in diversi modi (e avere quindi diversi tag ad esso assegnati). Poliqarp in grado di gestire queste situazioni e ti permette di dire se la query deve corrispondere a una delle possibili interpretazioni o tutti loro. Pochi, se del caso, altri concordancers hanno questa capacità. Multi piattaforma: · Poliqarp è scritto in Java e portatile C, ed è quindi disponibile per Windows e la maggior parte dei sistemi Unix-like, tra cui Linux, * BSD e Solaris. Attualmente, supporta solo architetture little-endian, ma il lavoro è in corso per rendere endian-neutrale. Efficiente: · E 'difficile stimare il tempo medio di ricerca di un corpus, in quanto pesantemente dipende dalla struttura della query. Tuttavia, query semplici (per una parola o una frase) prendono pochi secondi anche su corpora contenenti più di un centinaio di milioni di parole (in termini di testi crudi, che è diversi gigabyte, tra cui tag e metadati!) Più complesso introito di query più tempo per l'esecuzione, ma anche in questo caso, si ottengono i risultati non appena si trovano, in modo da non dover aspettare a lungo. Libero: · Poliqarp è un software libero / open source, rilasciato sotto i termini della GNU General Public License. Requisiti: · Ambiente di runtime di Edizione standard Java 2 Cosa c'è di nuovo in questa versione: · Un importante regressione nel bpugprade, che potrebbe portare alla perdita di dati, è stato fissato.


Poliqarp. Software correlato

htmltotext.

Estrai il testo e alcuni metainfo da HTML, coping con pagine malformate nel miglior modo possibile. ...

322

Scarica

Rxp.

RXP è un parser XML convalidatore scritto in C. ...

189

Scarica

Latex2ps.

LaTeX2PS è un'interfaccia grafica per il compito di documenti in lattice. ...

188

Scarica