Testo :: ngrams.

Testo :: Ngrams è un'analisi di ngramma flessibile (per personaggi, parole e altro).
Scarica ora

Testo :: ngrams. Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • Perl Artistic License
  • Prezzo:
  • FREE
  • Nome editore:
  • Simon Cozens
  • Sito web dell'editore:
  • http://search.cpan.org/~simon/Sub-Versive-0.01/Versive.pm

Testo :: ngrams. Tag


Testo :: ngrams. Descrizione

Testo :: Ngrams è un'analisi di ngramma flessibile (per personaggi, parole e altro). Testo :: Ngrams è un'analisi di ngramma flessibile (per caratteri, parole e altro) .synopsis per il carattere predefinito N-Gram Analysis of String: Usa testo :: ngrams; My $ ng3 = testo :: ngrams-> nuovo; $ ng3-> process_text ('abcdefg1235678hijklmnop'); Stampa $ ng3-> to_string; my @ngramsarray = $ ng3-> get_ngram; si possono anche alimentare i token manualmente: utilizzare il testo :: ngrams; My $ ng3 = testo :: ngrams-> nuovo; $ ng3-> feed_tokerens ('a'); $ ng3-> feed_tookens ('b'); $ ng3-> feed_tookens ('c'); $ ng3-> feed_tookens ('D'); $ ng3-> feed_tookens ('e'); $ ng3-> feed_tokerens ('f'); $ ng3-> feed_tookens ('g'); $ ng3-> feed_tookens ('h'); possiamo scegliere n-grammi di varie dimensioni, ad es. : My $ ng = testo :: ngrams-> nuovo (tipo => byte); My $ ng = testo :: ngrams-> nuovo (tipo => parola); My $ NG = Testo :: ngrams-> Nuovo (tipo => utf8); per elaborare un elenco di file: $ ng-> process_files ('somefile.txt', 'otherfile.txt'); Questo modulo implementa il testo n- Analisi Gram, supportando diversi tipi di analisi, incluso carattere e parola N-grams.Il modulo Testo :: Ngrams è molto flessibile. Ad esempio, consente all'utente di alimentare manualmente una sequenza di qualsiasi token. Gestisce diversi tipi di tokens (carattere, parola) e consente anche molta flessibilità nel riconoscimento automatico e al mangime dei token e nel modo in cui sono combinati in un n-grammo. Conta tutte le frequenze di N-Gram fino alla massima lunghezza specificata. Il formato di output è pensato per essere praticamente leggibile dall'uomo, mentre caricabile anche dal modulo. Il modulo può essere utilizzato dalla riga di comando tramite lo script ngrams.pl fornito con il pacchetto.limitazioni: · Se un utente personalizza un tipo, È possibile che un N-Gram risultante sarà ambiguo. In questo modo, a diversi N-grams può essere contato come uno. Con i tipi predefiniti di n-grammi, questo non dovrebbe accadere. Ad esempio, se un utente sceglie che un token può contenere uno spazio e usa lo spazio come separatore di n-gram, quindi un trigram come questa "x x x x" è ambiguo. · Metodo processo_file non gestisce i token multi-line per impostazione predefinita. Questo può essere risolto, ma non sembra valere la complicazione del codice. Ci sono vari modi per aggirare questo se uno ha davvero bisogno di tali token: un modo è preliminare loro. Un altro modo è quello di leggere il più testo come necessario alla volta quindi per utilizzare Process_Text, che gestisce i token multi-line. Requisiti: · Perl.


Testo :: ngrams. Software correlato