| JTOKTOKISER. Una soluzione software gratuita che combina una serie di tokenister che si occupano intuitivamente con il linguaggio naturale |
Scarica ora |
JTOKTOKISER. Classifica e riepilogo
- Nome editore:
- Andy Roberts
- Sistemi operativi:
- Windows All / Unix
- Dimensione del file:
- 83 KB
JTOKTOKISER. Tag
JTOKTOKISER. Descrizione
Le stringhe del tokenising nei suoi token costituenti / parole possono rivelarsi ingannevoli per esempi non banali. In particolare, quando hai a che fare con il linguaggio naturale, devi prendere in considerazione anche la punteggiatura per isolare le parole. Ciascuno dei tokenister adotta una struttura simile a Java.util.StringTokenizer in termini di come istanziare le classi ed estrarre i token. Ciò significa che sono semplici da usare. È possibile digitare, copiare e incollare o anche caricare un file di testo nell'applicazione. Devi selezionare il tuo tokeniser di scelta (e qualsiasi opzione di interesse) e quindi premere il pulsante tokenise. I tuoi risultati verranno visualizzati non appena vengono elaborati e hai la possibilità di salvare i risultati in file, se si sceglie. La GUI è particolarmente utile per sperimentare i metodi di takenizzazione in un ambiente di insegnamento (come un corso NLP). Sarà anche di interesse per coloro che desiderano utilizzare la biblioteca JTOKokener, ma non hanno l'esperienza di programmazione Java per utilizzare direttamente il codice. JTOKokeniser comprende quattro tokenister che si estendono tutti da una classe Tokeniser Abtratta: · WhiteSpaceTokeniser - Questo divide una stringa su tutti gli accantonamenti dello spazio bianco, che includono spazi, nuove linee, schede e linementi. · StringTokokizer - Questo è fondamentalmente lo stesso di Java.util.String Tokenizer con alcuni metodi extra (e si estende dal tokeniser). Il suo comportamento predefinito è quello di agire come un fattore di facetetocetkokener, tuttavia, è possibile specificare un set di caratteri da utilizzare per indicare i delimitatori di parole. · RegextKokokiser: questo tokeniser è molto più flessibile in quanto è possibile utilizzare le espressioni regolari per definire un token. Quindi, "\ w +" significa ogni volta che corrisponde a una o più lettere, considererà una parola. Per impostazione predefinita, utilizza un'espressione regolare equivalente a un tokeniser dello spazio bianco. · Regexseparatortorkokener: questo può essere pensato come un cervello avanzato. Mentre StringTokokener è limitato alla definizione del delimitatori come un insieme di personaggi individuali, il regexseparatortorykyeriser può utilizzare espressioni regolari per un approccio più ricco e flessibile. · Interruzione di interruzione: uno dei tokenister più sofisticati della Biblioteca, anche se dovrebbe essere utilizzato solo sulle corde del linguaggio naturale per isolare le parole. Viene anche con regole integrate su come trovare parole, sapendo come ignorare la punteggiatura, ecc. · SentenceTokeniser: usa anche una rottura come quanto sopra, ma sintonizzato verso la ricerca dei confini della frase. I "token" in questo tokeniser sono infatti frasi individuali.
JTOKTOKISER. Software correlato