Testo :: Record :: Deduper

Separare i record di testo completi, parziali e quasi duplicati
Scarica ora

Testo :: Record :: Deduper Classifica e riepilogo

Annuncio pubblicitario

  • Rating:
  • Licenza:
  • Perl Artistic License
  • Prezzo:
  • FREE
  • Nome editore:
  • Kim Ryan
  • Sito web dell'editore:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Testo :: Record :: Deduper Tag


Testo :: Record :: Deduper Descrizione

Separare i record di testo completi, parziali e quasi duplicati Testo :: Record :: Deduper è un modulo perl con record di testo separato completo, parziale e quasi duplicato.Synopsis utilizza il testo :: Record :: Deduper; My $ Deduper = Nuovo testo :: Record :: Deduper; # Trova e rimuovi interi linee che sono duplicate $ deduper-> dedupe_file ("orig.txt"); # Dedupe Comma Separato record, duplicati definiti da diversi campi $ deduper-> field_separator (','); $ deduper-> add_key (field_number => 1, ignore_case => 1); $ deduper-> add_key (field_number => 2, ignore_whitespace => 1); # record unique vai su file nomi file_uniqs.csv, dupli a nomi_dupes.csv $ deduper-> dedupe_file ('nams.csv'); # Trova "vicino" Dupes consentendo un dato nome alias my% nick_names = (bob => 'robert', rob => 'robert'); My $ Near_Deduper = Nuovo testo :: Record :: Deduper (); $ Near_DedUPer-> add_key (field_number => 2, alias => \% nick_names) o morire; $ Near_DedUPer-> dedupe_file ('nams.txt'); # Crea un report di testo, nams_report.txt per identificare tutti i duplicati $ near_deduper-> report_file ('nams.txt', all_records => 1); # Trova "vicino" Dupes in una serie di record, restituzione dei riferimenti # in un array unico e duplicato My ($ UNIQS, $ DUPES) = $ Near_DedUPer-> Dedupe_array (@some_records); Questo modulo consente di scattare un file di testo di registrare e dividerlo in un file di unire e un file di record duplicati.Records sono definiti come un insieme di campi. I campi possono essere separati da spazi, virgole, tabulazioni o qualsiasi altro delimitatore. I record sono separati da una nuova linea. Se nessuna opzione è specificata, un duplicato verrà creato solo quando tutti i campi in un record (l'intera riga) sono duplicati.y Specificando le opzioni Un record duplicato è definito da quali campi o campi parziali devono non si verificano più di una volta per record. Ci sono anche opzioni per ignorare la sensibilità del caso, leader e il trascinamento dello spazio bianco. È possibile definire i duplicati "vicino" o "fuzzy". Questo è fatto creando alias, come bob => robert.Questo modulo è utile per trovare duplicati che sono stati creati da più dati di dati o fusione di record simili. Requisiti: · Perl.


Testo :: Record :: Deduper Software correlato