saral/tools at master · isi-nlp/saral

History

Name		Name	Last commit message	Last commit date
parent directory ..
dataprep		dataprep
README.md		README.md
asrlike.py		asrlike.py
corpus_splitter.py		corpus_splitter.py
gram_overlap.py		gram_overlap.py
morfessor.py		morfessor.py
normal_filter.py		normal_filter.py
report-mt.sh		report-mt.sh
rtg-translate.py		rtg-translate.py
xpath.py		xpath.py

README.md

Tools

Corpus Splitter

Useful for splitting corpus in to train, dev and test, subject to following 2 constraints:

number of token count per each split is set by user
All segments of a document belong to a single a split

Example Usage

$ ./corpus_splitter.py -i .../IARPA_MATERIAL_BASE-1B-BUILD_v1.0/bitext/MATERIAL_BASE-1B-BUILD_bitext.txt \
 -dev 50000 -test 30000 -o .../bitexts/1B/1B-bitext

Usage manual:

./corpus_splitter.py -h
usage: corpus_splitter.py [-h] -i IN -o OUT -dev DEV -test TEST

optional arguments:
  -h, --help            show this help message and exit
  -i IN, --in IN        material data file
  -o OUT, --out OUT     Output prefix
  -dev DEV, --dev DEV   Development size in number of tokens
  -test TEST, --test TEST
                        Test Size in number of tokens

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tools

tools

README.md

Tools

Corpus Splitter

Files

tools

Directory actions

More options

Directory actions

More options

Latest commit

History

tools

Folders and files

parent directory

README.md

Tools

Corpus Splitter