quick fix to not OOM main speedrun script

2026-01-30 04:22:02 +00:00 · 2026-01-26 22:31:42 +00:00
parent 85b3e95e09
commit 8630d32be4
2 changed files with 3 additions and 3 deletions
--- a/runs/speedrun.sh
+++ b/runs/speedrun.sh
@@ -58,8 +58,8 @@ python -m nanochat.dataset -n 8
 # See comment below for why 370 is the right number here
 python -m nanochat.dataset -n 370 &
 DATASET_DOWNLOAD_PID=$!
-# train the tokenizer with vocab size 2**16 = 65536 on ~2B characters of data
-python -m scripts.tok_train --max-chars=2000000000 --vocab-size=65536
+# train the tokenizer with vocab size 2**15 = 32768 on ~2B characters of data
+python -m scripts.tok_train
 # evaluate the tokenizer (report compression ratio etc.)
 python -m scripts.tok_eval

--- a/scripts/tok_train.py
+++ b/scripts/tok_train.py
@@ -14,7 +14,7 @@ from nanochat.dataset import parquets_iter_batched
 # Parse command line arguments

 parser = argparse.ArgumentParser(description='Train a BPE tokenizer')
-parser.add_argument('--max-chars', type=int, default=10_000_000_000, help='Maximum characters to train on (default: 10B)')
+parser.add_argument('--max-chars', type=int, default=2_000_000_000, help='Maximum characters to train on (default: 10B)')
 parser.add_argument('--doc-cap', type=int, default=10_000, help='Maximum characters per document (default: 10,000)')
 parser.add_argument('--vocab-size', type=int, default=32768, help='Vocabulary size (default: 32768 = 2^15)')
 args = parser.parse_args()