Simple log functions

Added code to generate training batches
CosineAnnealing with optimizer Group
2026-01-07 01:25:47 -05:00 · 2026-01-07 01:15:18 -05:00 · 2026-01-07 00:26:04 -05:00 · 2026-01-06 21:38:12 -05:00
4 changed files with 89 additions and 2 deletions
--- a/data.py
+++ b/data.py
@ -0,0 +1,39 @@
 import numpy as np
 import threading
 import queue
 def startDataWorker(dataset,encoding,batch_size,block_size):
    data_q = queue.Queue(maxsize=100)
    t = threading.Thread(target=data_worker, args=(data_q, dataset, encoding, batch_size, block_size), daemon=True)
    t.start()
    while (1):
        try:
            bx, by = data_q.get(timeout=30)
        except queue.Empty:
            continue
        yield (bx,by)
 def dataWorker(q, dataset, encoding, batch_size, block_size):
    batch_x, batch_y = [], []
    while(1):
        for text in dataset["text"]:
            tokens = encoding.encode(text)
            for i in range(0, len(tokens)-block_size-1,block_size):
                x = [encoding.bos_token_id] + tokens[i:i+block_size-1]
                y = tokens[i:i+block_size]
                if len(x) < block_size:
                    pad = len(x)-(block_size-1)
                    x = x + [encoding.eos_token_id] + [encoding.pad_token_id] * pad
                if len(y) < block_size:
                    pad = len(y)-(block_size-1)
                    y = y + [encoding.eos_token_id] + [encoding.pad_token_id] * pad
                batch_x.append(x)
                batch_y.append(y)
            if len(batch_x) == batch_size:
                q.put((np.array(batch_x, dtype=np.int32),
                       np.array(batch_y, dtype=np.int32)))
                batch_x, batch_y = [], []
--- a/log.py
+++ b/log.py
@ -0,0 +1,15 @@
 from tinygrad.nn.state import safe_save
 import csv
 import os
 def logLoss(step, loss):
    path = "loss.csv"
    exists = os.path.isfile(path)
    with open(path, mode='a', newline='') as f:
        writer = csv.writer(f)
        if not exists:
            writer.writerow(['step', 'loss'])
        writer.writerow([step, float(loss)])
 def logModel(step,stateDict):
    safe_save(stateDict, f"gpt_{step}.safetensors")
--- a/model.py
+++ b/model.py
@ -58,13 +58,18 @@ class Block:
        return self
 class Transformer():
-    def __init__(self,vocab_size,embed_size,n_heads,n_blocks):
+    def __init__(self,vocab_size,embed_size,n_heads,n_blocks,max_len):
        self.tok_embed = nn.Embedding(vocab_size,embed_size)
        self.pos_embed = nn.Embedding(block_size,embed_size)
        self.pos_idx = Tensor.arange(max_len, requires_grad=False)
        self.blocks = [Block(embed_size,n_heads) for _ in range(n_blocks)]
        self.norm = nn.RMSNorm(embed_size)
        self.output = nn.Linear(embed_size,vocab_size,bias=False)
    def __call__(self,x):
-        x = self.tok_embed(x)
+        B,T = x.shape
        pos_embeds = self.pos_embed(self.pos_idx[:T])
        x = self.tok_embed(x) + pos_embeds
        x = x.sequential(self.blocks)
        x = self.norm(x)
        return self.output(x)
--- a/optm.py
+++ b/optm.py
@ -0,0 +1,28 @@
 from tinygrad import Tensor
 import math
 class CosineLR:
    def __init__(self,optm,totalSteps,minlr):
        self.optm = optm
        self.maxlr = optm.lr
        self.minlr = minlr
        self.totalSteps = totalSteps
        self.steps = 0
    def step(self):
        self.optm.lr = self.minlr + 0.5 * (self.maxlr - self.minlr) * (1 + math.cos((step / self.totalSteps) * math.pi))
        self.optm.step()
        self.steps += 1
    def zero_grad(self):
        self.optm.zero_grad()
 def llmOptimizer(params,steps,minlr):
    muon_params = [p for p in params if len(p.shape) >= 2]
    adamw_params = [p for p in params if len(p.shape) < 2]
    o1 = nn.optim.Muon(muon_params, lr=hypr["starting_lr"])
    o2 = nn.optim.AdamW(adamw_params, lr=hypr["starting_lr"])
    optimizer = nn.optim.OptimizerGroup([o1,o2])
    return CosineLR(optimizer,steps,minlr)
Author	SHA1	Message	Date
k	007c96e91b	Simple log functions	2026-01-07 01:25:47 -05:00
k	6daa8ec46c	Added code to generate training batches	2026-01-07 01:15:18 -05:00
k	229c564811	CosineAnnealing with optimizer Group	2026-01-07 00:26:04 -05:00
k	478010c8cc	added Positional encodeings	2026-01-06 21:38:12 -05:00