Objetivo: Entrenar y subir un modelo BitNet entrenado por el semillero SIMG
Tiempo: El semestre 2025-2, (9 semanas aprox, desde el 10/6)
Enfoque: Entendimiento teórico, capacidades prácticas, y documentar todo el proyecto y trabajo realizado
- Estudio y codificaciones de los Transformers
- Codificación de Bit Linear
- Estudio del entrenamiento del modelo
- Definición Arquitectura y entrenamiento del modelo
- Estudio de resultados
Para cade fase se dispondra minimo de una semana y se usaran las otras 4 semanas sobrantes, para ajustar tiempos segun el equipo lo necesite.
Duracion: 2 semanas
Actividad: Cada persona se encargará de explicar una parte de la arquitectura transformer en un Jupyter NoteBook, que se subirá al repositorio de BitNet en una branch correspondiente al tema.
En este Notebook en sus propias palabras explicara el tema correspondiente, incluyendo las fórmulas del mismo, y la implementación en código.
Una vez terminado el trabajo, este realizará un pull request a la rama main, que asigna a otro compañero para que revise su trabajo. El otro compañero si ve necesario adiciona contenido o realizara alguna corrección del tema. (Peer Review)
Reunion: En el espacio de reunion, cada persona presentara un tema, que correspondera al tema del cual hiso la revesion. Esta presentacion sera grava e idealmente subida al Youtube del semillero.
| # | Tema | Escritor | Revisor |
|---|---|---|---|
| 1 | Embeddings y Positional Encoding | ||
| 2 | Multi-Head Self-Attention (Encoder) | ||
| 3 | Feed-Forward y Normalización (Encoder) | ||
| 4 | Masked Self-Attention (Decoder) | ||
| 5 | Cross-Attention (Encoder–Decoder) | ||
| 6 | Output Layer y Flujo Completo |