Homework_4

<html>
<body>
<h1 data-start="366" data-end="446">🗞️ News Intelligence Laboratory — Text Retrieval + Transformer Classification</h1>
<h3 data-start="448" data-end="461">Purpose</h3>
<p data-start="462" data-end="662">Design an end-to-end <strong data-start="483" data-end="520">Natural Language Processing (NLP)</strong> workflow combining <strong data-start="540" data-end="565">information retrieval</strong> and <strong data-start="570" data-end="624">news classification using transformer-based models</strong> (RoBERTa, DeBERTa, and ModernBERT).</p>
<p data-start="664" data-end="706">The laboratory has two integrated tasks:</p>
<ol data-start="708" data-end="865">
<li data-start="708" data-end="775">
<p data-start="711" data-end="775"><strong data-start="711" data-end="773">Task 1: Building a News Retrieval System from RPP RSS Feed</strong></p>
</li>
<li data-start="776" data-end="865">
<p data-start="779" data-end="865"><strong data-start="779" data-end="863">Task 2: Fine-tuning Transformer Models for AG News Classification and Evaluation</strong></p>
</li>
</ol>
<p data-start="867" data-end="1030">This lab connects real-time news ingestion, embeddings, vector search, and transformer-based categorization to simulate a modern AI-driven media analysis pipeline.</p>
<hr data-start="1032" data-end="1035">
<h2 data-start="1037" data-end="1058">📘 Repository Name</h2>
<p data-start="1059" data-end="1086"><strong data-start="1059" data-end="1086"><code data-start="1061" data-end="1084">Task 1: news-query_RPP-lab</code></strong></p>
<hr data-start="1088" data-end="1091">

<p data-start="1059" data-end="1086"><strong data-start="1059" data-end="1086"><code data-start="1061" data-end="1084">Task 2: News_Classification-lab</code></strong></p>
<hr data-start="1088" data-end="1091">

Important: Generate two repos, one for each task

<h2 data-start="1093" data-end="1108">🧩 Structure</h2>
<h3 data-start="1110" data-end="1173">Task 1 — News Retrieval and Embedding System (RPP RSS Feed)</h3>
<p data-start="1175" data-end="1376"><strong data-start="1175" data-end="1189">Objective:</strong><br data-start="1189" data-end="1192">
Ingest the latest news from RPP Perú (<code data-start="1230" data-end="1250">https://rpp.pe/rss</code>), embed them using <strong data-start="1270" data-end="1294">SentenceTransformers</strong>, and build a retrieval system using <strong data-start="1331" data-end="1343">ChromaDB</strong> orchestrated with <strong data-start="1362" data-end="1375">LangChain</strong>.</p>
<h4 data-start="1378" data-end="1388">Steps</h4>
<p data-start="1390" data-end="1407"><strong data-start="1390" data-end="1407">0️⃣ Load Data</strong></p>
<ul data-start="1408" data-end="1573">
<li data-start="1408" data-end="1485">
<p data-start="1410" data-end="1485">Use <code data-start="1414" data-end="1426">feedparser</code> to extract <strong data-start="1438" data-end="1456">50 latest news</strong> items from the RPP RSS feed.</p>
</li>
<li data-start="1486" data-end="1573">
<p data-start="1488" data-end="1517">Each record should include:</p>
<ul data-start="1520" data-end="1573">
<li data-start="1520" data-end="1573">
<p data-start="1522" data-end="1573"><code data-start="1522" data-end="1529">title</code>, <code data-start="1531" data-end="1544">description</code>, <code data-start="1546" data-end="1552">link</code>, <code data-start="1554" data-end="1565">published</code> (date).</p>
</li>
</ul>
</li>
</ul>
<p data-start="1575" data-end="1595"><strong data-start="1575" data-end="1595">1️⃣ Tokenization</strong></p>
<ul data-start="1596" data-end="1742">
<li data-start="1596" data-end="1647">
<p data-start="1598" data-end="1647">Tokenize a sample article using <strong data-start="1630" data-end="1644"><code data-start="1632" data-end="1642">tiktoken</code></strong>.</p>
</li>
<li data-start="1648" data-end="1742">
<p data-start="1650" data-end="1742">Compute <code data-start="1658" data-end="1670">num_tokens</code> and decide if <strong data-start="1685" data-end="1697">chunking</strong> is needed (based on model context limits).</p>
</li>
</ul>
<p data-start="1744" data-end="1761"><strong data-start="1744" data-end="1761">2️⃣ Embedding</strong></p>
<ul data-start="1762" data-end="1914">
<li data-start="1762" data-end="1866">
<p data-start="1764" data-end="1792">Generate embeddings using:</p>
<pre class="overflow-visible!" data-start="1795" data-end="1866"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-python"><span><span>model_name = </span><span><span class="hljs-string">"sentence-transformers/all-MiniLM-L6-v2"</span></span><span>
</span></span></code></div></div></pre>
</li>
<li data-start="1867" data-end="1914">
<p data-start="1869" data-end="1914">Store embeddings alongside text and metadata.</p>
</li>
</ul>
<p data-start="1916" data-end="1958"><strong data-start="1916" data-end="1958">3️⃣ Create or Upsert Chroma Collection</strong></p>
<ul data-start="1959" data-end="2111">
<li data-start="1959" data-end="2023">
<p data-start="1961" data-end="2023">Use <strong data-start="1965" data-end="1977">ChromaDB</strong> to store documents, metadata, and embeddings.</p>
</li>
<li data-start="2024" data-end="2111">
<p data-start="2026" data-end="2062">Implement a retriever that supports:</p>
<ul data-start="2065" data-end="2111">
<li data-start="2065" data-end="2111">
<p data-start="2067" data-end="2111">Similarity search by keyword or description.</p>
</li>
</ul>
</li>
</ul>
<p data-start="2113" data-end="2134"><strong data-start="2113" data-end="2134">4️⃣ Query Results</strong></p>
<ul data-start="2135" data-end="2299">
<li data-start="2135" data-end="2195">
<p data-start="2137" data-end="2195">Query with a prompt like <em data-start="2162" data-end="2194">“Últimas noticias de economía”</em>.</p>
</li>
<li data-start="2196" data-end="2299">
<p data-start="2198" data-end="2299">Display results in a pandas DataFrame with columns:<br data-start="2249" data-end="2252">
<code data-start="2254" data-end="2299">title | description | link | date_published</code></p>
</li>
</ul>
<p data-start="2301" data-end="2335"><strong data-start="2301" data-end="2335">5️⃣ Orchestrate with LangChain</strong></p>
<ul data-start="2336" data-end="2515">
<li data-start="2336" data-end="2452">
<p data-start="2338" data-end="2393">Implement an end-to-end pipeline in <strong data-start="2374" data-end="2387">LangChain</strong> that:</p>
<ul data-start="2396" data-end="2452">
<li data-start="2396" data-end="2452">
<p data-start="2398" data-end="2452">Loads RSS → Tokenizes → Embeds → Stores → Retrieves.</p>
</li>
</ul>
</li>
<li data-start="2453" data-end="2515">
<p data-start="2455" data-end="2515">Each step should be modular (functions or LangChain chains).</p>
</li>
</ul>
<h4 data-start="2517" data-end="2546">🧮 Deliverables (Task 1)</h4>
- Jupyter Notebook

- requirements.txt
 
- README.md

</li>
</ul>
<hr data-start="2732" data-end="2735">
<h3 data-start="2737" data-end="2799">Task 2 — Transformer News Classification (AG News Dataset)</h3>
<p data-start="2801" data-end="2933"><strong data-start="2801" data-end="2815">Objective:</strong><br data-start="2815" data-end="2818">
Train and compare transformer-based models (<strong data-start="2862" data-end="2873">RoBERTa</strong>, <strong data-start="2875" data-end="2886">DeBERTa</strong>, <strong data-start="2888" data-end="2902">ModernBERT</strong>) on the <strong data-start="2911" data-end="2930">AG News dataset</strong>.</p>
<h4 data-start="2935" data-end="2947">Dataset</h4>
<pre class="overflow-visible!" data-start="2948" data-end="3029"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre! language-python"><span><span><span class="hljs-keyword">from</span></span><span> datasets </span><span><span class="hljs-keyword">import</span></span><span> load_dataset
dataset = load_dataset(</span><span><span class="hljs-string">"ag_news"</span></span><span>)
</span></span></code></div></div></pre>
<p data-start="3030" data-end="3045"><strong data-start="3030" data-end="3045">Categories:</strong></p>
<pre class="overflow-visible!" data-start="3046" data-end="3116"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre!"><span><span>0 - World  
1 - Sports  
2 - Business  
3 - Science/Technology
</span></span></code></div></div></pre>
<h4 data-start="3118" data-end="3128">Steps</h4>
<p data-start="3130" data-end="3154"><strong data-start="3130" data-end="3154">1️⃣ Data Preparation</strong></p>
<ul data-start="3155" data-end="3332">
<li data-start="3155" data-end="3229">
<p data-start="3157" data-end="3180">Split the dataset into:</p>
<ul data-start="3183" data-end="3229">
<li data-start="3183" data-end="3197">
<p data-start="3185" data-end="3197">70% training</p>
</li>
<li data-start="3200" data-end="3216">
<p data-start="3202" data-end="3216">15% validation</p>
</li>
<li data-start="3219" data-end="3229">
<p data-start="3221" data-end="3229">15% test</p>
</li>
</ul>
</li>
<li data-start="3230" data-end="3283">
<p data-start="3232" data-end="3283">Use only <strong data-start="3241" data-end="3263">train + validation</strong> for model tuning.</p>
</li>
<li data-start="3284" data-end="3332">
<p data-start="3286" data-end="3332">Keep test data untouched for final evaluation.</p>
</li>
</ul>
<p data-start="3334" data-end="3419"><strong data-start="3334" data-end="3356">2️⃣ Model Training</strong><br>
Train three models separately using Hugging Face Transformers

</div></div>
<hr data-start="6246" data-end="6249">
<p data-start="3778" data-end="3796"><strong data-start="3778" data-end="3796">3️⃣ Evaluation</strong></p>
<ul data-start="3797" data-end="3977">
<li data-start="3797" data-end="3875">
<p data-start="3799" data-end="3875">Plot <strong data-start="3804" data-end="3827">F1-score comparison</strong> between models using <code data-start="3849" data-end="3861">matplotlib</code> or <code data-start="3865" data-end="3874">seaborn</code>.</p>
</li>
<li data-start="3876" data-end="3977">
<p data-start="3878" data-end="3886">Include:</p>
<ul data-start="3889" data-end="3977">
<li data-start="3889" data-end="3917">
<p data-start="3891" data-end="3917">Training curves (optional)</p>
</li>
<li data-start="3920" data-end="3977">
<p data-start="3922" data-end="3977">Bar chart comparison (RoBERTa vs DeBERTa vs ModernBERT)</p>
</li>
</ul>
</li>
</ul>
<p data-start="3979" data-end="4022"><strong data-start="3979" data-end="4022">4️⃣ Bonus Task — RPP RSS Classification</strong></p>
<ul data-start="4023" data-end="4627">
<li data-start="4023" data-end="4217">
<p data-start="4025" data-end="4217">Pass the <strong data-start="4034" data-end="4058">50 RPP news articles</strong> retrieved in <strong data-start="4072" data-end="4082">Task 1</strong> to an <strong data-start="4089" data-end="4096">LLM</strong> (e.g., ChatGPT API or other open LLM)<br data-start="4134" data-end="4137">
→ Ask it to classify each article into one of the <strong data-start="4189" data-end="4216">four AG News categories</strong>.</p>
</li>
<li data-start="4218" data-end="4279">
<p data-start="4220" data-end="4279">Store LLM classifications as “ground-truth-like” reference.</p>
</li>
<li data-start="4280" data-end="4347">
<p data-start="4282" data-end="4347">Pass the same RPP articles through your <strong data-start="4322" data-end="4346">three trained models</strong>.</p>
</li>
<li data-start="4348" data-end="4410">
<p data-start="4350" data-end="4410">Compare <strong data-start="4358" data-end="4371">F1-scores</strong> between models vs LLM-assigned labels.</p>
</li>
<li data-start="4411" data-end="4627">
<p data-start="4413" data-end="4421">Discuss:</p>
<ul data-start="4424" data-end="4627">
<li data-start="4424" data-end="4472">
<p data-start="4426" data-end="4472">Are model predictions consistent with the LLM?</p>
</li>
<li data-start="4475" data-end="4529">
<p data-start="4477" data-end="4529">Which model aligns best with the LLM classification?</p>
</li>
<li data-start="4532" data-end="4627">
<p data-start="4534" data-end="4627">Hypothesize reasons for discrepancies (e.g., model pretraining domain, context length, etc.).</p>
</li>
</ul>
</li>
</ul>
<h4 data-start="4629" data-end="4658">🧮 Deliverables (Task 2)</h4>
<ul data-start="4659" data-end="4836">
<li data-start="4659" data-end="4697">
<p data-start="4661" data-end="4697"><code data-start="4661" data-end="4697">/notebooks/agnews_train_eval.ipynb</code></p>
</li>
<li data-start="4698" data-end="4738">
<p data-start="4700" data-end="4738"><code data-start="4700" data-end="4727">/data/rpp_classified.json</code> (optional)</p>
</li>
<li data-start="4739" data-end="4786">
<p data-start="4741" data-end="4786">Graph comparing model performance (F1-scores)</p>
</li>
<li data-start="4787" data-end="4836">
<p data-start="4789" data-end="4836">Markdown summary with interpretation of results</p>
</li>
</ul>
<hr data-start="4838" data-end="4841">

### 🧮 Rubric (20 pts)

---

#### **Data & Reproducibility — 4 pts**
- Organized repository structure (`/src`, `/data`, `/notebooks`, `/outputs`).
- Functional Google Colab or Jupyter notebook provided.
- All file paths are **relative**, no absolute directories.
- A complete and functional **requirements.txt** or **pyproject.toml** file included.
- Code runs end-to-end without manual intervention.

---

#### **Task 1: Retrieval System — 6 pts**
- Correct **RSS parsing** from RPP feed ([https://rpp.pe/rss](https://rpp.pe/rss)).
- Proper **tokenization** and token count verification using `tiktoken`.
- Generation of **embeddings** with `SentenceTransformers/all-MiniLM-L6-v2`.
- Creation and management of a **ChromaDB collection** (store + upsert + retrieval).
- **LangChain orchestration** connecting all steps (load → tokenize → embed → store → query).
- Clear output table displaying:  
  `title | description | link | date_published`.

---

#### **Task 2: Transformer Models (AG News) — 6 pts**
- **AG News dataset** properly loaded and split into 70/15/15 (train/validation/test).
- Fine-tuning of **RoBERTa**, **DeBERTa**, and **ModernBERT** models.
- Models trained only on **train + validation**; test set reserved for final evaluation.
- **F1-score** (macro or weighted) computed for each model.
- Test set used only once for final comparison.
- Discussion of model behavior and observed differences.

---

#### **Visualization & Comparison — 2 pts**
- At least one **F1-score comparison chart** (bar plot or table).
- Proper **axis labeling and legend**.
- Markdown discussion or brief interpretation of which model performs best and why.

---

#### **Bonus Task (LLM Classification) — +3 pts**
- Use of an **LLM** (e.g., ChatGPT or open-source equivalent) to classify **50 RPP news items** into AG News categories:  
  `0 - World`, `1 - Sports`, `2 - Business`, `3 - Science/Tech`.
- Comparison of model predictions vs. LLM classifications using **F1-score**.
- Analytical discussion on:
  - Consistency between models and LLM.  
  - Possible reasons for divergences (e.g., domain differences, context length, embeddings).  
- Visualization of comparative F1-scores (**optional but recommended**).

---

#### **Penalties (−0.5 each)**
- Missing or incomplete `README.md`.
- Missing `requirements.txt` or incorrect dependencies.
- Non-reproducible results (unavailable data, missing random seeds, or broken scripts).
- Incomplete or unclear result documentation.


<h2 data-start="6251" data-end="6280">🛠️ Technical Requirements</h2>
<ul data-start="6282" data-end="6510">
<li data-start="6282" data-end="6300">
<p data-start="6284" data-end="6300"><strong data-start="6284" data-end="6300">Python 3.10+</strong></p>
</li>
<li data-start="6301" data-end="6480">
<p data-start="6303" data-end="6316"><strong data-start="6303" data-end="6316">Packages:</strong></p>
<pre class="overflow-visible!" data-start="6319" data-end="6480"><div class="contain-inline-size rounded-2xl relative bg-token-sidebar-surface-primary"><div class="sticky top-9"><div class="absolute end-0 bottom-0 flex h-9 items-center pe-2"><div class="bg-token-bg-elevated-secondary text-token-text-secondary flex items-center gap-4 rounded-sm px-2 font-sans text-xs"></div></div></div><div class="overflow-y-auto p-4" dir="ltr"><code class="whitespace-pre!"><span><span><span class="hljs-attribute">feedparser</span></span><span>
tiktoken
sentence-transformers
chromadb
langchain
datasets
transformers
torch
matplotlib
pandas
seaborn
scikit-learn
</span></span></code></div></div></pre>
</li>
<li data-start="6481" data-end="6510">
<p data-start="6483" data-end="6510">Runable in <strong data-start="6494" data-end="6510">Google Colab</strong></p>
</li>
</ul>
<hr data-start="6512" data-end="6515">
<h2 data-start="6517" data-end="6543">🔁 Recommended Workflow</h2>
<ol data-start="6545" data-end="6923">
<li data-start="6545" data-end="6695">
<p data-start="6548" data-end="6559"><strong data-start="6548" data-end="6559">Task 1:</strong></p>
<ul data-start="6563" data-end="6695">
<li data-start="6563" data-end="6640">
<p data-start="6565" data-end="6640">Parse RSS → Inspect text length → Embed → Store → Query → Display results</p>
</li>
<li data-start="6644" data-end="6695">
<p data-start="6646" data-end="6695">Document examples (5 most recent retrieved items)</p>
</li>
</ul>
</li>
<li data-start="6696" data-end="6781">
<p data-start="6699" data-end="6710"><strong data-start="6699" data-end="6710">Task 2:</strong></p>
<ul data-start="6714" data-end="6781">
<li data-start="6714" data-end="6781">
<p data-start="6716" data-end="6781">Load AG News → Split data → Train models → Compare F1 → Visualize</p>
</li>
</ul>
</li>
<li data-start="6782" data-end="6923">
<p data-start="6785" data-end="6795"><strong data-start="6785" data-end="6795">Bonus:</strong></p>
<ul data-start="6799" data-end="6923">
<li data-start="6799" data-end="6873">
<p data-start="6801" data-end="6873">Classify RPP news via LLM → Test with your 3 models → Compare outcomes</p>
</li>
<li data-start="6877" data-end="6923">
<p data-start="6879" data-end="6923">Discuss interpretability and model alignment</p>
</li>
</ul>
</li>
</ol>
<hr data-start="6925" data-end="6928">
<h2 data-start="6930" data-end="6946">📤 Submission</h2>
<p data-start="6948" data-end="6955">Submit:</p>
<ul data-start="6956" data-end="7104">
<li data-start="6956" data-end="6981">
<p data-start="6958" data-end="6981">GitHub repository URL</p>
</li>
</ul>

in the following Google Sheet:
👉 [Submission Excel – Repository & Dashboard Links]

<p data-start="7106" data-end="7149">Deadline: October 23<code data-start="7116" data-end="7147"></code></p>
</body>
</html>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Homework_4 #158

🗞️ News Intelligence Laboratory — Text Retrieval + Transformer Classification

Purpose

📘 Repository Name

🧩 Structure

Task 1 — News Retrieval and Embedding System (RPP RSS Feed)

Steps

🧮 Deliverables (Task 1)

Task 2 — Transformer News Classification (AG News Dataset)

Dataset

Steps

🧮 Deliverables (Task 2)

🧮 Rubric (20 pts)

Data & Reproducibility — 4 pts

Task 1: Retrieval System — 6 pts

Task 2: Transformer Models (AG News) — 6 pts

Visualization & Comparison — 2 pts

Bonus Task (LLM Classification) — +3 pts

Penalties (−0.5 each)

🛠️ Technical Requirements

🔁 Recommended Workflow

📤 Submission

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Homework_4 #158

Description

🗞️ News Intelligence Laboratory — Text Retrieval + Transformer Classification

Purpose

📘 Repository Name

🧩 Structure

Task 1 — News Retrieval and Embedding System (RPP RSS Feed)

Steps

🧮 Deliverables (Task 1)

Task 2 — Transformer News Classification (AG News Dataset)

Dataset

Steps

🧮 Deliverables (Task 2)

🧮 Rubric (20 pts)

Data & Reproducibility — 4 pts

Task 1: Retrieval System — 6 pts

Task 2: Transformer Models (AG News) — 6 pts

Visualization & Comparison — 2 pts

Bonus Task (LLM Classification) — +3 pts

Penalties (−0.5 each)

🛠️ Technical Requirements

🔁 Recommended Workflow

📤 Submission

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions