Merge branch 'master' of https://github.com/DU-Bii/module-2-Python

sderozier · sderozier · commit 9074177b28fa · 2020-06-10T20:14:29.000+02:00
diff --git a/index.md b/index.md
@@ -306,11 +306,15 @@ Les solutions des exercices seront mises en ligne le jeudi 4 juin 2020.
 
 Souvenez-vous par ailleurs que vous aurez un QCM noté à faire après la séance du vendredi 5 juin 2020.
 
-*Ajout du 09/0/6/2020* :
+*Ajout du 09/06/2020* :
 
 - La [vidéo](https://www.youtube.com/watch?v=_YOTDfST7z0) de notre visio du 5 juin 2020 sur NumPy si vous souhaitez y revenir.
 - Lien vers le [QCM](https://moodlesupd.script.univ-paris-diderot.fr/mod/quiz/view.php?id=247229) à faire avant le 18 juin 2020.
 
+*Ajout du 10/06/2020* : 
+
+- La [vidéo](https://youtu.be/IM7419iEpAA) de correction de l'exercice 13.6.3 comptage des mots de 2 lettres (avec des dictionnaires).
+
 ### Séance 6
 
 Initialement prévue le Jeudi 26 mars : 9h - 12h
diff --git a/projet_final_2019/exerciceProjet.py b/projet_final_2019/exerciceProjet.py
@@ -0,0 +1,57 @@
+# Dictionnaire correspondance nucléotides (en majuscule car constante).
+NUCLEOTIDES_COMPL = {"A" : "T", "T" : "A", "G" : "C", "C" : "G"}
+
+# Lecture des séquences du fichier multiFASTA.
+with open('S_cerevisiae_chromosomes.fna', 'r') as filin:
+    # Dictionnaire - stockage séquences chromosomiques.
+    chromosome = {}
+    # Parcours fichier multiFASTA.
+    for line in filin:
+        # Ligne identifiant FASTA.
+        if line.startswith('>'):
+            # Conservation "BK*" uniquement.
+            split_comment_line = line.strip().split(' ')
+            chr_id = split_comment_line[0].lstrip('>')
+            # Création clé dictionnaire.
+            chromosome[chr_id] = ''
+        else:
+            # Ligne séquence FASTA, ajout séquence majuscule ds dictionnaire.
+            chromosome[chr_id] += line.strip().upper()
+
+# Ouverture lecture fichier GFF (https://fr.wikipedia.org/wiki/General_feature_format)
+# et du fichier de sortie multiFASTA.
+with open('S_cerevisiae_annotations.gff', 'r') as filin, \
+     open('S_cerevisiae_cds.fasta', 'w') as filout:
+    # Parcours fichier GFF.
+    for line in filin:
+        # Nettoyage retour à la ligne puis split() sur les tabulations.
+        champs = line.strip().split("\t")
+        # On évite les lignes de commentaire et on ne traite que les CDS.
+        if not line.startswith("#") and champs[2] == 'CDS':
+            # id du chromosome.
+            chr_id = champs[0]
+            # Attention, les listes Python commence à 0 !
+            debut = int(champs[3]) - 1
+            # Attention, dans les tranches, le 2ème élément n'est pas inclus !
+            fin = int(champs[4])
+            # Sens du brin.
+            brin = champs[6]
+            # Récupération de l'id de la CDS.
+            attributs = champs[8].split(";")
+            id_cds = attributs[0].split("=")[1]
+            # Récupération de la séquence.
+            sequence = chromosome[chr_id][debut:fin]
+            # Traitement brin complémentaire.
+            if brin == '-':
+                seq_tmp = ''
+                # Parcours de la séquence.
+                for base in sequence:
+                    # On construit le brin complémentaire.
+                    seq_tmp += NUCLEOTIDES_COMPL[base]
+                # Puis on l'inverse.
+                sequence = seq_tmp[::-1]
+            # Ecriture identifiant dans le fichier de sortie.
+            filout.write("> {}\n".format(id_cds))
+            # Ecriture séquence (60 nucléotides par ligne).
+            for n in range(0, len(sequence), 60):
+                filout.write("{}\n".format(sequence[n:n+60]))