Corrige projet.

patrickfuchs · patrickfuchs · commit 5222f32ee528 · 2019-05-09T17:08:37.000+02:00
Ouverture du fichier gff et du fichier de sortie dans le même with.
Commentaires style PEP8.
Renommage des variables.
diff --git a/projet_final/exerciceProjet.py b/projet_final/exerciceProjet.py
@@ -1,61 +1,57 @@
-# Dictionnaire Correspondance Nucléotides (en majuscule car constante)
+# Dictionnaire correspondance nucléotides (en majuscule car constante).
 NUCLEOTIDES_COMPL = {"A" : "T", "T" : "A", "G" : "C", "C" : "G"}
 
-# Ouverture Lecture Fichier multiFASTA
+# Lecture des séquences du fichier multiFASTA.
 with open('S_cerevisiae_chromosomes.fna', 'r') as filin:
+    # Dictionnaire - stockage séquences chromosomiques.
     chromosome = {}
-    # Dictionnaire - Stockage Séquences chromosomiques
-    # Parcours Fichier multiFASTA
+    # Parcours fichier multiFASTA.
     for line in filin:
-        # Ligne Identifiant FASTA
-        if line[0] == '>':
-            # Conservation "BK*" uniquement
-            ids = line.strip().split(' ')
-            id = ids[0].lstrip('>')
-            # Création Clé Dictionnaire
-            chromosome[id] = ''
-            # Ligne Séquence FASTA
+        # Ligne identifiant FASTA.
+        if line.startswith('>'):
+            # Conservation "BK*" uniquement.
+            split_comment_line = line.strip().split(' ')
+            chr_id = split_comment_line[0].lstrip('>')
+            # Création clé dictionnaire.
+            chromosome[chr_id] = ''
         else:
-            # Ajout Séquence Majuscule Dictionnaire
-            chromosome[id] += line.strip().upper()
+            # Ligne séquence FASTA, ajout séquence majuscule ds dictionnaire.
+            chromosome[chr_id] += line.strip().upper()
 
-# Ouverture Lecture Fichier GFF
-with open('S_cerevisiae_annotations.gff', 'r') as filin:
-    # Dictionnaire - Stockage CDS
-    features = {}
-    # Parcours Fichier GFF
+# Ouverture lecture fichier GFF (https://fr.wikipedia.org/wiki/General_feature_format)
+# et du fichier de sortie multiFASTA.
+with open('S_cerevisiae_annotations.gff', 'r') as filin, \
+     open('S_cerevisiae_cds.fasta', 'w') as filout:
+    # Parcours fichier GFF.
     for line in filin:
-        # Nettoyage retour à la ligne puis split() sur les tabulations
+        # Nettoyage retour à la ligne puis split() sur les tabulations.
         champs = line.strip().split("\t")
-        # On évite les lignes de commentaire et on ne traite que les CDS
-        if len(champs) == 9 and champs[2] == 'CDS':
-            # Colonne Attributs
+        # On évite les lignes de commentaire et on ne traite que les CDS.
+        if not line.startswith("#") and champs[2] == 'CDS':
+            # id du chromosome.
+            chr_id = champs[0]
+            # Attention, les listes Python commence à 0 !
+            debut = int(champs[3]) - 1
+            # Attention, dans les tranches, le 2ème élément n'est pas inclus !
+            fin = int(champs[4])
+            # Sens du brin.
+            brin = champs[6]
+            # Récupération de l'id de la CDS.
             attributs = champs[8].split(";")
-            cds = attributs[0].split("=")[1]
-            # Attention ! Les listes Python commence à 0 !
-            start = int(champs[3])-1
-            # Attention ! Dans les tranches, le 2ème élément n'est pas inclus !
-            stop = int(champs[4])
-            # Récupération Séquences dans Dictionnaire
-            sequence = chromosome[champs[0]][start:stop]
-            # Si Brin -
-            if champs[6] == '-':
+            id_cds = attributs[0].split("=")[1]
+            # Récupération de la séquence.
+            sequence = chromosome[chr_id][debut:fin]
+            # Traitement brin complémentaire.
+            if brin == '-':
                 seq_tmp = ''
-                # Parcours de la séquence
+                # Parcours de la séquence.
                 for base in sequence:
-                    # on construit le brin complémentaire
+                    # On construit le brin complémentaire.
                     seq_tmp += NUCLEOTIDES_COMPL[base]
-                # puis on l'inverse
+                # Puis on l'inverse.
                 sequence = seq_tmp[::-1]
-            # Stockage CDS dans Dictionnaire
-            features[cds] = sequence
-                        
-# Ouverture Ecriture Fichier multiFASTA
-with open('S_cerevisiae_cds.fasta', 'w') as filout:
-    # Parcours Dictionnaire CDS
-    for cds in features.keys():
-        # Ecriture Identifiant
-        filout.write(">"+cds+"\n")
-        # Ecriture Séquence avec découpage par 60
-        for n in range(0, len(features[cds]), 60):
-            filout.write(features[cds][n:n+60]+"\n")
+            # Ecriture identifiant dans le fichier de sortie.
+            filout.write("> {}\n".format(id_cds))
+            # Ecriture séquence (60 nucléotides par ligne).
+            for n in range(0, len(sequence), 60):
+                filout.write("{}\n".format(sequence[n:n+60]))