MAJ mineures Mini-projet

sderozier · sderozier · commit e1dd8fdefb15 · 2020-06-10T20:14:21.000+02:00
diff --git a/projet_final_2020/mini-projet.ipynb b/projet_final_2020/mini-projet.ipynb
@@ -90,18 +90,18 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez :\n",
+    "La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez utiliser :\n",
     "\n",
-    "1. utiliser [Biopython](https://biopython.org/)\n",
+    "1. [Biopython](https://biopython.org/)\n",
     "\n",
-    "L'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) peut être utilisée afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n",
+    "Utiliser l'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n",
     "\n",
-    "2. utiliser les fonctionnalités de base du langage Python\n",
+    "2. les fonctionnalités de base du langage Python\n",
     "\n",
     "_Principales étapes :_\n",
     "\n",
-    "* parcours en lecture du fichier multi-FASTA,\n",
-    "* création d'un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n",
+    "* parcourir en lecture le fichier multi-FASTA,\n",
+    "* créer un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n",
     "\n",
     "**Point d'attention :** dans un fichier au format FASTA, la séquence peut être sur plusieurs lignes."
    ]
@@ -128,7 +128,7 @@
    "source": [
     "### Création du *dataframe*\n",
     "\n",
-    "La librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) est utilisée afin de créer un *dataframe* à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n",
+    "Créer un *dataframe* avec la librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n",
     "\n",
     "Les colonnes seront nommées de la manière suivante pour plus de lisibilité :\n",
     "\n",
@@ -158,7 +158,7 @@
    "source": [
     "### Filtrage du *dataframe*\n",
     "\n",
-    "Le *dataframe* peut être filtré afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n",
+    "Filtrer le *dataframe* afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n",
     "\n",
     "* seqname : identifiant de la séquence de référence\n",
     "* start : position de début de la séquence codante\n",
@@ -182,7 +182,7 @@
    "source": [
     "## Ecriture du fichier multi-FASTA\n",
     "\n",
-    "La sortie attendue doit contenir l'ensemble des séquences codantes du génome au **format FASTA**. Les informations de chaque séquence codante (CDS) présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant l'ensemble des séquences de référence.\n",
+    "La sortie attendue doit contenir l'ensemble des séquences codantes (CDS) du génome au **format FASTA**. Les informations de chaque CDS présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant les séquences de référence.\n",
     "\n",
     "Grâce aux positions de début et de fin du *feature* de type CDS, vous pouvez extraire sa séquence à partir du dictionnaire préalablement créé. Dans le cas où l'élement est positionné sur le brin -, il faudra \"inverse complémenter\" la séquence :\n",
     "\n",
@@ -194,9 +194,9 @@
     "\n",
     "Plusieurs possibilités s'offrent à vous :\n",
     "\n",
-    "1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, nous vous encourageons à utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n",
+    "1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n",
     "\n",
-    "2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, vous devrez implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python."
+    "2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python."
    ]
   },
   {
@@ -214,9 +214,9 @@
    "source": [
     "## Répartition des différents types de *features* sur le génome\n",
     "\n",
-    "Afin de représenter le nombre des différents types de *features* annotés sur le génome, il est possible de créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html).\n",
+    "Créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html) afin de représenter le nombre des différents types de *features* annotés sur le génome.\n",
     "\n",
-    "Pour ceci, il vous faudra récupérer le nombre de chaque *features* à partir de votre **dataframe**."
+    "Récupérer le nombre de chaque *features* à partir de votre **dataframe**."
    ]
   },
   {