Skip to content

Commit e1dd8fd

Browse files
committed
MAJ mineures Mini-projet
1 parent 0395360 commit e1dd8fd

1 file changed

Lines changed: 13 additions & 13 deletions

File tree

projet_final_2020/mini-projet.ipynb

Lines changed: 13 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -90,18 +90,18 @@
9090
"cell_type": "markdown",
9191
"metadata": {},
9292
"source": [
93-
"La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez :\n",
93+
"La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez utiliser :\n",
9494
"\n",
95-
"1. utiliser [Biopython](https://biopython.org/)\n",
95+
"1. [Biopython](https://biopython.org/)\n",
9696
"\n",
97-
"L'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) peut être utilisée afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n",
97+
"Utiliser l'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n",
9898
"\n",
99-
"2. utiliser les fonctionnalités de base du langage Python\n",
99+
"2. les fonctionnalités de base du langage Python\n",
100100
"\n",
101101
"_Principales étapes :_\n",
102102
"\n",
103-
"* parcours en lecture du fichier multi-FASTA,\n",
104-
"* création d'un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n",
103+
"* parcourir en lecture le fichier multi-FASTA,\n",
104+
"* créer un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n",
105105
"\n",
106106
"**Point d'attention :** dans un fichier au format FASTA, la séquence peut être sur plusieurs lignes."
107107
]
@@ -128,7 +128,7 @@
128128
"source": [
129129
"### Création du *dataframe*\n",
130130
"\n",
131-
"La librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) est utilisée afin de créer un *dataframe* à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n",
131+
"Créer un *dataframe* avec la librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n",
132132
"\n",
133133
"Les colonnes seront nommées de la manière suivante pour plus de lisibilité :\n",
134134
"\n",
@@ -158,7 +158,7 @@
158158
"source": [
159159
"### Filtrage du *dataframe*\n",
160160
"\n",
161-
"Le *dataframe* peut être filtré afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n",
161+
"Filtrer le *dataframe* afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n",
162162
"\n",
163163
"* seqname : identifiant de la séquence de référence\n",
164164
"* start : position de début de la séquence codante\n",
@@ -182,7 +182,7 @@
182182
"source": [
183183
"## Ecriture du fichier multi-FASTA\n",
184184
"\n",
185-
"La sortie attendue doit contenir l'ensemble des séquences codantes du génome au **format FASTA**. Les informations de chaque séquence codante (CDS) présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant l'ensemble des séquences de référence.\n",
185+
"La sortie attendue doit contenir l'ensemble des séquences codantes (CDS) du génome au **format FASTA**. Les informations de chaque CDS présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant les séquences de référence.\n",
186186
"\n",
187187
"Grâce aux positions de début et de fin du *feature* de type CDS, vous pouvez extraire sa séquence à partir du dictionnaire préalablement créé. Dans le cas où l'élement est positionné sur le brin -, il faudra \"inverse complémenter\" la séquence :\n",
188188
"\n",
@@ -194,9 +194,9 @@
194194
"\n",
195195
"Plusieurs possibilités s'offrent à vous :\n",
196196
"\n",
197-
"1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, nous vous encourageons à utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n",
197+
"1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n",
198198
"\n",
199-
"2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, vous devrez implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python."
199+
"2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python."
200200
]
201201
},
202202
{
@@ -214,9 +214,9 @@
214214
"source": [
215215
"## Répartition des différents types de *features* sur le génome\n",
216216
"\n",
217-
"Afin de représenter le nombre des différents types de *features* annotés sur le génome, il est possible de créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html).\n",
217+
"Créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html) afin de représenter le nombre des différents types de *features* annotés sur le génome.\n",
218218
"\n",
219-
"Pour ceci, il vous faudra récupérer le nombre de chaque *features* à partir de votre **dataframe**."
219+
"Récupérer le nombre de chaque *features* à partir de votre **dataframe**."
220220
]
221221
},
222222
{

0 commit comments

Comments
 (0)