|
90 | 90 | "cell_type": "markdown", |
91 | 91 | "metadata": {}, |
92 | 92 | "source": [ |
93 | | - "La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez :\n", |
| 93 | + "La lecture du fichier multi-FASTA peut se faire de différentes manières. Au choix, vous pouvez utiliser :\n", |
94 | 94 | "\n", |
95 | | - "1. utiliser [Biopython](https://biopython.org/)\n", |
| 95 | + "1. [Biopython](https://biopython.org/)\n", |
96 | 96 | "\n", |
97 | | - "L'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) peut être utilisée afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n", |
| 97 | + "Utiliser l'interface [SeqIO](https://biopython.org/wiki/SeqIO) de [Biopython](https://biopython.org/) afin de convertir le fichier multi-FASTA contenant les séquences de référence en dictionnaire.\n", |
98 | 98 | "\n", |
99 | | - "2. utiliser les fonctionnalités de base du langage Python\n", |
| 99 | + "2. les fonctionnalités de base du langage Python\n", |
100 | 100 | "\n", |
101 | 101 | "_Principales étapes :_\n", |
102 | 102 | "\n", |
103 | | - "* parcours en lecture du fichier multi-FASTA,\n", |
104 | | - "* création d'un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n", |
| 103 | + "* parcourir en lecture le fichier multi-FASTA,\n", |
| 104 | + "* créer un dictionnaire (clé : nom de la séquence chromosomique , valeur : séquence chromosomique).\n", |
105 | 105 | "\n", |
106 | 106 | "**Point d'attention :** dans un fichier au format FASTA, la séquence peut être sur plusieurs lignes." |
107 | 107 | ] |
|
128 | 128 | "source": [ |
129 | 129 | "### Création du *dataframe*\n", |
130 | 130 | "\n", |
131 | | - "La librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) est utilisée afin de créer un *dataframe* à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n", |
| 131 | + "Créer un *dataframe* avec la librairie [Pandas](https://python.sdv.univ-paris-diderot.fr/17_modules_interet_bioinfo/#174-module-pandas) à partir du fichier au [format GFF3](http://gmod.org/wiki/GFF3) contenant l'annotation.\n", |
132 | 132 | "\n", |
133 | 133 | "Les colonnes seront nommées de la manière suivante pour plus de lisibilité :\n", |
134 | 134 | "\n", |
|
158 | 158 | "source": [ |
159 | 159 | "### Filtrage du *dataframe*\n", |
160 | 160 | "\n", |
161 | | - "Le *dataframe* peut être filtré afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n", |
| 161 | + "Filtrer le *dataframe* afin de ne conserver que les *features* de type **CDS** et les colonnes d'intérêt suivantes :\n", |
162 | 162 | "\n", |
163 | 163 | "* seqname : identifiant de la séquence de référence\n", |
164 | 164 | "* start : position de début de la séquence codante\n", |
|
182 | 182 | "source": [ |
183 | 183 | "## Ecriture du fichier multi-FASTA\n", |
184 | 184 | "\n", |
185 | | - "La sortie attendue doit contenir l'ensemble des séquences codantes du génome au **format FASTA**. Les informations de chaque séquence codante (CDS) présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant l'ensemble des séquences de référence.\n", |
| 185 | + "La sortie attendue doit contenir l'ensemble des séquences codantes (CDS) du génome au **format FASTA**. Les informations de chaque CDS présentes dans le *dataframe* vont permettre d'extraire leurs séquences à partir du dictionnaire contenant les séquences de référence.\n", |
186 | 186 | "\n", |
187 | 187 | "Grâce aux positions de début et de fin du *feature* de type CDS, vous pouvez extraire sa séquence à partir du dictionnaire préalablement créé. Dans le cas où l'élement est positionné sur le brin -, il faudra \"inverse complémenter\" la séquence :\n", |
188 | 188 | "\n", |
|
194 | 194 | "\n", |
195 | 195 | "Plusieurs possibilités s'offrent à vous :\n", |
196 | 196 | "\n", |
197 | | - "1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, nous vous encourageons à utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n", |
| 197 | + "1. Si vous avez utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, utiliser également l'interface [SeqIO](https://biopython.org/wiki/SeqIO) et l'objet [SeqRecord](https://biopython.org/wiki/SeqRecord) de [Biopython](https://biopython.org/) afin d'écrire le fichier de sortie au format attendu. La fonction `reverse_complement()` vous sera d'une grande aide.\n", |
198 | 198 | "\n", |
199 | | - "2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, vous devrez implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python." |
| 199 | + "2. Si vous n'avez pas utilisé [Biopython](https://biopython.org/) pour lire le fichier multi-FASTA, implémenter vous-même le *reverse complement* avec les fonctionnalités de base du langage Python." |
200 | 200 | ] |
201 | 201 | }, |
202 | 202 | { |
|
214 | 214 | "source": [ |
215 | 215 | "## Répartition des différents types de *features* sur le génome\n", |
216 | 216 | "\n", |
217 | | - "Afin de représenter le nombre des différents types de *features* annotés sur le génome, il est possible de créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html).\n", |
| 217 | + "Créer un graphique sous forme de barre horizontale via la librairie [Matplotlib](https://matplotlib.org/3.2.1/gallery/lines_bars_and_markers/barh.html) afin de représenter le nombre des différents types de *features* annotés sur le génome.\n", |
218 | 218 | "\n", |
219 | | - "Pour ceci, il vous faudra récupérer le nombre de chaque *features* à partir de votre **dataframe**." |
| 219 | + "Récupérer le nombre de chaque *features* à partir de votre **dataframe**." |
220 | 220 | ] |
221 | 221 | }, |
222 | 222 | { |
|
0 commit comments