Anglais; Communication scientifique; Présentation du pré-mémoire ou d'un stage; Colloque.

Être capable d’analyser correctement des données biologiques multivariées en pratique. En particuliers, les méthodes d’ordination (ACP, AFC, MFA) et de classifications (amenant à la réalisation d’un dendrogramme) doivent être parfaitement maîtrisées à la fin du cours. Les étudiants apprennent à résoudre des cas concrets en posant correctement les questions d’un point de vue statistique. Ils apprennent également à tirer des conclusions appropriées par rapport à l’analyse effectuée, et à formuler les questions de manière rigoureuse. Nous insistons sur la présentation des résultats (rédaction de rapports) et sur l’utilisation de logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

  • Classification ascendante hiérarchique, K-moyennes, matrices de distances, indices de biodiversité
  • ACP et AFC
  • AFM et big data
  • Bases de données et MDS
  • Données ouvertes et SOM

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques uni- et bivariées de base, y compris ANOVA, variance, covariance et correlation.

Comprendre et employer les outils informatiques et statistiques nécessaires aux science des données, en particuliers, l'importation, le remaniement et la transformation des données, la visualisation sous forme de graphiques, et l'inférence statistique. Pouvoir présenter clairement et rigoureusement les résultats de ces analyses dans un rapport scientifique de manière reproductible. Etre capable d'analyser des données biologiques usuelles en pratique.

Contenu

  • Probabilités et distributions
  • Test Chi carré
  • Intervalle de confiance, test de Student, test de Wilcoxon
  • Analyse de variance à un facteur
  • Analyse de variance à deux facteurs
  • Corrélation et test de corrélation

Compétences préalables

Notions de base d'utilisation d'un ordinateur. Notions de base en mathématique: arithmétique, y compris logarithme et exponentielle, systèmes de coordonnées cartésiennes et géométrie élémentaire dans le plan et dans un espace à trois dimensions.

Ecosyst Bioc Chaîne trophique; Phytoplancton; Producteurs primaires; Zooplancton; consommateurs; modèle « top-down », « bottom-up », « wasp-waist  Migration verticale; Distribution en patch; Upwelling et zones frontales; Zone intertidate; Zonation; Macrophytes; Caulerpa; Herbiers à phan Mangrove; Pal Zones sableuses; R Coraux hermatypiques; Holobionte; Poissons p Poissons r Modèle dit de loterie; Faune des grands fonds; Fumeurs; Extrêmophiles.

Images bitmap vs vectorielles ; Résolution, définition, dimension ; Couleurs ; Compression; Dessin au trait, Chambre claire, Calque; Micro- Macrophotographie; Scanner; PDF; Conversion; Numérisation vectorielles; Traitement et création de planches; Numérotation des figures, légendes, annotations, échelles; Supports et sauvegardes; Analyse d'image; Extraction de données à partir d'images biologiques (distances, d'angles, de surfaces sur des images); Comptage et mesure de particules. 

Comprendre et employer les outils informatiques et statistiques nécessaires aux science des données, en particuliers, l'importation, le remaniement et la transformation des données, la visualisation sous forme de graphiques, et l'inférence statistique. Pouvoir présenter clairement et rigoureusement les résultats de ces analyses dans un rapport scientifique de manière reproductible. Etre capable d'analyser des données biologiques usuelles en pratique.

Contenu

  • Initiation aux logiciels (Logiciels R, RStudio, git & Markdown).
  • Visualisation I, nuage de points et R Markdown (Quarto)
  • Visualisation II, histogramme, densité, violon
  • Visualisation III, barres, camembert, boxplot, composition et moteurs graphiques
  • Traitement des données I, importation, conversion, dplyr
  • Traitement des données II, contingence, échantillonnage, traitement multi-tableaux avec tidyr

Compétences préalables

Notions de base d'utilisation d'un ordinateur. Notions de base en mathématique: arithmétique, y compris logarithme et exponentielle, systèmes de coordonnées cartésiennes et géométrie élémentaire dans le plan et dans un espace à trois dimensions.

Etre capable d'analyser correctement des données biologiques variées. En particuliers, les différentes modèles linéaires (modèle linéaire, modèle linéaire généralisé, modèles non-linéaire,...). Apprendre à tirer des conclusions appropriées par rapport à l'analyse effectuée, et à les formuler de manière rigoureuse. Nous insistons également sur la présentation des résultats (rédaction de rapports) et sur l'utilisation de logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

Les modules de cette AA sont :

  • Régression linéaire simple et analyse des résidus (partie I)
  • Régressions linéaire multiple et polynomiale, analyse des résidus (partie II)
  • Modèles linéaires et matrices de contraste
  • Modèles linéaires généralisés
  • Modèles non linéaire

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques uni- et bivariées de base, y compris ANOVA, variance, covariance et corrélation.

Être capable d'entraîner et d'utiliser un classifieur (apprentissage machine pour la classification), d’analyser correctement des données biologiques ayant une dépendance temporelle, et de traiter des données géoréférencées (y compris la réalisation de cartes). Être capable de présenter ses résultats de manière reproductible (rédaction de rapports) et utiliser des logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

  • Classification supervisée I, LDA, principe général, matrice de confusion, métriques
  • Classification supervisée II, validation croisée, AUC, k-nn, lvq, rpart, random forest
  • Classification supervisée III, svm, réseaux de neurones, initiation au deep learning
  • Séries temporelles I, caractéristiques, manipulation, acf, analyse spectrale
  • Séries temporelles II, décomposition et régularisation
  • Statistiques spatiales, initiation, représentations cartographiques, krigeage

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques générales uni- et multivariées, modèles linéaires (généralisés) et non linéaires, technique d'ordination (ACP, AFC) et de classification non supervisée (CAH, K-means).

Perfectionner les étudiants biologistes en science des données biologiques en les initiant à des notions complémentaires aux cours précédents. Ce cours complète les connaissances en sciences des données vues jusqu'ici par divers thèmes plus avancés: problèmes liés à la précision de calcul des ordinateurs, meilleur encodage des données selon le problème posé, comment effectuer des analyses parfaitement reproductibles, générateur de nombres pseudo-aléatoires reproductibles, écriture de fonctions et d'objets. Ce cours est modulable partiellement en fonction de besoins spécifiques des étudiants.

Contenu

  • Données particulières: dates, texte, variables circulaires
  • Projets: structure, différents types de documents reproductibles
  • Modularisation du code: fonctions, documentation
  • Optimisation du code: tests, objects, techniques d'optimisation
  • Initiation aux packages et à l'intégration continue
  • Parallélisation et calcul sur le cloud

Compétences préalables

Connaissances générales en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et les bases de la rédaction de rapports reproductibles. Biostatistiques avancées dans les principaux domaines utilisés en biologie.

Anglais; Communication scientifique; Poster; Colloque.