Être capable d’analyser correctement des données biologiques multivariées en pratique. En particuliers, les méthodes d’ordination (ACP, AFC, MFA) et de classifications (amenant à la réalisation d’un dendrogramme) doivent être parfaitement maîtrisées à la fin du cours. Les étudiants apprennent à résoudre des cas concrets en posant correctement les questions d’un point de vue statistique. Ils apprennent également à tirer des conclusions appropriées par rapport à l’analyse effectuée, et à formuler les questions de manière rigoureuse. Nous insistons sur la présentation des résultats (rédaction de rapports) et sur l’utilisation de logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

Les modules de cette AA sont : 

- Distances et classification hiérarchique
- K-means, MDS et SOM
- ACP et AFC
- AFM et indices de biodiversité

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques uni- et bivariées de base, y compris ANOVA, variance, covariance et correlation.

Maitriser les outils informatiques et statistiques nécessaires aux science des données, en particuliers, l'importation, remaniement et transformation des données, la visualisation sous forme de graphiques, et l'inférence. Pouvoir présenter clairement et rigoureusement les résultats de ces analyses dans un rapport scientifique de manière reproductible. Etre capable d'analyser des données biologiques usuelles en pratique.

Contenu

Logiciels R, RStudio, git & Markdown. Inférence; Probabilité; Distribution de probabilité; Théorème central limite; Intervalle de confiance; Test d’hypothèse; Tests paramétriques et non paramétrique; Distribution binomiale, de Poisson, Chi-2, Normale, de Student et F; test de Student; ANOVA 1 et 2 facteurs; Test de Wilkoxon-Mann-Withney; Test de Kruskal-Wallis; Corrélation; Pearson; Spearman.

Compétences préalables

Notions de base d'utilisation d'un ordinateur. Notions de base en mathématique : arithmétique, y compris logarithme et exponentielle, systèmes de coordonnées cartésiennes et géométrie élémentaire dans le plan et dans un espace à 3 dimensions.

Ecosyst Bioc Chaîne trophique; Phytoplancton; Producteurs primaires; Zooplancton; consommateurs; modèle « top-down », « bottom-up », « wasp-waist  Migration verticale; Distribution en patch; Upwelling et zones frontales; Zone intertidate; Zonation; Macrophytes; Caulerpa; Herbiers à phan Mangrove; Pal Zones sableuses; R Coraux hermatypiques; Holobionte; Poissons p Poissons r Modèle dit de loterie; Faune des grands fonds; Fumeurs; Extrêmophiles.

Images bitmap vs vectorielles ; Résolution, définition, dimension ; Couleurs ; Compression; Dessin au trait, Chambre claire, Calque; Micro- Macrophotographie; Scanner; PDF; Conversion; Numérisation vectorielles; Traitement et création de planches; Numérotation des figures, légendes, annotations, échelles; Supports et sauvegardes; Analyse d'image; Extraction de données à partir d'images biologiques (distances, d'angles, de surfaces sur des images); Comptage et mesure de particules. 

Océanographie physique, chimique et biologique; Géographie des océans; Masses d'eaux et circulations océaniques; Vagues, courants et marées; Equation d'état de l'eau de mer; Chimie de l'eau; Composition de l'eau de mer; Chimie et cycles du carbone inorganique, de l'azote, du phosphore et de la silice; Histoire de l'océanographie; Méthodes d'investigation des océans.

Maitriser les outils informatiques et statistiques nécessaires aux science des données, en particuliers, l'importation, remaniement et transformation des données, la visualisation sous forme de graphiques, et l'inférence. Pouvoir présenter clairement et rigoureusement les résultats de ces analyses dans un rapport scientifique de manière reproductible. Etre capable d'analyser des données biologiques usuelles en pratique.

Contenu

Logiciels R, RStudio, git & Markdown. Importation et transformation de tableaux de données. Visualisation de données uni-, bi- et multivariées à l'aide de graphiques. Statistiques descriptives; Moyenne; Médiane; Ecart type; Variance; Graphique quantile-quantile; Boite de dispersion; Histogramme; Population statistique; Echantillonnage.

Compétences préalables

Notions de base d'utilisation d'un ordinateur. Notions de base en mathématique : arithmétique, y compris logarithme et exponentielle, systèmes de coordonnées cartésiennes et géométrie élémentaire dans le plan et dans un espace à 3 dimensions.

Être capable de modéliser des données biologiques sur base de cas concrets. Sont abordés, les modèles linéaires simples, polynomiaux, multiples, généralisés, ainsi que les modèles non linéaires. Les fonctions mathématiques les plus courantes pour les modèles non linéaires en biologie sont également étudiés et utilisés en pratique. Les étudiants apprennent à décrire correctement les données, et à tester les conditions d’application des techniques envisagées. Ils apprennent à tirer des conclusions appropriées par rapport à l’analyse effectuée, et à formuler les questions de manière rigoureuse. Nous insistons sur la présentation des résultats (rédaction de rapports) et sur l’utilisation de logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

Les modules de cette AA sont :

- Régression linéaire simple et outils de diagnostic (partie I)

- Régression linéaire multiple et polynomiale et outils de diagnostic (partie II)

- Matrices de contraste, modèle linéaire et modèle linéaire généralisé

- Régression non linéaire

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques uni- et bivariées de base, y compris ANOVA, variance, covariance et correlation.

Être capable d'entraîner et d'utiliser un classifieur (apprentissage machine pour la classification), d’analyser correctement des données biologiques ayant une dépendance temporelle, et de traiter des données géoréférencées (y compris la réalisation de cartes). Être capable de présenter ses résultats de manière reproductible (rédaction de rapports) et utiliser des logiciels professionnels dans le domaine de la science des données : R, RStudio, R Markdown, git.

Contenu

- Classification supervisée, matrice de confusion, validation croisée, courbes ROC. ADL, kNN, forêt aléatoire, machine à vecteurs supports, réseaux de neurones

- Séries spatio-temporelles, autororrélation, analyse spectrale, tendance. Décomposition et filtrage d'une série régulière

- Données géoréférencées, données vectorielles et raster, système de coordonnées géographiques et conversion. Réalisation de cartes et superposition d'information statistique sur les cartes

Compétences préalables

Bases en science des données, en particulier, la gestion de projets d'analyse des données, l'importation et le remaniement des données, la visualisation à l'aide de graphiques et la rédaction de rapports reproductibles. Statistiques uni- et bivariées de base, y compris ANOVA, variance, covariance et correlation, modèle linéaire (généralisé), régression linéaire et non linéaire, ACP, CHA, K moyens et MDS.

Bonnes pratiques de design expérimental, d'organisation des données et des analyses afin de permettre leur partage en équipe (collaboration) ou de manière plus large (Open Science). Techniques statistiques propres au sujet traité. Maitrise des logiciels dédiés (autour de R).

Gestion des données; bases de données; requêtes SQL; langage S (logiciel R) avec RStudio; calcul en virgule flottante; génération de nombre pseudo-aléatoires; analyse reproductible; tests unités; format des données; optimisation du temps de calcul; optimisation de l'utilisation de la mémoire vive; algorithmes vectorisés, ...

Anglais; Communication scientifique; Poster; Présentation orale; Colloque.