Marie Challet - Portfolio Cybersécurité & Data Engineering

Projets par compétence

Cybersécurité

Protection des systèmes d'information, gestion des risques, conformité réglementaire et investigation numérique.

Elle comprend notamment :

Audit de sécurité et analyse de vulnérabilités
Gouvernance et conformité (RGPD, ISO 27001/27005)
Anonymisation et protection des données sensibles
Investigation numérique (forensic) et réponse à incident
Sécurisation des infrastructures et durcissement

Domaines d'application

SOC (Security Operations Center)
Threat Intelligence & Forensic
GRC (Gouvernance, Risques, Conformité)
DevSecOps

Business Intelligence

Conception et développement de solutions décisionnelles pour transformer les données en insights actionnables.

Elle comprend notamment :

Création de tableaux de bord interactifs
Reporting automatisé et KPIs
Visualisation de données avancée
Déploiement de plateformes BI (Superset, Power BI, Grafana)

Outils maîtrisés

Apache Superset, Power BI, Grafana
Excel avancé, PowerQuery
R Shiny, Dash (Python)
Data modeling & DAX

Data Engineering

Architecture et gestion des pipelines de données, de la collecte au stockage optimisé.

Elle comprend notamment :

Conception et optimisation de bases de données (SQL/NoSQL)
Développement de pipelines ETL/ELT
Architecture Data Warehouse et Data Lake
Automatisation et orchestration des flux de données

Technologies maîtrisées

PostgreSQL, MySQL, MongoDB
Talend, Python (pandas, SQLAlchemy)
Docker, Docker Compose
Administration serveur Linux

Data Science

Analyse statistique avancée, machine learning et extraction de connaissances à partir des données.

Elle comprend notamment :

Analyse exploratoire et statistique descriptive
Machine Learning (classification, régression, clustering)
NLP (Natural Language Processing)
Modélisation prédictive et séries temporelles

Méthodes et outils

Python (scikit-learn, TensorFlow)
R (tidyverse, caret)
Jupyter, RStudio
LDA, Word2Vec, Transformers

Développement

Conception et développement d'applications, d'outils d'automatisation et de solutions logicielles.

Elle comprend notamment :

Développement d'applications desktop et web
Automatisation de processus métier
API REST et intégrations
Versioning et CI/CD

Stack technique

Python (Flask, Tkinter, pytest)
JavaScript, TypeScript
Git, GitHub, GitLab
Bash, PowerShell

Humanités

Réflexion critique, analyse éthique et communication autour des enjeux sociétaux liés aux données et au numérique.

Elle comprend notamment :

Éthique des données et de l'IA
Analyse d'impact sociétal et territorial
Rédaction de rapports et documentation technique
Communication scientifique et vulgarisation

Domaines d'application

Éthique et conformité
Rédaction technique
Impact social
Veille et prospective

2025-2026 Pro

FormaSup BI Platform – Plateforme Business Intelligence

BI Data Engineering Cybersécurité

Plateforme BI production-ready basée sur Apache Superset 6.0.0 avec traduction française complète, outils de migration MariaDB→PostgreSQL, et déploiement Docker sécurisé pour FormaSup Auvergne et ses partenaires académiques.

Description détaillée

Plateforme Business Intelligence complète conçue pour FormaSup Auvergne et ses partenaires académiques (UCA, Clermont School of Business, ISRP). Ce projet fournit des tableaux de bord analytiques pour l'analyse des données éducatives de l'alternance, avec une interface 100% française et des outils de migration de données robustes.

Fonctionnalités principales

Apache Superset 6.0.0 : Plateforme BI complète avec SQL Lab, dashboards interactifs et charts avancés
Traduction française complète : Interface 100% française (correction du bug Superset #35569)
Migration de données : Outils MariaDB vers PostgreSQL avec déduplication intelligente
Enrichissement API : Intégration APIs gouvernementales (INSEE, Recherche Entreprises) pour données entreprises
Validation SIRET : Correction et validation automatique avec rapports détaillés

Architecture technique

Superset (superset-fsa) : Interface BI et SQL Lab sur port 8088
PostgreSQL 17 (postgres-fsa) : Base de données métier sur port 5432
PostgreSQL 15 (superset-db) : Métadonnées Superset sur port 5442
Service Migration : ETL automatisé avec batch processing et rate limiting
Service Backup : Sauvegardes quotidiennes automatisées à 3h (configurable)

Sécurité et bonnes pratiques

Configuration par environnement : Aucun secret codé en dur, tout via variables d'environnement
Protection CSRF : Activée par défaut dans Superset
Isolation réseau : Services communiquant via réseau Docker interne
Health checks : Récupération automatique des services
Requêtes paramétrées : Prévention des injections SQL dans les outils de migration

Sauvegarde et récupération

Sauvegardes quotidiennes automatisées (expression cron configurable)
Archives compressées tar.gz (-50% stockage)
Sauvegardes par schéma pour restauration granulaire
Rétention configurable (7 jours par défaut)
Script de restauration en une commande

Tests et qualité

Migration : 106 tests, couverture 80%+ (Database, API, SIRET, OPCO)
Superset : 25 tests, couverture 85%+ (Configuration et build)
Scripts de test PowerShell et Bash fournis

Technologies utilisées

Apache Superset 6.0.0 Docker & Docker Compose PostgreSQL 17 & 15 Python 3.10+ TypeScript pytest Nginx HTTPS/SSL

Soft Skills mobilisées

Autonomie : Architecture et développement complet en indépendance
Rigueur : Tests automatisés et couverture de code élevée
Communication : Documentation technique détaillée
Résolution de problèmes : Intégration de technologies complexes

2025-2026 Personnel

Portfolio Personnel – Cybersécurité & Data

Développement

Conception et développement d'un portfolio web moderne présentant mon parcours, mes compétences et mes réalisations en cybersécurité et data engineering.

Description détaillée

Ce portfolio est le site que vous consultez actuellement. Il a été entièrement conçu et développé par mes soins pour présenter de manière professionnelle mon parcours, mes compétences techniques et mes projets.

Objectifs

Créer une vitrine professionnelle moderne et responsive
Mettre en valeur mes compétences en développement web
Démontrer ma capacité à mener un projet de A à Z
Faciliter la prise de contact avec des recruteurs

Fonctionnalités

Design responsive : Adaptation optimale sur mobile, tablette et desktop
Navigation fluide : Scroll smooth et menu dynamique
Filtrage des projets : Système de filtres par catégorie de compétences
Animations : Effets visuels subtils avec AOS et CSS transitions
Accessibilité : Respect des bonnes pratiques ARIA

Soft Skills mobilisées

Autonomie : Projet personnel mené de bout en bout
Créativité : Conception du design et de l'expérience utilisateur
Rigueur : Code propre, maintenable et documenté
Amélioration continue : Itérations successives basées sur les retours

Technologies utilisées

HTML5 CSS3 JavaScript Responsive Design AOS Animations Font Awesome Git

2025 Pro

Audit base de données OFA Link

Data Engineering Data Science

Audit complet de la base de données OFA Link pour garantir son intégrité structurelle et optimiser ses performances.

Description détaillée

Ce projet constitue un audit complet de la base de données OFA Link, visant à garantir son intégrité structurelle et à optimiser ses performances. L'analyse examine en profondeur la structure de la base de données, les relations entre tables, et l'efficacité des requêtes pour identifier les opportunités d'amélioration.

Technologies Utilisées

PostgreSQL Python Pandas NumPy Matplotlib Seaborn Jupyter Notebook

Résultats Obtenus

Identification et correction des incohérences dans les relations entre tables
Optimisation des index pour améliorer les performances des requêtes
Documentation complète de la structure de la base de données
Recommandations détaillées pour les futures améliorations

Défis et Solutions

Complexité des schémas : Utilisation de techniques de visualisation avancées pour cartographier les relations
Volume important de données : Implémentation d'échantillonnage stratifié pour l'analyse
Détection d'anomalies : Développement d'algorithmes personnalisés pour identifier les incohérences subtiles

Impact du Projet

Amélioration de l'intégrité des données garantissant des informations fiables pour la prise de décision
Optimisation des performances réduisant les temps de réponse de 30%
Établissement d'un cadre pour les audits périodiques futurs
Documentation complète facilitant la maintenance et les évolutions futures

Soft Skills mobilisées

Analyse critique : Examen méthodique des structures de données
Esprit de synthèse : Documentation des recommandations
Force de proposition : Suggestions d'optimisation concrètes

2025 Pro

Automatisation de Contrôle FEC

Développement Data Engineering

Développement d'une application Python pour automatiser le contrôle des fichiers FEC et des données de versements, permettant d'identifier les anomalies financières.

Description détaillée

Ce projet consiste en une application Python qui automatise le contrôle entre les fichiers FEC (Fichier des Écritures Comptables) et les données de versements pour identifier les anomalies financières.

Fonctionnalités principales

Importation et nettoyage : Chargement des données de versements à partir de fichiers Excel et traitement des fichiers FEC (format texte tabulé).
Détection d'anomalies : Identification automatique des écarts entre montants facturés et encaissés.
Interface utilisateur : Interface graphique intuitive avec visualisation des résultats.
Export des résultats : Génération de rapports Excel pour faciliter les actions correctives.

Architecture

FECAnalyzer : Gère la logique métier de traitement des données.
ControleFacturationsApp : Gère l'interface utilisateur et les interactions.

Résultats obtenus

Réduction significative du temps consacré aux contrôles financiers.
Identification systématique des écarts entre facturations et encaissements.
Visualisation claire des anomalies à travers une interface utilisateur intuitive.
Export des résultats pour faciliter les actions correctives.

Soft Skills mobilisées

Autonomie : Conception et développement en totale indépendance
Écoute des besoins : Analyse des attentes métier pour concevoir une solution adaptée
Résolution de problèmes : Traitement de formats de données hétérogènes

Technologies utilisées

Python Pandas openpyxl ttkbootstrap Threading

Voir

2025 Académique

Étude de cas – Le tourisme en France et dans le Cantal

Data Science BI Humanités

Analyse de l'impact du tourisme sur l'attractivité territoriale à l'échelle nationale et locale (Cantal), identifiant leviers, freins et actions pour renforcer la compétitivité d'un territoire rural.

Description détaillée

Projet universitaire dans le cadre de la SAE 6-06 : Attractivité territoriale (2024-2025), réalisé en collaboration avec Kilian Giraud et Doudedji Justus Hounton.

Objectifs du projet

Analyser l'impact du tourisme sur l'attractivité territoriale à l'échelle nationale et locale (Cantal), en identifiant les leviers de développement, les freins existants et les actions possibles pour renforcer l'image et la compétitivité d'un territoire rural.

Contenu et approche

Analyse nationale : Étude du poids du tourisme en France (8 % du PIB, 2 M d'emplois), tendances post-COVID, digitalisation, tourisme durable, rôle des grands événements (JO 2024, Coupe du Monde Rugby 2023).
Étude locale : Diagnostic complet du tourisme dans le Cantal (5,58 M de nuitées, 15 % du PIB local), valorisation des atouts naturels (Puy Mary, Lioran), culturels (villages, gastronomie) et immatériels.
Méthodologie : Analyse de données (INSEE, Atout France), benchmarking territorial, identification des axes de modernisation (hébergement, mobilité, communication numérique).

Défis et solutions proposées

Défis identifiés	Solutions proposées
Faible notoriété internationale	Campagnes ciblées, réseaux sociaux, labels touristiques
Offre d'hébergement datée	Éco-lodges, gîtes immersifs, diversification qualitative
Saisonnalité du tourisme	Slow tourism, bien-être, œnotourisme
Accessibilité limitée	Meilleure desserte ferroviaire, mobilité douce, amélioration du Wi-Fi rural

Mes contributions

Rédaction de l'analyse territoriale sur le Cantal.
Élaboration de recommandations stratégiques (communication, diversification de l'offre).
Mise en forme du rapport final et structuration de la bibliographie (sources INSEE, Atout France, Statista, etc.).

Résultats obtenus

Rapport complet de 20 pages avec diagnostic, analyse et plan d'action.
Valorisation du Cantal comme destination de tourisme vert et durable.
Développement de compétences en analyse territoriale, stratégie touristique, communication institutionnelle.

Technologies et compétences mobilisées

Analyse de données Analyse statistique Benchmarking Stratégie territoriale Rédaction analytique

Rapport

2025 Académique

Gestion des risques informatiques – Audit et plan d'action RGPD/ISO 27005

Cybersécurité

Conception et structuration d'une démarche de gestion des risques informatiques pour une PME, avec mise en conformité RGPD et normes ISO 27001/27005 pour protéger les données et assurer la résilience.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE R 5-05 : Gestion de la confidentialité et du risque (2024-2025), ce travail présente une approche méthodique pour identifier, évaluer et traiter les risques informatiques dans une PME.

Objectifs du projet

Concevoir et structurer une démarche de gestion des risques informatiques au sein d'une PME, en conformité avec le RGPD, les normes ISO 27001/27005, et les obligations légales, dans le but de protéger les données, assurer la disponibilité des services et garantir la résilience de l'entreprise.

Contenu et approche

Étude de cas : PME e-commerce (jouets en bois) dépendant d'un SI en mode SaaS (site, CRM, logistique, comptabilité).

Audit complet :

Identification et classification des actifs critiques (base clients, serveurs, flux de commandes, site e-commerce).
Analyse des vulnérabilités techniques et organisationnelles.
Élaboration d'une matrice de risques (impact / probabilité).

Traitement des risques :

Risque 1 : Indisponibilité serveur → plan de continuité (PCA/PRA), redondance, SLA.
Risque 2 : Fuite de données clients → chiffrement, MFA, Zero Trust, clauses contractuelles.
Risque 3 : Panne du site web → hébergement multi-cloud, anti-DDoS, plan de communication de crise.

Défis et solutions proposées

Risques majeurs	Solutions apportées
Perte d'exploitation suite à une panne serveur	Architecture redondante, PRA testé, monitoring 24/7
Fuite de données personnelles	Chiffrement AES-256, MFA, sensibilisation, audits prestataires
Indisponibilité du site e-commerce	Multi-hébergement, anti-DDoS, plan d'urgence et support 24/7

Mes contributions

Analyse juridique (RGPD, Code civil, directive NIS 2).
Élaboration de la matrice de risques ISO 27005.
Définition des mesures de sécurité techniques et organisationnelles.
Rédaction du plan de réponse aux incidents et recommandations stratégiques.

Résultats obtenus

Dossier structuré de gestion des risques ISO 27005 adapté à une PME réelle.
Recommandations pratiques pour assurer la conformité RGPD.
Acquisition de compétences en audit de sécurité, analyse d'impacts, plan de continuité, et privacy by design.

Technologies et méthodologies utilisées

ISO 27005 RGPD Plan de Continuité d'Activité Matrice de risques SLA

Rapport

2025 Académique

Operation ZeroDay – Développement d'un CTF Terminal Challenge

Cybersécurité Développement

Conception et développement d'un challenge CTF (Capture The Flag) complet simulant un terminal Linux avec des énigmes de stéganographie, cryptographie et analyse forensique.

Description détaillée

Développement intégral d'un challenge de type Capture The Flag (CTF) orienté cybersécurité, mettant en scène un scénario d'agent secret devant infiltrer un système compromis pour récupérer des fragments d'information cachés et contrer une menace virale.

Objectifs du projet

Créer un environnement d'apprentissage immersif pour les compétences en cybersécurité, combinant des éléments de stéganographie, cryptographie, forensique et navigation système. Le challenge offre une expérience narrative engageante tout en testant des compétences techniques variées.

Fonctionnalités implémentées

Système de fichiers virtuels : Simulation complète d'une structure Linux avec +50 fichiers et répertoires navigables
Cryptographie avancée : Implémentation de chiffrement César, XOR, AES et RSA
Stéganographie : Dissimulation de messages dans des fichiers images via techniques LSB (Least Significant Bit)
Commandes Linux : Simulation de 25+ commandes Unix (ls, cat, cd, grep, find, etc.)
Virus simulé : Menace dynamique avec corruption progressive du système pour ajouter une pression temporelle
Indices progressifs : Système d'aide adaptatif qui s'active selon la progression du joueur
Interface graphique : Terminal émulé avec Tkinter, incluant une interface utilisateur réactive

Compétences cybersécurité testées

Analyse de traces et de logs système
Cryptanalyse et déchiffrement de messages codés
Extraction de données cachées (stéganographie)
Identification et neutralisation de menaces (anti-virus)
Navigation et reconnaissance de systèmes Linux
Exploitation de failles de sécurité simulées

Aspects techniques notables

Moteur d'exécution de commandes avec interprétation en temps réel
Système de progression avec sauvegarde d'état
Fonctions d'encodage/décodage multiples (Base64, XOR, César)
Gestion des permissions et simulation d'authentification (sudo)
Génération procédurale de contenu cryptique et d'indices

Soft Skills mobilisées

Créativité : Conception du scénario et des énigmes
Autonomie : Projet personnel mené de bout en bout
Pédagogie : Vulgarisation de concepts cybersec via le jeu

Technologies et compétences mobilisées

Python Tkinter Cryptographie Stéganographie Émulation terminal Simulation de menaces

Code

2025 Académique

MedievAIl bAIttle generAIl – Simulateur de Batailles Médiévales avec IA

Data Science Développement

Simulateur de batailles médiévales en Python avec généraux IA, architecture MVC, analyses statistiques basées sur les lois de Lanchester et système de tournois. Projet collaboratif (7 développeurs) réalisé à l'INSA CVL.

Description détaillée

Projet de groupe réalisé lors du premier semestre à l'INSA Centre Val de Loire (2025-2026). Développement d'un simulateur complet de batailles médiévales opposant des généraux IA avec différentes stratégies, incluant des analyses statistiques avancées pour valider les modèles de combat de Lanchester.

Objectifs du projet

Créer un simulateur de batailles permettant d'étudier l'efficacité de différentes stratégies de combat via des IA autonomes, tout en validant empiriquement les lois de Lanchester (loi linéaire pour le mêlée, loi carrée pour les unités à distance).

Fonctionnalités principales

Vues multiples : Interface terminal (curses) et vue 2.5D isométrique (Pygame) avec bascule en temps réel (F9)
Généraux IA : 5 stratégies (BRAINDEAD, DAFT, SOMEIQ, RPC, RANDOMIQ) avec comportements distincts
Unités médiévales : Chevaliers, piquiers, arbalétriers avec stats et comportements uniques
Scénarios variés : Classic, Cavalry Charge, Shield Wall, Cannae, Lanchester
Système de tournois : Matchs automatisés avec classements et statistiques
Analyses statistiques : Validation des lois de Lanchester avec graphiques et rapports HTML

Mes contributions personnelles

Vue Terminal : Développement complet de l'interface terminal avec curses (navigation, zoom, auto-follow, panneaux d'info)
Controller Terminal : Gestion des inputs clavier, contrôle de caméra, gestion des états
Analyses statistiques : Implémentation des tests statistiques et validation des données
Module Lanchester : Conception des analyses basées sur les lois de Lanchester (pentes théoriques vs empiriques)
Système de tournois : Logique de matchmaking, calcul des scores et classements
Module Plotting : Graphiques avec plotnine (ggplot2 pour Python), génération de visualisations
Controllers Plotting : Orchestration de la collecte de données et génération de rapports
Controller principal : Participation à l'architecture et au dispatcher CLI
Documentation : Rédaction partielle du README et documentation technique

Lois de Lanchester implémentées

Loi	Type de combat	Pente théorique
Loi Linéaire	Mêlée (1v1)	≈ 1.0
Loi Carrée	À distance (focus fire)	≈ 0.27

Analyse : équipe A (N unités) vs équipe B (2N unités) pour mesurer les pertes et comparer aux prédictions théoriques.

Architecture technique

Pattern MVC : Séparation stricte Model (unités, généraux, simulation) / View (terminal, pygame) / Controller
Factory Pattern : Création dynamique des généraux et stratégies
Multiprocessing : Collection parallèle des données pour les analyses statistiques
Sauvegarde/Chargement : Sérialisation pickle des parties en cours

Soft Skills mobilisées

Travail d'équipe : Collaboration étroite avec 6 autres développeurs
Communication : Coordination via Git, revues de code, réunions techniques
Gestion de projet : Répartition des tâches et respect des deadlines
Adaptabilité : Intégration de contraintes techniques variées

Technologies et compétences mobilisées

Python Pygame Curses Plotnine/ggplot2 Intelligence Artificielle Statistiques Architecture MVC Git collaboratif

Voir sur GitHub

2024-2025 Pro

Application de Gestion des Versements

Développement Data Engineering

Développement d'une application Shiny en R pour automatiser la gestion financière des formations en apprentissage, incluant le traitement des versements, la visualisation et la génération de rapports.

Description détaillée

Cette application Shiny développée en R est un outil spécialisé dans la gestion financière des formations en apprentissage. Elle permet d'automatiser le traitement, le calcul et le suivi des versements financiers entre différents établissements de formation et leurs partenaires (OPCO, entreprises).

Fonctionnalités principales

Traitement automatisé des données financières : Import de fichiers Excel, nettoyage et standardisation des données, calcul des budgets, frais de gestion et montants à verser.
Visualisation interactive : Tableaux de bord dynamiques avec vue par formation, établissement ou partenaire, suivi des historiques de versements.
Génération de documents : Export de tableaux Excel, création de tableaux de bord personnalisés, rapports synthétiques pour les partenaires.

Bénéfices

Gain de temps grâce à l'automatisation des calculs complexes.
Réduction des erreurs par la standardisation des processus.
Meilleure traçabilité avec l'historisation des versements.
Amélioration de la communication via des tableaux de bord clairs.
Flexibilité pour s'adapter aux différentes structures de données.

Défis techniques surmontés

Traitement de formats de données variés et parfois incohérents.
Gestion des règles métier complexes pour les calculs financiers.
Création d'une interface utilisateur intuitive malgré la complexité des opérations.
Implémentation d'un système de gestion historique des versements.

Soft Skills mobilisées

Autonomie : Projet individuel mené de A à Z
Rigueur : Gestion de données financières sensibles
Pédagogie : Documentation et formation des utilisateurs

Technologies utilisées

R Shiny tidyverse readxl openxlsx shinydashboard

2024 Pro

Tableau de Bord d'Analyse des Formations en Alternance

BI Data Engineering

Développement d'une application Shiny interactive pour analyser les données des formations en alternance et leurs partenaires, avec des visualisations claires et des statistiques clés.

Description détaillée

Cette application Shiny crée un tableau de bord interactif permettant d'analyser les données des formations en alternance et leurs partenaires. Elle offre une visualisation claire des statistiques clés à travers plusieurs onglets thématiques.

Fonctionnalités principales

Formations & Partenaires : Vue d'ensemble des diplômes et établissements partenaires.
Effectifs par formation : Analyse détaillée des effectifs par type de diplôme et niveau RNCP.
Répartition par sexe : Visualisation de la parité dans les formations.
Entreprises : Classification des entreprises partenaires (public/privé et taille).
Origine géographique : Répartition territoriale des entreprises partenaires.

Points forts techniques

Interface utilisateur intuitive avec thème personnalisé.
Système d'import de données avec validation.
Détection automatique du niveau des diplômes.
Tableaux interactifs avec fonctionnalités de tri, regroupement et recherche.
Guide d'utilisation intégré.

Technologies utilisées

R Shiny reactable dplyr readxl bslib

2024 Académique

Modélisation Thématique d’Archives Policières par LDA

Data Science

Automatisation de la structuration d’un corpus d’archives policières par modélisation thématique non supervisée (LDA) pour identifier des thèmes criminels récurrents et appuyer le travail policier.

Description détaillée

Ce projet visait à structurer automatiquement un corpus d’archives policières en identifiant des thèmes criminels récurrents grâce à la modélisation thématique non supervisée (LDA).

Objectifs

Identifier les thèmes criminels récurrents dans les archives.
Créer une base thématique exploitable pour appuyer le travail policier.
Explorer les usages potentiels dans des produits data décisionnels et prédictifs.

Méthodologie

Prétraitement & pipeline NLP : Nettoyage linguistique, lemmatisation, POS tagging, vectorisation en Document-Term Matrix (DTM).
Modélisation par LDA : Choix optimal de 12 thèmes via métriques, extraction des mots-clés dominants, visualisation avec LDAvis.
Interprétation : Attribution de noms aux thèmes, croisement avec métadonnées spatio-temporelles.

Produits et usages potentiels

Exploration & suivi des crimes : Dashboard interactif, rapports périodiques.
IA appliquée au renseignement : Générateur de profils criminels, système de recommandations.
Optimisation opérationnelle : Cartes de chaleur thématiques, analyse prédictive.

Résultats obtenus

Génération de 12 thèmes clairs et interprétables (espionnage, crimes financiers, etc.).
Structuration automatisée d’un corpus initialement non balisé.
Prototype fonctionnel pour une analyse dynamique des thématiques.

Technologies utilisées

R LDA topicmodels udpipe ggplot2 LDAvis

Rapport 1

Rapport 2

2024 Académique

Analyse Statistique et Classification sur Données de Croissance

Data Science

Analyse des données de croissance d’enfants (1 à 18 ans) pour interpoler les mesures manquantes, produire des courbes normatives et mettre en œuvre des algorithmes de classification supervisée.

Description détaillée

Ce projet visait à analyser des données de croissance (taille/poids) d’enfants de 1 à 18 ans, en tenant compte du sexe, pour interpoler les mesures manquantes, produire des courbes normatives et détecter des différences significatives entre filles et garçons.

Objectifs

Interpoler et prédire les mesures manquantes.
Construire des courbes de référence pour taille, poids et IMC.
Détecter des différences significatives entre filles et garçons.
Mettre en œuvre des algorithmes de classification supervisée.

Méthodologie

Préparation des données : Suppression des valeurs aberrantes, interpolation PCHIP, calcul de l’IMC.
Analyse statistique : Calculs des médianes, écarts-types, percentiles, visualisations avancées avec ggplot2.
Classification : Comparaison de modèles (KNN, rpart, GLM, LDA, QDA, Naive Bayes), validation croisée, évaluation par exactitude et matrice de confusion.
Tests de différences significatives : Comparaison garçons/filles sur taille, poids et vitesse de croissance.

Résultats obtenus

Courbes normatives de croissance produites (médianes ±1σ, ±2σ, ±3σ).
Différences significatives de taille et poids entre sexes pour les âges 16-18.
Modèle rpart performant sur les données centrées.
Visualisation claire de la répartition de l’IMC et des classes à risque.

Défis rencontrés

Gestion des cas d’interpolation/extrapolation complexe.
Comparaison cohérente de nombreux classifieurs.
Automatisation des tests d’écart significatif sur plusieurs variables et âges.

Technologies utilisées

R ggplot2 dplyr pchip caret

Voir

2024 Académique

Analyse de la Couverture Médiatique du Débat entre Kamala Harris et Donald Trump

Data Science

Analyse comparative de la tonalité médiatique du débat entre Kamala Harris et Donald Trump, en explorant les biais potentiels des médias nationaux, partisans et internationaux.

Description détaillée

Ce projet visait à analyser la tonalité des articles de presse couvrant le débat sénatorial entre Kamala Harris et Donald Trump, en identifiant les biais médiatiques potentiels et les différences de perception selon les sources.

Objectifs

Évaluer la tonalité des articles (positive, négative, neutre) pour chaque candidat.
Identifier les biais médiatiques selon les sources (nationales, partisanes, internationales).

Méthodologie

Collecte de données : Articles publiés le 11 septembre 2024 issus de médias nationaux, partisans et internationaux.
Prétraitement : Nettoyage des textes, lemmatisation, annotation linguistique avec udpipe.
Analyse de sentiments : Utilisation des lexiques AFINN, Bing et NRC pour évaluer les émotions et la valence des articles.
Visualisations : Graphiques radar des émotions, barplots et boxplots comparatifs par candidat et source.

Résultats obtenus

Kamala Harris a bénéficié d’une couverture majoritairement positive, notamment dans les médias progressistes et internationaux.
Donald Trump a reçu une couverture polarisée : positive dans les médias conservateurs, négative dans les médias progressistes.
Les médias internationaux ont eu une perception nettement plus favorable de Harris.

Défis rencontrés

Difficulté des modèles lexicaux à capter les nuances de langage journalistique (sarcasme, ironie).
Détection imprécise des tonalités neutres ou ambivalentes.
Biais éventuels hérités des lexiques préexistants.

Améliorations envisagées

Intégration de modèles pré-entraînés comme BERT pour une meilleure contextualisation.
Utilisation de Topic Modeling pour explorer les thèmes dominants par source.

Technologies utilisées

R udpipe ggplot2 syuzhet radarchart

Rapport

2024 Académique

Anonymisation de données médicales sensibles

Cybersécurité Data Engineering

Développement d'une solution d'anonymisation de données médicales appliquant les principes de K-Anonymité et L-Diversité pour protéger les informations sensibles des patients.

Description détaillée

Ce projet portait sur la protection des données médicales sensibles à travers le développement d'une solution d'anonymisation automatisée. J'ai conçu et implémenté des processus Talend permettant d'identifier, de traiter et d'anonymiser les informations sensibles tout en préservant la valeur analytique des données.

Informations clés

Objectifs : Protéger les données sensibles des patients tout en conservant l'utilité des données pour les analyses
Méthodes : K-Anonymité, L-Diversité, suppression d'attributs, généralisation hiérarchique
Processus : Identification des variables sensibles, conception des niveaux d'anonymisation, développement des jobs Talend, validation des résultats

Technologies utilisées

Talend SQL K-Anonymité L-Diversité

Rapport

2024 Pro

Outil décisionnel de mesure de performance produit

BI Développement

Développement d'un outil décisionnel complet pour mesurer les performances d'un produit, incluant l'optimisation d'un datawarehouse et la création de tableaux de bord Grafana.

Description détaillée

Lors de mon stage de 3 mois chez Be Blocks, j'ai développé un outil décisionnel complet pour mesurer les performances d'un produit de l'entreprise. Ce projet m'a permis d'acquérir et de renforcer diverses compétences techniques et de gestion.

Compétences Démontrées

Développement d'Outils Décisionnels : Optimisation et refonte d'un datawarehouse sur différents environnements (production, intégration), utilisation avancée de Talend pour l'ETL, gestion via Talend Administration Center (TAC)
Gestion de Projet Agile : Participation aux sprints et réunions de planification, collaboration avec des équipes pluridisciplinaires
SQL : Écriture et optimisation de requêtes SQL pour extraire des données pertinentes et performantes
Datavisualisation : Création de tableaux de bord Grafana interactifs pour analyser les performances produit
Communication : Rédaction de documentation technique, présentation des résultats à l'équipe

Technologies utilisées

Talend Talend Administration Center SQL Grafana Méthodologie Agile

Soft Skills mobilisées

Travail d'équipe : Intégration dans une équipe pluridisciplinaire
Adaptabilité : Prise en main rapide de nouvelles technologies
Communication : Présentations régulières aux stakeholders
Agilité : Participation active aux cérémonies Scrum

Note: En raison de la confidentialité des informations liées à ce stage, les détails spécifiques sur les données et les méthodologies exactes ne peuvent pas être partagés.

2024 Académique

Migration SQL vers NoSQL – Étude comparative PostgreSQL / MongoDB

Data Engineering

Exploration de la transformation d'une base de données relationnelle vers une base orientée documents, avec évaluation des impacts sur les performances et identification des cas d'usage pertinents pour la dénormalisation.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE 5.02 (2024-2025), ce travail compare les approches SQL et NoSQL à travers une migration pratique de PostgreSQL vers MongoDB.

Objectifs du projet

Explorer la transformation d'une base de données relationnelle (PostgreSQL) vers une base orientée documents (MongoDB), en évaluant les impacts sur les performances, la structure des données, et les cas d'usage adaptés à la dénormalisation.

Contenu et méthodologie

Base SQL (PostgreSQL) : Création de 6 tables relationnelles (employés, salaires, titres, départements, etc.), insertion de données, analyse du coût des jointures SQL.
Optimisation SQL : Création d'une vue matérialisée pour accélérer les requêtes multi-tables (gain de +99% de temps d'exécution).
Export JSON : Transformation des tables en documents JSON via row_to_json, json_agg, et COPY, en vue d'une intégration NoSQL.
Base NoSQL (MongoDB) : Import des données, création d'index, usage de $lookup, $project, $merge pour jointures et dénormalisation.
Mesure des performances : Comparaison des temps d'accès avec et sans dénormalisation (MongoDB) et analyse avec explain().

Défis rencontrés et solutions

Problème	Solution apportée
Jointures coûteuses en SQL	Utilisation d'une vue matérialisée
JSON non importable dans MongoDB (format tableau)	Création d'un script PowerShell pour "aplatir" les documents
Performances faibles lors des requêtes complexes MongoDB	Dénormalisation et création de collections optimisées avec $merge
Risques liés à la redondance de données	Limitation de la dénormalisation aux cas pertinents (lectures fréquentes, données stables)

Mes contributions

Écriture complète des scripts de création SQL, export JSON, et manipulations MongoDB.
Analyse des performances des requêtes dans PostgreSQL et MongoDB.
Développement d'un script PowerShell personnalisé pour reformater les fichiers JSON.
Réalisation d'une collection dénormalisée avec aggregate, project, map, et merge.

Résultats obtenus

Temps de requêtes réduit de 425 ms (SQL) à 2 ms (vue matérialisée).
Import réussi de +6 collections dans MongoDB avec des documents enrichis.
Création d'une base dénormalisée optimisée pour lecture rapide (temps d'accès réduit à ~100 ms).
Compréhension approfondie des architectures SQL vs NoSQL et de leurs cas d'usage.

Technologies utilisées

PostgreSQL MongoDB JSON PowerShell Performance Testing

Rapport

2024 Académique

Conception d'un Cahier des Charges – Application de Reporting pour GlobalTrade Inc.

BI Développement

Élaboration d'un cahier des charges complet pour une application de reporting décisionnel, incluant spécifications fonctionnelles, techniques, architecture des données et prototype d'interface.

Description détaillée

Projet individuel réalisé dans le cadre d'une spécification fonctionnelle et technique (Janvier 2025), en tant qu'analyste fonctionnelle et conceptrice AMOA.

Objectif du projet

Concevoir un cahier des charges complet pour le développement d'une application de reporting décisionnel destinée à une startup fictive (GlobalTrade Inc.), dans le cadre d'un projet de business intelligence à faible budget et haute valeur ajoutée.

Contenu du livrable

Contexte & besoins :

Problèmes de données dispersées, reporting manuel, visibilité réduite sur les performances logistiques et financières.

Objectifs fonctionnels :

Centralisation via un datawarehouse PostgreSQL.
Visualisations interactives pour les modules Financier (CA, marges, remises) et Logistique (retards, stocks, transport).
Automatisation des exports de rapports.

Architecture cible :

Stack technique recommandée : R + Shiny + PostgreSQL.
Modèle en étoile pour le datawarehouse (MCD fourni).

Prototype d'interface :

Navigation, tableaux de bord, filtres et export.

Mes contributions

Rédaction intégrale du cahier des charges structuré (fonctionnel, technique, sécurité, calendrier, budget, critères d'acceptation).
Conception des modèles de données relationnels et analytiques (modèle en étoile).
Définition des cas d'usage, des exigences fonctionnelles, et des spécifications de tests.
Comparaison argumentée des technologies envisagées et choix justifiés (RShiny vs React/Python).

Résultats obtenus

Cahier des charges complet de +30 pages livrable à une équipe technique pour développement.
Livrable structuré selon les standards professionnels (contenu + UX, sécurité, planning, budget prévisionnel).

Compétences et technologies

Spécification fonctionnelle Modélisation de données PostgreSQL R Shiny Business Intelligence

Cahier des charges

2023 Académique

Les arrondissements de New York face aux apparitions de rongeurs

BI Data Science

Analyse et visualisation des données sur les apparitions de rats à New York (2010-2017) pour identifier les tendances spatiales et temporelles.

Description détaillée

Ce projet visait à analyser les signalements d'apparition de rongeurs dans les différents arrondissements de New York sur une période de 7 ans afin d'identifier des tendances et des facteurs explicatifs.

Informations clés

Sources : Données CSV des signalements de rongeurs (2010-2017)
Méthodes : Nettoyage des données, analyse exploratoire, visualisation géospatiale
Résultats : Dashboard interactif permettant d'explorer les variations saisonnières et géographiques

Technologies utilisées

Power BI PowerQuery Cartographie

Visualisation

2023 Académique

Analyse de Circulation et Évaluation d'une Nouvelle Intersection Routière

Data Science

Analyse de l'impact d'une nouvelle intersection sur les flux de circulation urbaine à travers la modélisation statistique, la détection d'anomalies et les prévisions de trafic.

Description détaillée

Projet de groupe réalisé dans le cadre de la SAE 3-03 : Description et prévision de données temporelles (Novembre 2023), en collaboration avec Jehanné Baleydier, Cédric Jestin et Jimmy Yobo.

Objectif du projet

Analyser l'impact de la création d'une nouvelle intersection (I4) sur la circulation d'une ville, à partir de données temporelles collectées sur 20 mois. L'étude visait à modéliser les flux de véhicules, détecter des anomalies et évaluer l'efficacité de l'infrastructure sur la répartition du trafic urbain.

Méthodologie et contenu

Prétraitement des données (R, dplyr, lubridate, tidyverse) :

Nettoyage et restructuration des données horaires (nov. 2015 – juin 2017).
Création de 3 jeux de données agrégés (heure, jour, mois).
Calcul de ratios Ei/Ii (entrée par intersection) et de la somme globale des entrées.

Modélisation statistique et analyse exploratoire :

Lissages (moyenne mobile, lissage exponentiel).
Modèles additifs et multiplicatifs avec saisonnalité (24h et 7 jours).
Détection d'anomalies par résidus (>99 %).
Test de coupure structurelle (test de Chow) sur les données d'entrée autour du 1er janvier 2017 (mise en service de I4).

Prédictions :

Prévisions sur 40 jours après le 30/06/2017 à partir du meilleur modèle retenu (additif avec saisonnalité hebdomadaire).

Mes contributions spécifiques

Participation au prétraitement des données
Participation à la modélisation des flux, aux analyses de périodicité, et aux visualisations de données.
Co-rédaction du rapport d'analyse, structuration des observations, interprétation des résultats des tests.

Résultats obtenus

Confirmation d'une meilleure répartition du trafic après l'ouverture de l'intersection I4, notamment baisse du ratio E1/I1.
Pas de cassure significative détectée sur E1, mais cassure validée sur E2, confirmant un changement dans les habitudes de circulation.
Identification d'un besoin de données plus longues pour des conclusions robustes.

Technologies utilisées

R (RStudio) tidyverse, dplyr lubridate ggplot2 gap (test de Chow)

Soft Skills mobilisées

Travail en binôme : Collaboration étroite et répartition des tâches
Communication : Co-rédaction du rapport d'analyse
Esprit d'analyse : Interprétation rigoureuse des résultats statistiques

Rapport

2023 Académique

Analyse éthique du scandale Cambridge Analytica

Cybersécurité Humanités

Analyse des implications éthiques du scandale Cambridge Analytica sous l'angle des principes moraux, de la protection des données personnelles, et de l'usage de la data science à des fins politiques.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE R3-01 : Éthique de la donnée (2023-2024). Cette analyse met en lumière l'importance cruciale de l'éthique dans la science des données, en soulignant les risques et les responsabilités associés à la collecte et à l'utilisation des données personnelles.

Contexte

En 2018, il est révélé que Cambridge Analytica a exploité les données personnelles de millions d'utilisateurs Facebook à leur insu, via une application de quiz psychologique. Ces données ont été utilisées pour élaborer des profils psychographiques destinés à influencer des comportements électoraux lors de campagnes politiques majeures.

Axes d'analyse

Le principe socratique : Interrogation critique des motivations des acteurs impliqués (Wylie, Kaiser)
Consentement informé & désengagement : Violations massives des droits des utilisateurs
Propriété des données : Tensions entre réalité juridique et considérations éthiques
Financement opaque & manipulation : Liens avec des acteurs politiques radicaux
Psychographie comme arme : Dérives comparées aux opérations psychologiques militaires (PSYOPS)
Équité algorithmique : Ciblage de populations vulnérables identifiées comme "influençables"
Impact sur la démocratie : Manipulation électorale, intimidation des lanceurs d'alerte

Mes contributions

Rédaction complète du rapport éthique à partir de sources académiques, médiatiques et juridiques
Application des outils de la science morale à un cas réel de dérive techno-politique
Analyse critique des enjeux liés à la data science non éthique, à la surveillance, et à la transparence algorithmique

Résultats et compétences développées

Capacité à mobiliser des concepts éthiques concrets dans un contexte de data science
Rédaction d'un rapport structuré alliant rigueur académique et portée critique
Développement d'une réflexion personnelle sur l'usage responsable des technologies
Compréhension des implications sociétales de la manipulation des données personnelles

Méthodologie

Recherche documentaire Analyse éthique Étude du cadre réglementaire Impact social Philosophie morale

Rapport

Domaines de prédilection

Diplôme d'Ingénieur, spécialité « Sécurité Informatique » (STI)

B.U.T. Science des Données - Option Cybersécurité - Parcours Visualisation, Conception d'Outils Décisionnels

L1 Sciences de l'éducation

L1 Mathématiques et Informatique Appliquées aux Sciences Humaines et Sociales

Apprentie Ingénieure DevSecOps & IT

Apprentie Data Engineer & BI Developer

Stagiaire Data Engineer & BI Developer

Cybersécurité

Domaines d'application

Business Intelligence

Outils maîtrisés

Data Engineering

Technologies maîtrisées

Data Science

Méthodes et outils

Développement

Stack technique

Humanités

Domaines d'application

FormaSup BI Platform – Plateforme Business Intelligence

Description détaillée

Fonctionnalités principales

Architecture technique

Sécurité et bonnes pratiques

Sauvegarde et récupération

Tests et qualité

Technologies utilisées

Soft Skills mobilisées

Portfolio Personnel – Cybersécurité & Data

Description détaillée

Objectifs

Fonctionnalités

Soft Skills mobilisées

Technologies utilisées

Audit base de données OFA Link

Description détaillée

Technologies Utilisées

Résultats Obtenus

Défis et Solutions

Impact du Projet

Soft Skills mobilisées

Automatisation de Contrôle FEC

Description détaillée

Fonctionnalités principales

Architecture

Résultats obtenus

Soft Skills mobilisées

Technologies utilisées

Étude de cas – Le tourisme en France et dans le Cantal

Description détaillée

Objectifs du projet

Contenu et approche

Défis et solutions proposées

Mes contributions

Résultats obtenus

Technologies et compétences mobilisées

Gestion des risques informatiques – Audit et plan d'action RGPD/ISO 27005

Description détaillée

Objectifs du projet

Contenu et approche

Défis et solutions proposées

Mes contributions

Résultats obtenus

Technologies et méthodologies utilisées

Operation ZeroDay – Développement d'un CTF Terminal Challenge

Description détaillée

Objectifs du projet

Fonctionnalités implémentées

Compétences cybersécurité testées

Aspects techniques notables

Soft Skills mobilisées

Technologies et compétences mobilisées

MedievAIl bAIttle generAIl – Simulateur de Batailles Médiévales avec IA

Description détaillée

Objectifs du projet

Fonctionnalités principales

Mes contributions personnelles

Lois de Lanchester implémentées

Architecture technique