À propos de moi

Étudiante ingénieure en cybersécurité à l'INSA Centre Val de Loire (SecNumEdu ANSSI), j'ai d'abord construit une expertise solide en data en tant que major de promotion du B.U.T. Science des Données (option Cybersécurité). Aujourd'hui, mon ambition est claire : mettre cette double compétence au service de la cybersécurité défensive — corrélation de logs, détection d'anomalies, threat hunting data-driven.

Actuellement apprentie ingénieure DevSecOps & IT chez FormaSup Auvergne, je déploie des mesures de sécurité, administre des serveurs et développe des outils BI sécurisés au quotidien.

À la recherche d'une alternance de 24 mois dès septembre 2026 en cybersécurité défensive autour de Bourges ou Clermont-Ferrand.

Domaines de prédilection

  • Réponse aux Incidents (CERT/CSIRT)
  • SOC & Monitoring
  • Threat Intelligence
  • Forensic & Investigation numérique
  • DevSecOps
  • Data Engineering & BI

Formation & Parcours

2025-2028

Diplôme d'Ingénieur, spécialité « Sécurité Informatique » (STI)

INSA Centre Val de Loire, Bourges

En alternance SecNumEdu ANSSI Reconnue CTI
2022-2025

B.U.T. Science des Données - Option Cybersécurité - Parcours Visualisation, Conception d'Outils Décisionnels

IUT Clermont Auvergne, Aurillac

Major de promotion 3ème année en alternance
2021-2022

L1 Sciences de l'éducation

Université Clermont Auvergne

2018-2021

L1 Mathématiques et Informatique Appliquées aux Sciences Humaines et Sociales

Université Clermont Auvergne

Engagement Associatif

  • Membre active, Une nouvelle équipe pour la vie (depuis 2025)
  • Déléguée des apprentis – Représentation et médiation (2024-2025)

Expériences Professionnelles

Sept. 2025 - Août 2026

Apprentie Ingénieure DevSecOps & IT

FormaSup Auvergne, Aubière

  • Implémentation de mesures de cybersécurité adaptées à l'organisation
  • Sensibilisation et formation de l'équipe (10 personnes) aux bonnes pratiques
  • Maintenance et optimisation des bases de données et applications
  • Déploiement et sécurisation d'un serveur VPS (mise en production, firewall, services)
  • Déploiement d'une plateforme BI avec contrôle d'accès granulaire (RBAC)
  • Référent technique interne : diagnostic et résolution d'incidents avant recours au prestataire externe
  • Rédaction de documentation technique et guides utilisateurs pour l'autonomie des équipes
  • Encadrement et formation d'un stagiaire
DevSecOps VPS RBAC
Sept. 2024 - Août 2025

Apprentie Data Engineer & BI Developer

FormaSup Auvergne, Aubière

  • Conception d'une plateforme BI complète pour les acteurs de l'alternance en Auvergne : architecture sécurisée, ETL automatisé, dashboards interactifs
  • Développement d'applications métier : tableaux de bord pour l'automatisation des indicateurs qualité, outil Tkinter de contrôle des fichiers comptables (FEC)
  • Ingénierie des données : mise en place d'une base PostgreSQL, traitement automatisé de fichiers Excel (pandas, openpyxl), validation et nettoyage de données
  • Intégration d'APIs externes pour enrichissement automatique
  • Documentation technique complète et formation des utilisateurs finaux
Data Engineering BI ETL
Avr. - Juin 2024

Stagiaire Data Engineer & BI Developer

BeBlocks France, Clermont-Ferrand

  • Optimisation d'un Data Warehouse PostgreSQL : réduction de 100 Go à 40 Go (-60%) par restructuration des schémas et indexation
  • Conception et automatisation d'ETL avec Talend
  • Création de 7 dashboards Grafana pour le monitoring de la solution BeExchange
  • Collaboration en méthodologie Agile : gestion de sprint avec Jira et GitLab
Data Warehouse Talend Agile

Projets par compétence

Cybersécurité

Protection des systèmes d'information, gestion des risques, conformité réglementaire et investigation numérique.

Elle comprend notamment :

  • Audit de sécurité et analyse de vulnérabilités
  • Gouvernance et conformité (RGPD, ISO 27001/27005)
  • Anonymisation et protection des données sensibles
  • Investigation numérique (forensic) et réponse à incident
  • Sécurisation des infrastructures et durcissement

Domaines d'application

  • SOC (Security Operations Center)
  • Threat Intelligence & Forensic
  • GRC (Gouvernance, Risques, Conformité)
  • DevSecOps

Business Intelligence

Conception et développement de solutions décisionnelles pour transformer les données en insights actionnables.

Elle comprend notamment :

  • Création de tableaux de bord interactifs
  • Reporting automatisé et KPIs
  • Visualisation de données avancée
  • Déploiement de plateformes BI (Superset, Power BI, Grafana)

Outils maîtrisés

  • Apache Superset, Power BI, Grafana
  • Excel avancé, PowerQuery
  • R Shiny, Dash (Python)
  • Data modeling & DAX

Data Engineering

Architecture et gestion des pipelines de données, de la collecte au stockage optimisé.

Elle comprend notamment :

  • Conception et optimisation de bases de données (SQL/NoSQL)
  • Développement de pipelines ETL/ELT
  • Architecture Data Warehouse et Data Lake
  • Automatisation et orchestration des flux de données

Technologies maîtrisées

  • PostgreSQL, MySQL, MongoDB
  • Talend, Python (pandas, SQLAlchemy)
  • Docker, Docker Compose
  • Administration serveur Linux

Data Science

Analyse statistique avancée, machine learning et extraction de connaissances à partir des données.

Elle comprend notamment :

  • Analyse exploratoire et statistique descriptive
  • Machine Learning (classification, régression, clustering)
  • NLP (Natural Language Processing)
  • Modélisation prédictive et séries temporelles

Méthodes et outils

  • Python (scikit-learn, TensorFlow)
  • R (tidyverse, caret)
  • Jupyter, RStudio
  • LDA, Word2Vec, Transformers

Développement

Conception et développement d'applications, d'outils d'automatisation et de solutions logicielles.

Elle comprend notamment :

  • Développement d'applications desktop et web
  • Automatisation de processus métier
  • API REST et intégrations
  • Versioning et CI/CD

Stack technique

  • Python (Flask, Tkinter, pytest)
  • JavaScript, TypeScript
  • Git, GitHub, GitLab
  • Bash, PowerShell

Humanités

Réflexion critique, analyse éthique et communication autour des enjeux sociétaux liés aux données et au numérique.

Elle comprend notamment :

  • Éthique des données et de l'IA
  • Analyse d'impact sociétal et territorial
  • Rédaction de rapports et documentation technique
  • Communication scientifique et vulgarisation

Domaines d'application

  • Éthique et conformité
  • Rédaction technique
  • Impact social
  • Veille et prospective
2025-2026 Pro

FormaSup BI Platform – Plateforme Business Intelligence

BI Data Engineering Cybersécurité

Plateforme BI production-ready basée sur Apache Superset 6.0.0 avec traduction française complète, outils de migration MariaDB→PostgreSQL, et déploiement Docker sécurisé pour FormaSup Auvergne et ses partenaires académiques.

Description détaillée

Plateforme Business Intelligence complète conçue pour FormaSup Auvergne et ses partenaires académiques (UCA, Clermont School of Business, ISRP). Ce projet fournit des tableaux de bord analytiques pour l'analyse des données éducatives de l'alternance, avec une interface 100% française et des outils de migration de données robustes.

Fonctionnalités principales
  • Apache Superset 6.0.0 : Plateforme BI complète avec SQL Lab, dashboards interactifs et charts avancés
  • Traduction française complète : Interface 100% française (correction du bug Superset #35569)
  • Migration de données : Outils MariaDB vers PostgreSQL avec déduplication intelligente
  • Enrichissement API : Intégration APIs gouvernementales (INSEE, Recherche Entreprises) pour données entreprises
  • Validation SIRET : Correction et validation automatique avec rapports détaillés
Architecture technique
  • Superset (superset-fsa) : Interface BI et SQL Lab sur port 8088
  • PostgreSQL 17 (postgres-fsa) : Base de données métier sur port 5432
  • PostgreSQL 15 (superset-db) : Métadonnées Superset sur port 5442
  • Service Migration : ETL automatisé avec batch processing et rate limiting
  • Service Backup : Sauvegardes quotidiennes automatisées à 3h (configurable)
Sécurité et bonnes pratiques
  • Configuration par environnement : Aucun secret codé en dur, tout via variables d'environnement
  • Protection CSRF : Activée par défaut dans Superset
  • Isolation réseau : Services communiquant via réseau Docker interne
  • Health checks : Récupération automatique des services
  • Requêtes paramétrées : Prévention des injections SQL dans les outils de migration
Sauvegarde et récupération
  • Sauvegardes quotidiennes automatisées (expression cron configurable)
  • Archives compressées tar.gz (-50% stockage)
  • Sauvegardes par schéma pour restauration granulaire
  • Rétention configurable (7 jours par défaut)
  • Script de restauration en une commande
Tests et qualité
  • Migration : 106 tests, couverture 80%+ (Database, API, SIRET, OPCO)
  • Superset : 25 tests, couverture 85%+ (Configuration et build)
  • Scripts de test PowerShell et Bash fournis
Technologies utilisées
Apache Superset 6.0.0 Docker & Docker Compose PostgreSQL 17 & 15 Python 3.10+ TypeScript pytest Nginx HTTPS/SSL
Soft Skills mobilisées
  • Autonomie : Architecture et développement complet en indépendance
  • Rigueur : Tests automatisés et couverture de code élevée
  • Communication : Documentation technique détaillée
  • Résolution de problèmes : Intégration de technologies complexes
2025-2026 Personnel

Portfolio Personnel – Cybersécurité & Data

Développement

Conception et développement d'un portfolio web moderne présentant mon parcours, mes compétences et mes réalisations en cybersécurité et data engineering.

Description détaillée

Ce portfolio est le site que vous consultez actuellement. Il a été entièrement conçu et développé par mes soins pour présenter de manière professionnelle mon parcours, mes compétences techniques et mes projets.

Objectifs
  • Créer une vitrine professionnelle moderne et responsive
  • Mettre en valeur mes compétences en développement web
  • Démontrer ma capacité à mener un projet de A à Z
  • Faciliter la prise de contact avec des recruteurs
Fonctionnalités
  • Design responsive : Adaptation optimale sur mobile, tablette et desktop
  • Navigation fluide : Scroll smooth et menu dynamique
  • Filtrage des projets : Système de filtres par catégorie de compétences
  • Animations : Effets visuels subtils avec AOS et CSS transitions
  • Accessibilité : Respect des bonnes pratiques ARIA
Soft Skills mobilisées
  • Autonomie : Projet personnel mené de bout en bout
  • Créativité : Conception du design et de l'expérience utilisateur
  • Rigueur : Code propre, maintenable et documenté
  • Amélioration continue : Itérations successives basées sur les retours
Technologies utilisées
HTML5 CSS3 JavaScript Responsive Design AOS Animations Font Awesome Git
2025 Pro

Audit base de données OFA Link

Data Engineering Data Science

Audit complet de la base de données OFA Link pour garantir son intégrité structurelle et optimiser ses performances.

Description détaillée

Ce projet constitue un audit complet de la base de données OFA Link, visant à garantir son intégrité structurelle et à optimiser ses performances. L'analyse examine en profondeur la structure de la base de données, les relations entre tables, et l'efficacité des requêtes pour identifier les opportunités d'amélioration.

Technologies Utilisées
PostgreSQL Python Pandas NumPy Matplotlib Seaborn Jupyter Notebook
Résultats Obtenus
  • Identification et correction des incohérences dans les relations entre tables
  • Optimisation des index pour améliorer les performances des requêtes
  • Documentation complète de la structure de la base de données
  • Recommandations détaillées pour les futures améliorations
Défis et Solutions
  • Complexité des schémas : Utilisation de techniques de visualisation avancées pour cartographier les relations
  • Volume important de données : Implémentation d'échantillonnage stratifié pour l'analyse
  • Détection d'anomalies : Développement d'algorithmes personnalisés pour identifier les incohérences subtiles
Impact du Projet
  • Amélioration de l'intégrité des données garantissant des informations fiables pour la prise de décision
  • Optimisation des performances réduisant les temps de réponse de 30%
  • Établissement d'un cadre pour les audits périodiques futurs
  • Documentation complète facilitant la maintenance et les évolutions futures
Soft Skills mobilisées
  • Analyse critique : Examen méthodique des structures de données
  • Esprit de synthèse : Documentation des recommandations
  • Force de proposition : Suggestions d'optimisation concrètes
2025 Pro

Automatisation de Contrôle FEC

Développement Data Engineering

Développement d'une application Python pour automatiser le contrôle des fichiers FEC et des données de versements, permettant d'identifier les anomalies financières.

Description détaillée

Ce projet consiste en une application Python qui automatise le contrôle entre les fichiers FEC (Fichier des Écritures Comptables) et les données de versements pour identifier les anomalies financières.

Fonctionnalités principales
  • Importation et nettoyage : Chargement des données de versements à partir de fichiers Excel et traitement des fichiers FEC (format texte tabulé).
  • Détection d'anomalies : Identification automatique des écarts entre montants facturés et encaissés.
  • Interface utilisateur : Interface graphique intuitive avec visualisation des résultats.
  • Export des résultats : Génération de rapports Excel pour faciliter les actions correctives.
Architecture
  • FECAnalyzer : Gère la logique métier de traitement des données.
  • ControleFacturationsApp : Gère l'interface utilisateur et les interactions.
Résultats obtenus
  • Réduction significative du temps consacré aux contrôles financiers.
  • Identification systématique des écarts entre facturations et encaissements.
  • Visualisation claire des anomalies à travers une interface utilisateur intuitive.
  • Export des résultats pour faciliter les actions correctives.
Soft Skills mobilisées
  • Autonomie : Conception et développement en totale indépendance
  • Écoute des besoins : Analyse des attentes métier pour concevoir une solution adaptée
  • Résolution de problèmes : Traitement de formats de données hétérogènes
Technologies utilisées
Python Pandas openpyxl ttkbootstrap Threading
2025 Académique

Étude de cas – Le tourisme en France et dans le Cantal

Data Science BI Humanités

Analyse de l'impact du tourisme sur l'attractivité territoriale à l'échelle nationale et locale (Cantal), identifiant leviers, freins et actions pour renforcer la compétitivité d'un territoire rural.

Description détaillée

Projet universitaire dans le cadre de la SAE 6-06 : Attractivité territoriale (2024-2025), réalisé en collaboration avec Kilian Giraud et Doudedji Justus Hounton.

Objectifs du projet

Analyser l'impact du tourisme sur l'attractivité territoriale à l'échelle nationale et locale (Cantal), en identifiant les leviers de développement, les freins existants et les actions possibles pour renforcer l'image et la compétitivité d'un territoire rural.

Contenu et approche
  • Analyse nationale : Étude du poids du tourisme en France (8 % du PIB, 2 M d'emplois), tendances post-COVID, digitalisation, tourisme durable, rôle des grands événements (JO 2024, Coupe du Monde Rugby 2023).
  • Étude locale : Diagnostic complet du tourisme dans le Cantal (5,58 M de nuitées, 15 % du PIB local), valorisation des atouts naturels (Puy Mary, Lioran), culturels (villages, gastronomie) et immatériels.
  • Méthodologie : Analyse de données (INSEE, Atout France), benchmarking territorial, identification des axes de modernisation (hébergement, mobilité, communication numérique).
Défis et solutions proposées
Défis identifiés Solutions proposées
Faible notoriété internationale Campagnes ciblées, réseaux sociaux, labels touristiques
Offre d'hébergement datée Éco-lodges, gîtes immersifs, diversification qualitative
Saisonnalité du tourisme Slow tourism, bien-être, œnotourisme
Accessibilité limitée Meilleure desserte ferroviaire, mobilité douce, amélioration du Wi-Fi rural
Mes contributions
  • Rédaction de l'analyse territoriale sur le Cantal.
  • Élaboration de recommandations stratégiques (communication, diversification de l'offre).
  • Mise en forme du rapport final et structuration de la bibliographie (sources INSEE, Atout France, Statista, etc.).
Résultats obtenus
  • Rapport complet de 20 pages avec diagnostic, analyse et plan d'action.
  • Valorisation du Cantal comme destination de tourisme vert et durable.
  • Développement de compétences en analyse territoriale, stratégie touristique, communication institutionnelle.
Technologies et compétences mobilisées
Analyse de données Analyse statistique Benchmarking Stratégie territoriale Rédaction analytique
2025 Académique

Gestion des risques informatiques – Audit et plan d'action RGPD/ISO 27005

Cybersécurité

Conception et structuration d'une démarche de gestion des risques informatiques pour une PME, avec mise en conformité RGPD et normes ISO 27001/27005 pour protéger les données et assurer la résilience.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE R 5-05 : Gestion de la confidentialité et du risque (2024-2025), ce travail présente une approche méthodique pour identifier, évaluer et traiter les risques informatiques dans une PME.

Objectifs du projet

Concevoir et structurer une démarche de gestion des risques informatiques au sein d'une PME, en conformité avec le RGPD, les normes ISO 27001/27005, et les obligations légales, dans le but de protéger les données, assurer la disponibilité des services et garantir la résilience de l'entreprise.

Contenu et approche

Étude de cas : PME e-commerce (jouets en bois) dépendant d'un SI en mode SaaS (site, CRM, logistique, comptabilité).

Audit complet :

  • Identification et classification des actifs critiques (base clients, serveurs, flux de commandes, site e-commerce).
  • Analyse des vulnérabilités techniques et organisationnelles.
  • Élaboration d'une matrice de risques (impact / probabilité).

Traitement des risques :

  • Risque 1 : Indisponibilité serveur → plan de continuité (PCA/PRA), redondance, SLA.
  • Risque 2 : Fuite de données clients → chiffrement, MFA, Zero Trust, clauses contractuelles.
  • Risque 3 : Panne du site web → hébergement multi-cloud, anti-DDoS, plan de communication de crise.
Défis et solutions proposées
Risques majeurs Solutions apportées
Perte d'exploitation suite à une panne serveur Architecture redondante, PRA testé, monitoring 24/7
Fuite de données personnelles Chiffrement AES-256, MFA, sensibilisation, audits prestataires
Indisponibilité du site e-commerce Multi-hébergement, anti-DDoS, plan d'urgence et support 24/7
Mes contributions
  • Analyse juridique (RGPD, Code civil, directive NIS 2).
  • Élaboration de la matrice de risques ISO 27005.
  • Définition des mesures de sécurité techniques et organisationnelles.
  • Rédaction du plan de réponse aux incidents et recommandations stratégiques.
Résultats obtenus
  • Dossier structuré de gestion des risques ISO 27005 adapté à une PME réelle.
  • Recommandations pratiques pour assurer la conformité RGPD.
  • Acquisition de compétences en audit de sécurité, analyse d'impacts, plan de continuité, et privacy by design.
Technologies et méthodologies utilisées
ISO 27005 RGPD Plan de Continuité d'Activité Matrice de risques SLA
2025 Académique

Operation ZeroDay – Développement d'un CTF Terminal Challenge

Cybersécurité Développement

Conception et développement d'un challenge CTF (Capture The Flag) complet simulant un terminal Linux avec des énigmes de stéganographie, cryptographie et analyse forensique.

Description détaillée

Développement intégral d'un challenge de type Capture The Flag (CTF) orienté cybersécurité, mettant en scène un scénario d'agent secret devant infiltrer un système compromis pour récupérer des fragments d'information cachés et contrer une menace virale.

Objectifs du projet

Créer un environnement d'apprentissage immersif pour les compétences en cybersécurité, combinant des éléments de stéganographie, cryptographie, forensique et navigation système. Le challenge offre une expérience narrative engageante tout en testant des compétences techniques variées.

Fonctionnalités implémentées
  • Système de fichiers virtuels : Simulation complète d'une structure Linux avec +50 fichiers et répertoires navigables
  • Cryptographie avancée : Implémentation de chiffrement César, XOR, AES et RSA
  • Stéganographie : Dissimulation de messages dans des fichiers images via techniques LSB (Least Significant Bit)
  • Commandes Linux : Simulation de 25+ commandes Unix (ls, cat, cd, grep, find, etc.)
  • Virus simulé : Menace dynamique avec corruption progressive du système pour ajouter une pression temporelle
  • Indices progressifs : Système d'aide adaptatif qui s'active selon la progression du joueur
  • Interface graphique : Terminal émulé avec Tkinter, incluant une interface utilisateur réactive
Compétences cybersécurité testées
  • Analyse de traces et de logs système
  • Cryptanalyse et déchiffrement de messages codés
  • Extraction de données cachées (stéganographie)
  • Identification et neutralisation de menaces (anti-virus)
  • Navigation et reconnaissance de systèmes Linux
  • Exploitation de failles de sécurité simulées
Aspects techniques notables
  • Moteur d'exécution de commandes avec interprétation en temps réel
  • Système de progression avec sauvegarde d'état
  • Fonctions d'encodage/décodage multiples (Base64, XOR, César)
  • Gestion des permissions et simulation d'authentification (sudo)
  • Génération procédurale de contenu cryptique et d'indices
Soft Skills mobilisées
  • Créativité : Conception du scénario et des énigmes
  • Autonomie : Projet personnel mené de bout en bout
  • Pédagogie : Vulgarisation de concepts cybersec via le jeu
Technologies et compétences mobilisées
Python Tkinter Cryptographie Stéganographie Émulation terminal Simulation de menaces
2025 Académique

MedievAIl bAIttle generAIl – Simulateur de Batailles Médiévales avec IA

Data Science Développement

Simulateur de batailles médiévales en Python avec généraux IA, architecture MVC, analyses statistiques basées sur les lois de Lanchester et système de tournois. Projet collaboratif (7 développeurs) réalisé à l'INSA CVL.

Description détaillée

Projet de groupe réalisé lors du premier semestre à l'INSA Centre Val de Loire (2025-2026). Développement d'un simulateur complet de batailles médiévales opposant des généraux IA avec différentes stratégies, incluant des analyses statistiques avancées pour valider les modèles de combat de Lanchester.

Objectifs du projet

Créer un simulateur de batailles permettant d'étudier l'efficacité de différentes stratégies de combat via des IA autonomes, tout en validant empiriquement les lois de Lanchester (loi linéaire pour le mêlée, loi carrée pour les unités à distance).

Fonctionnalités principales
  • Vues multiples : Interface terminal (curses) et vue 2.5D isométrique (Pygame) avec bascule en temps réel (F9)
  • Généraux IA : 5 stratégies (BRAINDEAD, DAFT, SOMEIQ, RPC, RANDOMIQ) avec comportements distincts
  • Unités médiévales : Chevaliers, piquiers, arbalétriers avec stats et comportements uniques
  • Scénarios variés : Classic, Cavalry Charge, Shield Wall, Cannae, Lanchester
  • Système de tournois : Matchs automatisés avec classements et statistiques
  • Analyses statistiques : Validation des lois de Lanchester avec graphiques et rapports HTML
Mes contributions personnelles
  • Vue Terminal : Développement complet de l'interface terminal avec curses (navigation, zoom, auto-follow, panneaux d'info)
  • Controller Terminal : Gestion des inputs clavier, contrôle de caméra, gestion des états
  • Analyses statistiques : Implémentation des tests statistiques et validation des données
  • Module Lanchester : Conception des analyses basées sur les lois de Lanchester (pentes théoriques vs empiriques)
  • Système de tournois : Logique de matchmaking, calcul des scores et classements
  • Module Plotting : Graphiques avec plotnine (ggplot2 pour Python), génération de visualisations
  • Controllers Plotting : Orchestration de la collecte de données et génération de rapports
  • Controller principal : Participation à l'architecture et au dispatcher CLI
  • Documentation : Rédaction partielle du README et documentation technique
Lois de Lanchester implémentées
Loi Type de combat Pente théorique
Loi Linéaire Mêlée (1v1) ≈ 1.0
Loi Carrée À distance (focus fire) ≈ 0.27

Analyse : équipe A (N unités) vs équipe B (2N unités) pour mesurer les pertes et comparer aux prédictions théoriques.

Architecture technique
  • Pattern MVC : Séparation stricte Model (unités, généraux, simulation) / View (terminal, pygame) / Controller
  • Factory Pattern : Création dynamique des généraux et stratégies
  • Multiprocessing : Collection parallèle des données pour les analyses statistiques
  • Sauvegarde/Chargement : Sérialisation pickle des parties en cours
Soft Skills mobilisées
  • Travail d'équipe : Collaboration étroite avec 6 autres développeurs
  • Communication : Coordination via Git, revues de code, réunions techniques
  • Gestion de projet : Répartition des tâches et respect des deadlines
  • Adaptabilité : Intégration de contraintes techniques variées
Technologies et compétences mobilisées
Python Pygame Curses Plotnine/ggplot2 Intelligence Artificielle Statistiques Architecture MVC Git collaboratif
2024-2025 Pro

Application de Gestion des Versements

Développement Data Engineering

Développement d'une application Shiny en R pour automatiser la gestion financière des formations en apprentissage, incluant le traitement des versements, la visualisation et la génération de rapports.

Description détaillée

Cette application Shiny développée en R est un outil spécialisé dans la gestion financière des formations en apprentissage. Elle permet d'automatiser le traitement, le calcul et le suivi des versements financiers entre différents établissements de formation et leurs partenaires (OPCO, entreprises).

Fonctionnalités principales
  • Traitement automatisé des données financières : Import de fichiers Excel, nettoyage et standardisation des données, calcul des budgets, frais de gestion et montants à verser.
  • Visualisation interactive : Tableaux de bord dynamiques avec vue par formation, établissement ou partenaire, suivi des historiques de versements.
  • Génération de documents : Export de tableaux Excel, création de tableaux de bord personnalisés, rapports synthétiques pour les partenaires.
Bénéfices
  • Gain de temps grâce à l'automatisation des calculs complexes.
  • Réduction des erreurs par la standardisation des processus.
  • Meilleure traçabilité avec l'historisation des versements.
  • Amélioration de la communication via des tableaux de bord clairs.
  • Flexibilité pour s'adapter aux différentes structures de données.
Défis techniques surmontés
  • Traitement de formats de données variés et parfois incohérents.
  • Gestion des règles métier complexes pour les calculs financiers.
  • Création d'une interface utilisateur intuitive malgré la complexité des opérations.
  • Implémentation d'un système de gestion historique des versements.
Soft Skills mobilisées
  • Autonomie : Projet individuel mené de A à Z
  • Rigueur : Gestion de données financières sensibles
  • Pédagogie : Documentation et formation des utilisateurs
Technologies utilisées
R Shiny tidyverse readxl openxlsx shinydashboard
2024 Pro

Tableau de Bord d'Analyse des Formations en Alternance

BI Data Engineering

Développement d'une application Shiny interactive pour analyser les données des formations en alternance et leurs partenaires, avec des visualisations claires et des statistiques clés.

Description détaillée

Cette application Shiny crée un tableau de bord interactif permettant d'analyser les données des formations en alternance et leurs partenaires. Elle offre une visualisation claire des statistiques clés à travers plusieurs onglets thématiques.

Fonctionnalités principales
  • Formations & Partenaires : Vue d'ensemble des diplômes et établissements partenaires.
  • Effectifs par formation : Analyse détaillée des effectifs par type de diplôme et niveau RNCP.
  • Répartition par sexe : Visualisation de la parité dans les formations.
  • Entreprises : Classification des entreprises partenaires (public/privé et taille).
  • Origine géographique : Répartition territoriale des entreprises partenaires.
Points forts techniques
  • Interface utilisateur intuitive avec thème personnalisé.
  • Système d'import de données avec validation.
  • Détection automatique du niveau des diplômes.
  • Tableaux interactifs avec fonctionnalités de tri, regroupement et recherche.
  • Guide d'utilisation intégré.
Technologies utilisées
R Shiny reactable dplyr readxl bslib
2024 Académique

Modélisation Thématique d’Archives Policières par LDA

Data Science

Automatisation de la structuration d’un corpus d’archives policières par modélisation thématique non supervisée (LDA) pour identifier des thèmes criminels récurrents et appuyer le travail policier.

Description détaillée

Ce projet visait à structurer automatiquement un corpus d’archives policières en identifiant des thèmes criminels récurrents grâce à la modélisation thématique non supervisée (LDA).

Objectifs
  • Identifier les thèmes criminels récurrents dans les archives.
  • Créer une base thématique exploitable pour appuyer le travail policier.
  • Explorer les usages potentiels dans des produits data décisionnels et prédictifs.
Méthodologie
  • Prétraitement & pipeline NLP : Nettoyage linguistique, lemmatisation, POS tagging, vectorisation en Document-Term Matrix (DTM).
  • Modélisation par LDA : Choix optimal de 12 thèmes via métriques, extraction des mots-clés dominants, visualisation avec LDAvis.
  • Interprétation : Attribution de noms aux thèmes, croisement avec métadonnées spatio-temporelles.
Produits et usages potentiels
  • Exploration & suivi des crimes : Dashboard interactif, rapports périodiques.
  • IA appliquée au renseignement : Générateur de profils criminels, système de recommandations.
  • Optimisation opérationnelle : Cartes de chaleur thématiques, analyse prédictive.
Résultats obtenus
  • Génération de 12 thèmes clairs et interprétables (espionnage, crimes financiers, etc.).
  • Structuration automatisée d’un corpus initialement non balisé.
  • Prototype fonctionnel pour une analyse dynamique des thématiques.
Technologies utilisées
R LDA topicmodels udpipe ggplot2 LDAvis
2024 Académique

Analyse Statistique et Classification sur Données de Croissance

Data Science

Analyse des données de croissance d’enfants (1 à 18 ans) pour interpoler les mesures manquantes, produire des courbes normatives et mettre en œuvre des algorithmes de classification supervisée.

Description détaillée

Ce projet visait à analyser des données de croissance (taille/poids) d’enfants de 1 à 18 ans, en tenant compte du sexe, pour interpoler les mesures manquantes, produire des courbes normatives et détecter des différences significatives entre filles et garçons.

Objectifs
  • Interpoler et prédire les mesures manquantes.
  • Construire des courbes de référence pour taille, poids et IMC.
  • Détecter des différences significatives entre filles et garçons.
  • Mettre en œuvre des algorithmes de classification supervisée.
Méthodologie
  • Préparation des données : Suppression des valeurs aberrantes, interpolation PCHIP, calcul de l’IMC.
  • Analyse statistique : Calculs des médianes, écarts-types, percentiles, visualisations avancées avec ggplot2.
  • Classification : Comparaison de modèles (KNN, rpart, GLM, LDA, QDA, Naive Bayes), validation croisée, évaluation par exactitude et matrice de confusion.
  • Tests de différences significatives : Comparaison garçons/filles sur taille, poids et vitesse de croissance.
Résultats obtenus
  • Courbes normatives de croissance produites (médianes ±1σ, ±2σ, ±3σ).
  • Différences significatives de taille et poids entre sexes pour les âges 16-18.
  • Modèle rpart performant sur les données centrées.
  • Visualisation claire de la répartition de l’IMC et des classes à risque.
Défis rencontrés
  • Gestion des cas d’interpolation/extrapolation complexe.
  • Comparaison cohérente de nombreux classifieurs.
  • Automatisation des tests d’écart significatif sur plusieurs variables et âges.
Technologies utilisées
R ggplot2 dplyr pchip caret
2024 Académique

Analyse de la Couverture Médiatique du Débat entre Kamala Harris et Donald Trump

Data Science

Analyse comparative de la tonalité médiatique du débat entre Kamala Harris et Donald Trump, en explorant les biais potentiels des médias nationaux, partisans et internationaux.

Description détaillée

Ce projet visait à analyser la tonalité des articles de presse couvrant le débat sénatorial entre Kamala Harris et Donald Trump, en identifiant les biais médiatiques potentiels et les différences de perception selon les sources.

Objectifs
  • Évaluer la tonalité des articles (positive, négative, neutre) pour chaque candidat.
  • Identifier les biais médiatiques selon les sources (nationales, partisanes, internationales).
Méthodologie
  • Collecte de données : Articles publiés le 11 septembre 2024 issus de médias nationaux, partisans et internationaux.
  • Prétraitement : Nettoyage des textes, lemmatisation, annotation linguistique avec udpipe.
  • Analyse de sentiments : Utilisation des lexiques AFINN, Bing et NRC pour évaluer les émotions et la valence des articles.
  • Visualisations : Graphiques radar des émotions, barplots et boxplots comparatifs par candidat et source.
Résultats obtenus
  • Kamala Harris a bénéficié d’une couverture majoritairement positive, notamment dans les médias progressistes et internationaux.
  • Donald Trump a reçu une couverture polarisée : positive dans les médias conservateurs, négative dans les médias progressistes.
  • Les médias internationaux ont eu une perception nettement plus favorable de Harris.
Défis rencontrés
  • Difficulté des modèles lexicaux à capter les nuances de langage journalistique (sarcasme, ironie).
  • Détection imprécise des tonalités neutres ou ambivalentes.
  • Biais éventuels hérités des lexiques préexistants.
Améliorations envisagées
  • Intégration de modèles pré-entraînés comme BERT pour une meilleure contextualisation.
  • Utilisation de Topic Modeling pour explorer les thèmes dominants par source.
Technologies utilisées
R udpipe ggplot2 syuzhet radarchart
2024 Académique

Anonymisation de données médicales sensibles

Cybersécurité Data Engineering

Développement d'une solution d'anonymisation de données médicales appliquant les principes de K-Anonymité et L-Diversité pour protéger les informations sensibles des patients.

Description détaillée

Ce projet portait sur la protection des données médicales sensibles à travers le développement d'une solution d'anonymisation automatisée. J'ai conçu et implémenté des processus Talend permettant d'identifier, de traiter et d'anonymiser les informations sensibles tout en préservant la valeur analytique des données.

Informations clés
  • Objectifs : Protéger les données sensibles des patients tout en conservant l'utilité des données pour les analyses
  • Méthodes : K-Anonymité, L-Diversité, suppression d'attributs, généralisation hiérarchique
  • Processus : Identification des variables sensibles, conception des niveaux d'anonymisation, développement des jobs Talend, validation des résultats
Technologies utilisées
Talend SQL K-Anonymité L-Diversité
2024 Pro

Outil décisionnel de mesure de performance produit

BI Développement

Développement d'un outil décisionnel complet pour mesurer les performances d'un produit, incluant l'optimisation d'un datawarehouse et la création de tableaux de bord Grafana.

Description détaillée

Lors de mon stage de 3 mois chez Be Blocks, j'ai développé un outil décisionnel complet pour mesurer les performances d'un produit de l'entreprise. Ce projet m'a permis d'acquérir et de renforcer diverses compétences techniques et de gestion.

Compétences Démontrées
  • Développement d'Outils Décisionnels : Optimisation et refonte d'un datawarehouse sur différents environnements (production, intégration), utilisation avancée de Talend pour l'ETL, gestion via Talend Administration Center (TAC)
  • Gestion de Projet Agile : Participation aux sprints et réunions de planification, collaboration avec des équipes pluridisciplinaires
  • SQL : Écriture et optimisation de requêtes SQL pour extraire des données pertinentes et performantes
  • Datavisualisation : Création de tableaux de bord Grafana interactifs pour analyser les performances produit
  • Communication : Rédaction de documentation technique, présentation des résultats à l'équipe
Technologies utilisées
Talend Talend Administration Center SQL Grafana Méthodologie Agile
Soft Skills mobilisées
  • Travail d'équipe : Intégration dans une équipe pluridisciplinaire
  • Adaptabilité : Prise en main rapide de nouvelles technologies
  • Communication : Présentations régulières aux stakeholders
  • Agilité : Participation active aux cérémonies Scrum

Note: En raison de la confidentialité des informations liées à ce stage, les détails spécifiques sur les données et les méthodologies exactes ne peuvent pas être partagés.

2024 Académique

Migration SQL vers NoSQL – Étude comparative PostgreSQL / MongoDB

Data Engineering

Exploration de la transformation d'une base de données relationnelle vers une base orientée documents, avec évaluation des impacts sur les performances et identification des cas d'usage pertinents pour la dénormalisation.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE 5.02 (2024-2025), ce travail compare les approches SQL et NoSQL à travers une migration pratique de PostgreSQL vers MongoDB.

Objectifs du projet

Explorer la transformation d'une base de données relationnelle (PostgreSQL) vers une base orientée documents (MongoDB), en évaluant les impacts sur les performances, la structure des données, et les cas d'usage adaptés à la dénormalisation.

Contenu et méthodologie
  • Base SQL (PostgreSQL) : Création de 6 tables relationnelles (employés, salaires, titres, départements, etc.), insertion de données, analyse du coût des jointures SQL.
  • Optimisation SQL : Création d'une vue matérialisée pour accélérer les requêtes multi-tables (gain de +99% de temps d'exécution).
  • Export JSON : Transformation des tables en documents JSON via row_to_json, json_agg, et COPY, en vue d'une intégration NoSQL.
  • Base NoSQL (MongoDB) : Import des données, création d'index, usage de $lookup, $project, $merge pour jointures et dénormalisation.
  • Mesure des performances : Comparaison des temps d'accès avec et sans dénormalisation (MongoDB) et analyse avec explain().
Défis rencontrés et solutions
Problème Solution apportée
Jointures coûteuses en SQL Utilisation d'une vue matérialisée
JSON non importable dans MongoDB (format tableau) Création d'un script PowerShell pour "aplatir" les documents
Performances faibles lors des requêtes complexes MongoDB Dénormalisation et création de collections optimisées avec $merge
Risques liés à la redondance de données Limitation de la dénormalisation aux cas pertinents (lectures fréquentes, données stables)
Mes contributions
  • Écriture complète des scripts de création SQL, export JSON, et manipulations MongoDB.
  • Analyse des performances des requêtes dans PostgreSQL et MongoDB.
  • Développement d'un script PowerShell personnalisé pour reformater les fichiers JSON.
  • Réalisation d'une collection dénormalisée avec aggregate, project, map, et merge.
Résultats obtenus
  • Temps de requêtes réduit de 425 ms (SQL) à 2 ms (vue matérialisée).
  • Import réussi de +6 collections dans MongoDB avec des documents enrichis.
  • Création d'une base dénormalisée optimisée pour lecture rapide (temps d'accès réduit à ~100 ms).
  • Compréhension approfondie des architectures SQL vs NoSQL et de leurs cas d'usage.
Technologies utilisées
PostgreSQL MongoDB JSON PowerShell Performance Testing
2024 Académique

Conception d'un Cahier des Charges – Application de Reporting pour GlobalTrade Inc.

BI Développement

Élaboration d'un cahier des charges complet pour une application de reporting décisionnel, incluant spécifications fonctionnelles, techniques, architecture des données et prototype d'interface.

Description détaillée

Projet individuel réalisé dans le cadre d'une spécification fonctionnelle et technique (Janvier 2025), en tant qu'analyste fonctionnelle et conceptrice AMOA.

Objectif du projet

Concevoir un cahier des charges complet pour le développement d'une application de reporting décisionnel destinée à une startup fictive (GlobalTrade Inc.), dans le cadre d'un projet de business intelligence à faible budget et haute valeur ajoutée.

Contenu du livrable

Contexte & besoins :

  • Problèmes de données dispersées, reporting manuel, visibilité réduite sur les performances logistiques et financières.

Objectifs fonctionnels :

  • Centralisation via un datawarehouse PostgreSQL.
  • Visualisations interactives pour les modules Financier (CA, marges, remises) et Logistique (retards, stocks, transport).
  • Automatisation des exports de rapports.

Architecture cible :

  • Stack technique recommandée : R + Shiny + PostgreSQL.
  • Modèle en étoile pour le datawarehouse (MCD fourni).

Prototype d'interface :

  • Navigation, tableaux de bord, filtres et export.
Mes contributions
  • Rédaction intégrale du cahier des charges structuré (fonctionnel, technique, sécurité, calendrier, budget, critères d'acceptation).
  • Conception des modèles de données relationnels et analytiques (modèle en étoile).
  • Définition des cas d'usage, des exigences fonctionnelles, et des spécifications de tests.
  • Comparaison argumentée des technologies envisagées et choix justifiés (RShiny vs React/Python).
Résultats obtenus
  • Cahier des charges complet de +30 pages livrable à une équipe technique pour développement.
  • Livrable structuré selon les standards professionnels (contenu + UX, sécurité, planning, budget prévisionnel).
Compétences et technologies
Spécification fonctionnelle Modélisation de données PostgreSQL R Shiny Business Intelligence
2023 Académique

Les arrondissements de New York face aux apparitions de rongeurs

BI Data Science

Analyse et visualisation des données sur les apparitions de rats à New York (2010-2017) pour identifier les tendances spatiales et temporelles.

Description détaillée

Ce projet visait à analyser les signalements d'apparition de rongeurs dans les différents arrondissements de New York sur une période de 7 ans afin d'identifier des tendances et des facteurs explicatifs.

Informations clés
  • Sources : Données CSV des signalements de rongeurs (2010-2017)
  • Méthodes : Nettoyage des données, analyse exploratoire, visualisation géospatiale
  • Résultats : Dashboard interactif permettant d'explorer les variations saisonnières et géographiques
Technologies utilisées
Power BI PowerQuery Cartographie
2023 Académique

Analyse de Circulation et Évaluation d'une Nouvelle Intersection Routière

Data Science

Analyse de l'impact d'une nouvelle intersection sur les flux de circulation urbaine à travers la modélisation statistique, la détection d'anomalies et les prévisions de trafic.

Description détaillée

Projet de groupe réalisé dans le cadre de la SAE 3-03 : Description et prévision de données temporelles (Novembre 2023), en collaboration avec Jehanné Baleydier, Cédric Jestin et Jimmy Yobo.

Objectif du projet

Analyser l'impact de la création d'une nouvelle intersection (I4) sur la circulation d'une ville, à partir de données temporelles collectées sur 20 mois. L'étude visait à modéliser les flux de véhicules, détecter des anomalies et évaluer l'efficacité de l'infrastructure sur la répartition du trafic urbain.

Méthodologie et contenu

Prétraitement des données (R, dplyr, lubridate, tidyverse) :

  • Nettoyage et restructuration des données horaires (nov. 2015 – juin 2017).
  • Création de 3 jeux de données agrégés (heure, jour, mois).
  • Calcul de ratios Ei/Ii (entrée par intersection) et de la somme globale des entrées.

Modélisation statistique et analyse exploratoire :

  • Lissages (moyenne mobile, lissage exponentiel).
  • Modèles additifs et multiplicatifs avec saisonnalité (24h et 7 jours).
  • Détection d'anomalies par résidus (>99 %).
  • Test de coupure structurelle (test de Chow) sur les données d'entrée autour du 1er janvier 2017 (mise en service de I4).

Prédictions :

  • Prévisions sur 40 jours après le 30/06/2017 à partir du meilleur modèle retenu (additif avec saisonnalité hebdomadaire).
Mes contributions spécifiques
  • Participation au prétraitement des données
  • Participation à la modélisation des flux, aux analyses de périodicité, et aux visualisations de données.
  • Co-rédaction du rapport d'analyse, structuration des observations, interprétation des résultats des tests.
Résultats obtenus
  • Confirmation d'une meilleure répartition du trafic après l'ouverture de l'intersection I4, notamment baisse du ratio E1/I1.
  • Pas de cassure significative détectée sur E1, mais cassure validée sur E2, confirmant un changement dans les habitudes de circulation.
  • Identification d'un besoin de données plus longues pour des conclusions robustes.
Technologies utilisées
R (RStudio) tidyverse, dplyr lubridate ggplot2 gap (test de Chow)
Soft Skills mobilisées
  • Travail en binôme : Collaboration étroite et répartition des tâches
  • Communication : Co-rédaction du rapport d'analyse
  • Esprit d'analyse : Interprétation rigoureuse des résultats statistiques
2023 Académique

Analyse éthique du scandale Cambridge Analytica

Cybersécurité Humanités

Analyse des implications éthiques du scandale Cambridge Analytica sous l'angle des principes moraux, de la protection des données personnelles, et de l'usage de la data science à des fins politiques.

Description détaillée

Projet individuel réalisé dans le cadre de la SAE R3-01 : Éthique de la donnée (2023-2024). Cette analyse met en lumière l'importance cruciale de l'éthique dans la science des données, en soulignant les risques et les responsabilités associés à la collecte et à l'utilisation des données personnelles.

Contexte

En 2018, il est révélé que Cambridge Analytica a exploité les données personnelles de millions d'utilisateurs Facebook à leur insu, via une application de quiz psychologique. Ces données ont été utilisées pour élaborer des profils psychographiques destinés à influencer des comportements électoraux lors de campagnes politiques majeures.

Axes d'analyse
  • Le principe socratique : Interrogation critique des motivations des acteurs impliqués (Wylie, Kaiser)
  • Consentement informé & désengagement : Violations massives des droits des utilisateurs
  • Propriété des données : Tensions entre réalité juridique et considérations éthiques
  • Financement opaque & manipulation : Liens avec des acteurs politiques radicaux
  • Psychographie comme arme : Dérives comparées aux opérations psychologiques militaires (PSYOPS)
  • Équité algorithmique : Ciblage de populations vulnérables identifiées comme "influençables"
  • Impact sur la démocratie : Manipulation électorale, intimidation des lanceurs d'alerte
Mes contributions
  • Rédaction complète du rapport éthique à partir de sources académiques, médiatiques et juridiques
  • Application des outils de la science morale à un cas réel de dérive techno-politique
  • Analyse critique des enjeux liés à la data science non éthique, à la surveillance, et à la transparence algorithmique
Résultats et compétences développées
  • Capacité à mobiliser des concepts éthiques concrets dans un contexte de data science
  • Rédaction d'un rapport structuré alliant rigueur académique et portée critique
  • Développement d'une réflexion personnelle sur l'usage responsable des technologies
  • Compréhension des implications sociétales de la manipulation des données personnelles
Méthodologie
Recherche documentaire Analyse éthique Étude du cadre réglementaire Impact social Philosophie morale

Certifications & Langues

SecNumEdu (ANSSI)

Label de l'ANSSI certifiant la qualité de la formation en cybersécurité de l'INSA Centre Val de Loire

2025 - 2028

Diplôme d'Ingénieur CTI

Formation d'ingénieur reconnue par la Commission des Titres d'Ingénieur, spécialité Sécurité Informatique

En cours - 2028

B.U.T. Science des Données

Major de promotion - Option Cybersécurité, Parcours Visualisation et Conception d'Outils Décisionnels

2022 - 2025

Langues

Natif

Français

Langue maternelle

C1

Anglais

Avancé / Professionnel