Résultats
Il y a 3 mois
Détection de Fraudes par Autoencodeur Variationnel entraîné sur Google AI Platform
Détection de fraudes La détection de fraudes est un sujet courant dans plusieurs domaines : financier – banques, assurances, social ou judiciaire… Une fraude est un acte malhonnête fait dans l’intention de tromper en contrevenant à la loi ou aux règlements [1]. A titre d’illustration, l’article ne considère que la fraude à la carte bancaire....
Il y a 4 mois
Attaquer des modèles de machine learning : les autres menaces et les contre-mesures – PARTIE 3
Dans les articles précédents nous avons présenté la problématique de la vulnérabilité des modèles de machine learning et nous avons présenté la confidentialité différentielle et le membership inference attack. Comme ce type d’attaque n’est pas le seul, nous allons en détailler une autre : le secret revealer[1]. Elle procède par inversion du modèle cible (de...
Il y a 5 mois
Real-Time Data Processing : Google Cloud Functions & Firebase
Aujourd’hui, la transformation numérique est plus présente, voire même indispensable afin de pouvoir se créer une place dans le futur qui nous attend. Nous y faisons déjà face et la nécessité de passer à des architectures Event-Driven est grandissante. Certains outils de cloud providers tel que GCP, AWS ou Azure peuvent alors nous aider, afin...
Il y a 5 mois
Attaquer des modèles de machine learning : la confidentialité différentielle – PARTIE 2
Dans l’article précédent, nous avons montré ce que signifie attaquer un modèle, les différents types d’attaques et les concepts nécessaires. L’objectif de cet article est de se concentrer sur la confidentialité différentielle : une technique pour se protéger contre les membership inference attacks, au moins en théorie. Pour rappel, les membership inference attacks sont des attaques ayant...
Il y a 5 mois
Découvrir la programmation fonctionnelle #5 | Typeclass
Introduction En tant que développeur, nous utilisons souvent pas mal de librairies externes qui prévoient un large panel de cas d’usages. Malheureusement, aussi large soit le panel de cas d’usage prévu, nous nous retrouvons souvent avec des cas spécifiques propres à nos applications. Afin de pallier ce problème, l’alternative est de développer des classes “chapeaux”...
Il y a 5 mois
Long Short-Term Memory (LSTM) Networks for Time Series Forecasting
Introduction Forecasting appears to be the most applied quantitative technique to time series. For example, one of the principal tasks of central banks nowadays is to accurately predict inflation rate. Necessary measures are thereafter taken to keep the latter within acceptable levels, allowing a smooth run of the economy. Most commonly, prediction of a given...
Il y a 5 mois
Packaging Python : déploiement et hébergement
Nous avons vu dans un premier article consacré à setup.py et setuptools comment générer des archives distribuables de notre bibliothèque, nous allons voir maintenant comment les publier sur https://pypi.org/, le dépôt central des bibliothèques Python. La procédure pourra s’appliquer sur n’importe quel hébergement de paquets Python, y compris privé, j’y reviendrai par la suite. Twine Finalisation...
Il y a 6 mois
Big Data Paris, on y sera !
Retrouvez-nous stand B14 ! Lundi 14 et mardi 15 septembre prochain, Publicis Sapient sera présent à Big Data Paris : stand B14, pavillon 7.3 de la Porte de Versailles. Durant deux jours, nos commerciaux Nelson, Cedric, Yoann, Mickael, Melissa, Cindy et Thanh accueilleront les visiteurs sur notre stand. Le deep reinforcement learning : pour quoi faire...
Il y a 8 mois
Étude de la stabilité à la prédiction et au réentraînement de DeepAR
L’algorithme DeepAR a été développé par Amazon pour pouvoir entraîner un unique modèle de Deep Learning sur tout un ensemble de séries temporelles (les historiques de volumes de ventes pour chaque produit dans le problème initial d’Amazon). Il a été mis en open source en juin 2019 par Amazon au sein du package d’analyse de...
Il y a 8 mois
Kafka Streams, le co-partitioning en images et en couleurs
Kafka Streams est la bibliothèque de stream processing proposée par Apache Kafka. Elle permet la transformation à la volé de flux continus. Avec cette bibliothèque il est possible d’atteindre de très faibles latences. Parmi toutes les transformations classiques réalisables (filtres, aggrégations etc) on retrouve les jointures. Il y a un concept essentiel en Kafka Streams...
Il y a 9 mois
Attaquer des modèles de machine learning : les grands types d’attaques – PARTIE 1
Peut-on faire révéler ses secrets à un modèle de machine learning ? Et si oui, comment se prémunir d’une telle attaque ? Les modèles de machine learning sont susceptibles d’utiliser des données privées et parfois sensibles, par exemple des informations précises sur des personnes (association nom/photo, habitudes et préférences, etc.). L’évolution des techniques et des...
Il y a 9 mois
Packaging Python : setup.py et setuptools
Bien que Python soit aujourd’hui extrêmement populaire il y a une facette de celui-ci qui semble toujours peu maitrisée par les développeurs qui l’utilisent : le packaging de code. Hors le packaging est une étape importante lorsque l’on veut partager et réutiliser du code sans avoir à le dupliquer dans chacun de nos projets. Nous...
Il y a 9 mois
DataXDay devient DataXDays !
Au vu de la situation actuelle, le DataXDay comme on le connaissait, ne pouvait hélas pas avoir lieu. Nous vous proposons donc un format alternatif appelé DataXDays ! Cet événement gratuit est un ensemble de conférences en remote autour de la Data. Rencontrez nos speakers, tous les mardis de juin – à partir de 13 h...
Il y a 11 mois
Reinforcement learning, les outils : RL Coach
Introduction Le reinforcement learning (apprentissage par renforcement) est une méthode d’apprentissage machine permettant de réaliser des tâches complexes de façon autonome. Ces algorithmes ont un fort potentiel mais s’avèrent parfois très longs à construire et paramétrer. Avant de démarrer un projet utilisant des algorithmes de reinforcement learning, il est donc utile de s’entourer d’outils...
Il y a 11 mois
Créez et exécutez votre premier pipeline avec Kubeflow
Cet article est le 3ème d’une série d’articles autour de Kubeflow. Les deux premiers articles ont expliqué comment installer Kubeflow Pipelines sur Google Cloud Platform et vous ont donné un aperçu de la plateforme Kubeflow Pipelines. Et maintenant, c’est le moment de créer votre propre pipeline et d’exécuter votre premier experiment. Quand vous développez et...
Il y a 11 mois
COVID19 : entre vulgarisation et modélisation
Cet article traite du COVID-19, des infections virales et des épidémies. Ayant travaillé en tant qu’ingénieur d’études dans un laboratoire académique en neuroscience pendant plusieurs années, j’ai souhaité vous partager quelques explications simples et accessibles sur les virus, leurs origines et leurs mécanismes. L’objectif n’est pas de faire un exposé exhaustif mais de vulgariser certains...
Il y a 11 mois
Automatiser la mise à jour des données dans Google Sheets grâce à Big Query et Google App Script
Le besoin de suivi en temps réel d’indicateurs issus de données ouvertes n’est pas nouveau, mais se fait sentir de façon plus aigüe en cette période de crise sanitaire. Aujourd’hui de nombreux projets permettent de visualiser l’évolution de la propagation du Covid-19 en temps réel, mais ne permettent pas forcément de faire toutes les opérations...
Il y a 11 mois
L’analyse de séries temporelles avec Prophet et DeepAR
Lors de la Xebicon 2019, Sameh Ben Fredj et moi-même avons présenté un talk autour de Prophet et DeepAR, deux librairies open source permettant de simplifier grandement les analyses de séries temporelles. Cet article a pour but de résumer le contenu de ce talk et de présenter ses principales idées. Le code ayant servi à...