27 avril 2023

Quelques mots sur le plongement lexical (word embedding)

Cet article de blog fait suite à un précédent article intitulé “Le modèle sac-de-mots : une introduction à la représentation de texte pour l’apprentissage automatique”, dans lequel j’ai présenté le modèle de Bag of Words (BoW) comme une approche simple pour représenter les mots sous forme vectorielle. À la fin de cet article, j’ai souligné deux limites principales de cette méthode :

Lire la suite


Le modèle de sac de mots : une introduction à la représentation de texte pour l’apprentissage automatique

De nos jours, il est fréquent de trouver des données textuelles telles que des commentaires, des descriptions de produits, des messages sur les réseaux sociaux, des articles de presse, des e-mails, des transcriptions de discours, etc. au sein des jeux de données. Cependant, les algorithmes de Machine Learning ne peuvent pas traiter directement ces données brutes. Il est donc nécessaire de les convertir en vecteurs numériques avant de pouvoir les utiliser pour la modélisation.

Lire la suite


Structures de sauvegarde de modèle de machine learning : le format hdf5

Lors de la construction d’une application en science de données, l’une des étapes les plus importantes concerne la sauvegarde et le chargement de modèles de machine learning. Cela permet de stocker des modèles entraînés pour une utilisation ultérieure et facilite le partage et le déploiement de modèles avec d’autres utilisateurs. En Python cette tache est relativement simple puisqu’il dispose de plusieurs structures de sauvegarde de modèles de machine learning, chacune offrant ses avantages et inconvénients.

Dans une série de 4 articles, nous explorerons ensemble certaines des structures de sauvegarde de modèles de machine learning les plus couramment utilisées en Python, ainsi que leurs caractéristiques et leur utilisation pratique. Il s’agit des structures HDF5 (Hierarchical Data Format 5), PICKLE, JOBLIB et ONNX.

Lire la suite


Distributions Multivariées pour le Machine Learning

Dans mes précédents articles, j’ai examiné les distributions discrètes et continues les plus couramment utilisées en science des données. Aujourd’hui, je voudrais vous présenter les distributions de probabilité multivariées continues, qui sont à la base de nombreux modèles de Machine Learning tels que la régression linéaire multivariée, l’analyse discriminante linéaire, l’analyse discriminante quadratique, etc.

Lire la suite


Distributions de probabilité continues pour le Machine Learning

Dans cet article, je vous propose de faire une repasse sur les distributions de probabilité classiques continues les plus utilisées en statistiques mais plus particulièrement en science des données. Les probabilités jouent un grand rôle en Machine Learning car elles permettent d’évaluer l’incertitude des prédictions qui sont réalisées.Une grande partie des modèles utilisés en Machine sont des modèles probabilistes.

Lire la suite


Distributions de probabilité discrètes pour le Machine Learning

 

Dans cet article, je vous propose de faire une repasse sur les distributions de probabilités classiques discrètes les plus utilisées en statistiques mais plus particulièrement en science des données. Les probabilités jouent un grand rôle en Machine Learning car elles permettent d’évaluer l’incertitude des prédictions qui sont réalisées. Une grande partie des modèles utilisés en Machine Learning sont des modèles probabilistes.

Lire la suite


Méthode Bootstrap pour le provisionnement

 


En assurance non vie, la provision pour sinistre à payer (PSAP) est la valeur estimative des dépenses en principal et en frais, tant internes qu’externes, nécessaires au règlement de tous les sinistres survenus et non payés, y compris les capitaux constitutifs des rentes non encore mises à la charge de l’entreprise. Dans la suite nous mettrons en œuvre la méthode Bootstrap pour provisionnement.


Lire la suite