Séminaires

L'analyse des correspondances sparse

par Prof. Gilbert Saporta (CNAM)

Europe/Paris
LMAC

LMAC

Description

On propose des variantes sparses de l'analyse des correspondances (AFC) pour des tableaux de contingence de grande taille tels que des matrices documents-termes utilisées en Text Mining . En cherchant à obtenir de nombreux coefficients nuls, l'AFC sparse remédie à la difficulté d'interpréter les résultats lorsque la taille du tableau est importante. Comme l'AFC est une ACP doublement pondérée (pour les lignes et les colonnes) ou une SVD généralisée pondérée, nous modifions en conséquence des versions sparse déjà connues de ces méthodes avec des développements spécifiques pour obtenir des solutions quasi-orthogonales et pour choisir les paramètres de sparsité. On distinguera deux cas, selon que l'on cherche à sparsifier simultanémént les lignes et les colonnes, ou seulement les lignes (ou les colonnes).

Référence:
Liu, R., Niang, N., Saporta, G., & Wang, H. (2023). Sparse correspondence analysis for large contingency tables. Advances in Data Analysis and Classification, 17 (4), pp.1037-1056.