Les mesures de dépendance basées sur les espaces de Hilbert à noyau reproduisant, également connues sous le nom de critère d’indépendance de Hilbert-Schmidt (HSIC), sont très utilisées pour mesurer la dépendance de deux vecteurs aléatoires depuis les travaux fondateurs de [Gretton et al., 2005]. Des tests statistiques d’indépendance basés sur le HSIC ont été proposés, voir [Gretton et al., 2008]. Toutefois, ces tests soulèvent la question du choix des noyaux utilisés pour définir le critère HSIC. L’une des principales contributions de ce travail est de développer une nouvelle procédure agrégée basée sur le HSIC qui évite un tel choix de noyau, et de fournir des garanties théoriques pour cette procédure.
Pour ce faire, nous introduisons tout d’abord des tests non asymptotiques basés sur des noyaux Gaussiens, qui sont d’un niveau prescrit α ∈ (0, 1). D’un point de vue théorique, nous établissons une borne supérieure pour la vitesse de séparation uniforme de ces tests sur les boules de Sobolev. Les outils utilisés sont des inégalités exponentielles pour les U-statistiques dues à [Arcones and Giné, 1993] et [Giné et al., 2000]. Dans un second temps, nous établissons une borne inférieure pour la vitesse de séparation minimax des tests d’indépendance sur les boules de Sobolev. Nous en déduisons l’optimalité des tests proposés. Enfin, nous définissons une procédure qui consiste à agréger plusieurs tests et nous montrons que cette procédure est adaptative au sens du minimax sur une large classe de boules de Sobolev. D’un point de vue pratique, nous réalisons des études numériques afin d’évaluer l’efficacité de notre procédure agrégée et nous la comparons aux tests d’indépendance existants dans la littérature, en particulier au test statistique d’indépendance basé sur l’information mutuelle du noyau étudié par [Berrett and Samworth, 2019]. Le document est disponible sur Hal [Albert et al., 2022].
Collaboration avec: Mélisande Albert, Anouar Meynaoui et Amandine Marrel
[Albert et al., 2022] Albert, M., Meynaoui, A., Laurent, B., and Marrel, A. (2022). Aggregated tests of independence based on hsic measures. The Annals of Statistics, Vol. 50, No. 2, 858-879, hal-02020084.
[Arcones and Giné, 1993] Arcones, M. A. and Giné, E. (1993). Limit theorems for u-processes. Ann. Probab., 21(3):1494–1542.
[Berrett and Samworth, 2019] Berrett, T. B. and Samworth, R. J. (2019). Nonparametric independence testing via mutual information. Biometrika, 106(3):547–566.
[Giné et al., 2000] Giné, E., Latał a, R., and Zinn, J. (2000). Exponential and moment inequalities for U-statistics. In High dimensional probability, II (Seattle, WA, 1999), volume 47 of Progr. Probab., pages 13–38. Birkhäuser Boston, Boston, MA.
[Gretton et al., 2005] Gretton, A., Bousquet, O., Smola, A., and Schölkopf, B. (2005). Measuring statistical dependence with hilbert-schmidt norms. In Jain, S., Simon, H. U., and Tomita, E., editors, Algorithmic Learning Theory, pages 63–77, Berlin, Heidelberg. Springer Berlin Heidelberg.
[Gretton et al., 2008] Gretton, A., Fukumizu, K., Teo, C. H., Song, L., Schölkopf, B., and Smola, A. J. (2008). A kernel statistical test of independence. In Platt, J. C., Koller, D., Singer, Y., and Roweis, S. T., editors, Advances in Neural Information Processing Systems 20, pages 585–592. Curran Associates, Inc.