Aller au contenu

Hypothèse de la variété

Un article de Wikipédia, l'encyclopédie libre.
Hypothèse de la variété
Type
Aspect de
Jeu de données, variété, nonlinear dimensionality reduction (en)Voir et modifier les données sur Wikidata

L’hypothèse de la variété est l'idée considérant que de nombreux ensembles de données de grande dimension, issus d’observations du monde réel, sont en réalité contenus dans des variétés latentes de faible dimension[1],[2],[3]. Autrement dit, malgré leur apparente complexité nécessitant de nombreuses variables pour être décrites, ces ensembles de données peuvent souvent être représentés par un nombre réduit de variables correspondant aux coordonnées locales de la variété sous-jacente. Ce principe est considéré comme l’une des raisons pour lesquelles les algorithmes d’apprentissage automatique parviennent à décrire efficacement des ensembles de données complexes en se basant sur quelques caractéristiques communes.

L’hypothèse de la variété est liée à l’efficacité des techniques de réduction de dimensionnalité non linéaire dans l’apprentissage automatique. De nombreuses techniques de réduction dimensionnelle partent du principe que les données se trouvent le long d'une sous-variété de faible dimension, comme la sculpture de variétés, l'alignement de variétés et la régularisation de variétés.

Les principales implications de cette hypothèse sont que :

  • Les modèles d’apprentissage automatique doivent uniquement s’adapter à des sous-espaces relativement simples, de faible dimension et hautement structurés dans leur espace d’entrée potentiel (variétés latentes).
  • Au sein d'une de ces variétés, il est toujours possible d'interpoler entre deux entrées, c'est-à-dire de transformer l'une en l'autre via un chemin continu le long duquel tous les points tombent sur la variété.

La capacité d’interpolation entre les échantillons est la clé de la généralisation dans l’apprentissage profond[4].

La géométrie de l'information des variétés statistiques

[modifier | modifier le code]

Une approche empirique de l’hypothèse de la variété s’appuie sur l’idée qu’une théorie efficace pour l’apprentissage des variétés est nécessaire. Cela repose sur le principe qu’un apprentissage automatique robuste doit encoder les ensembles de données d’intérêt en utilisant des techniques de compression de données. Cette vision s’est développée progressivement grâce aux outils de la géométrie de l’information, en grande partie grâce à la collaboration de chercheurs travaillant sur l’hypothèse du codage efficace, le codage prédictif et les méthodes bayésiennes variationnelles.

L’argument principal pour l’utilisation de la géométrie de l’information dans l’espace latent des distributions repose sur l’existence et l’unicité de la métrique d’information de Fisher[5]. Dans ce cadre général, l’objectif est de trouver une inclusion stochastique d’une variété statistique. Du point de vue des systèmes dynamiques, et dans le contexte des grands ensembles de données (big data), cette variété présente souvent des propriétés telles que l’homéostasie.

  1. Nous pouvons échantillonner de grandes quantités de données à partir du processus génératif sous-jacent.
  2. Les expériences d’apprentissage automatique sont reproductibles, de sorte que les statistiques du processus de génération présentent une stationnarité.

Dans un sens précisé par les neuroscientifiques théoriciens travaillant sur le principe de l'énergie libre, la variété statistique en question possède une couverture de Markov[6].

Références

[modifier | modifier le code]
  1. Gorban et Tyukin, « Blessing of dimensionality: mathematical foundations of the statistical physics of data », Phil. Trans. R. Soc. A., vol. 15, no 3,‎ , p. 20170237 (PMID 29555807, PMCID 5869543, DOI 10.1098/rsta.2017.0237, Bibcode 2018RSPTA.37670237G)
  2. Fefferman, Mitter et Narayanan, « Testing the manifold hypothesis », Journal of the American Mathematical Society, vol. 29, no 4,‎ , p. 983–1049 (DOI 10.1090/jams/852, arXiv 1310.0425, S2CID 50258911, lire en ligne)
  3. Olah, « Blog: Neural Networks, Manifolds, and Topology »,
  4. Francois Chollet, Deep Learning with Python, 2nd, , 128–129 p. (ISBN 9781617296864)
  5. Ariel Caticha « Geometry from Information Geometry » () (arXiv 1512.09076)
    MaxEnt 2015, the 35th International Workshop on Bayesian Inference and Maximum Entropy Methods in Science and Engineering.
  6. Kirchhoff, Parr, Palacios et Friston, « The Markov blankets of life: autonomy, active inference and the free energy principle », J. R. Soc. Interface, vol. 15, no 138,‎ , p. 20170792 (PMID 29343629, PMCID 5805980, DOI 10.1098/rsif.2017.0792)