You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
{{ message }}
This repository has been archived by the owner on Sep 28, 2023. It is now read-only.
Phase de compound : soit générale, soit limitée aux noms avec des majuscules.
Peut intervenir avant ou après la tokenization.
Deux fonctions : compound_tokens et compound_corpus ? Option des noms propres seulement avec compound_corpus ?
- Réorganiser les interfaces et ajouter token_compound
- Lemmatisation avec Spacy et udpipe
Nuages de mots :
- https://github.com/jasondavies/d3-cloud
- https://github.com/lchiffon/wordcloud2
Matrices et graphes d'association terme x terme ou document x document. Problème : lourd. Limiter le nombre de termes, et/ou permettre de choisir seulement certains termes et limiter au sous-graphe qui les contient. Les calculs peuvent être lourds, peut-être faut il demander à faire le calcul de la matrice avant et faire une interface juste pour cette matrice.
Entre documents : distance qui marche bien est celle du cosine.
Analyse de similitude : graphe des co-occurrences arbre de poids maximal