MSU

описание тем исследовательских работ для студентов

нормировка данных

попробовать разные на фиксированном пуле задач и алгоритмов, например есть тут ( интересные - tanh)

https://www.cs.ccu.edu.tw/~wylin/BA/Fusion_of_Biometrics_II.ppt

калибровка уверенности

все ссылки есть здесь - https://dyakonov.org/2020/03/27/проблема-калибровки-уверенности/ Есть куча идей - как сделать ещё / лучше. Нет честного сравнения всего и обзора (можно и более полный обзор сделать).

кодирование категориальных признаков

исследование различных спомобов кодирования категорий (отнестись к этому, как к простейшей реализации стекинга)

http://contrib.scikit-learn.org/categorical-encoding/
https://www.kaggle.com/mlisovyi/9-ways-to-treat-categorical-features-updated#
https://www.kaggle.com/ogrellier/python-target-encoding-for-categorical-features#
https://www.kaggle.com/vprokopev/mean-likelihood-encodings-a-comprehensive-study#
https://github.com/DenisVorotyntsev/CategoricalEncodingBenchmark
Дьяконов А.Г. Методы решения задач классификации с категориальными признаками // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова 2014, № 46, с. 103-127.

метрические алгоритмы / эффективные методы поиска ближайших соседей

материалы из лекции
сделать аналогичные эксперименты / критику работы (есть журнальный вариант) https://arxiv.org/abs/1708.04321

случайные леса

kernel RF https://arxiv.org/pdf/1502.03836.pdf (ещё много чего есть). Если поискать, то
- https://arxiv.org/pdf/1402.4293.pdf (тут ядра как в АПкРО)
сравнение с Extra-Trees https://stats.stackexchange.com/questions/175523/difference-between-random-forest-and-extremely-randomized-trees
просто взять все совр. реализации, хорошие реальные/модельные задачи эксперименты/графики!
Sage, A. J., Genschel, U., & Nettleton, D. (2020). Tree aggregation for random forest class probability estimation. Statistical Analysis and Data Mining: The ASA Data Science Journal. doi:10.1002/sam.11446

Исследуются разные способы агрегации вероятнсотей - всё на R - можно переписать и сделать лучше

Обзор всех новых техник! Читать и разбираться!!! https://github.com/benedekrozemberczki/awesome-decision-tree-papers

важности признаков

что быстее сходится (в RF, например) качество или важность
(done) Strobl C., Boulesteix A.-L., Zeileis A., Hothorn T. Bias in random forest variable importance measures (2007). BMC Bioinformatics, 8(1), 25.

Здесь отмечается смещение важностей в сторону признаков с большим числом категорий или масштаба. Для некоторых моделей -зависимость от способа сэмплинга (с возвратом или без).

van der Laan MJ (2006) Statistical inference for variable importance. Int J Biostat. https://doi.org/10.2202/ 1557-4679.1008

поправка идёй Бреймана - на самом деле, это теоретическая работа по мат. статистике

Gregorutti B, Michel B, Saint-Pierre P (2015) Grouped variable importance with random forests and application to multiple functional data analysis. Comput Stat Data Anal 90:15–35
Gregorutti B, Michel B, Saint-Pierre P (2017) Correlation and variable importance in random forests. Stat Comput 27(3):659–678

(вроде) теория Бреймана для регрессий

Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful: Variable importance for black-box, proprietary, or misspecified prediction models, using model class reliance. arXiv:1801.01489v3

(вроде) какое-то новое определение важности - теоретическая статья, много непонятного

Datta A, Sen S, Zick Y (2016) Algorithmic transparency via quantitative input influence: theory and experiments with learning systems. In: 2016 IEEE symposium on security and privacy (SP). IEEE, pp 598–617
Kononenko I et al (2010) An efficient explanation of individual classifications using game theory. J Mach Learn Res 11(Jan):1–18
Staniak M, Biecek P (2018) Explanations of model predictions with live and breakDown packages. arXiv:1804.01955

(вроде) SHARP

G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts. Understanding variable impor-tances in forests of randomized trees. InAdvances in Neural Information ProcessingSystems, pages 431–439, 2013.
A. Sutera, G. Louppe, V. A. Huynh-Thu, L. Wehenkel, and P. Geurts. Context-dependent feature analysis with random forests.arXiv preprint arXiv:1605.03848,2016.

(вроде) теоретическое исследование про категориальные признаки

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. Variable selection using Random Forests.Pattern Recognition Letters, Elsevier, 2010, 31 (14), pp.2225-2236.

Тут зависимость от параметров RF

оптимизация гиперпараметров

сделать обзор существующих методов / предложить быстрые (не обязательно для настройки ML-алгоритмов)

Байесовский подход: отсюда ходить по ссылкам
много современных исследований: https://sigopt.com/research
хорошая обзорная работа https://app.sigopt.com/static/pdf/SigOpt_Bayesian_Optimization_Primer.pdf

аугментация

в принципе, выигрышная тема

для звука https://arxiv.org/pdf/1904.08779.pdf

развитие ядерных методов

Если сделать по уму - они немного проигрывают DL:

одна из последних классных реализаций https://arxiv.org/pdf/1705.10958.pdf

весовые схемы, оценка меняющихся вероятностей

Решить задачу оценки вероятности p(t), сравнить метод весового оценивания с LSTM

ансамбли алгоритмов

Сначала сделать обзор существующих обзор, например, погуглив "Dietterich, T. G. (2000). Ensemble methods in machine learning."

оценивание распределения для каждого элемента метапризнаковой матрицы, генерация обучения для мета-алгоритма с помощью оценённого распределения

дисбаланс

https://arxiv.org/pdf/1901.05555.pdf - можно использовать и другой множетель для перевзвешивания (придумать!) / тут неплохой обзор подходов

Иерерхические вложения

тут надо разбираться... :)

"Regularization by noise"

Векторные представления

Начать с обзора (см. перечень), вариант темы: сделать такое же для категорий / исследовать существующие

Перечень всего-всего со словами https://github.com/Separius/awesome-sentence-embedding

SNA

много тем

для начала всё повторить и перерисовать...
подборка ресурсов https://github.com/briatte/awesome-network-analysis
тут есть неплохие ссылки https://habr.com/ru/company/dca/blog/265077/
библиотека ссылки - современные методы SNA https://github.com/benedekrozemberczki/karateclub
обнаружение сообществ https://github.com/benedekrozemberczki/awesome-community-detection

графы

предложить новые подходы генерации графов, сделать эксперименты

Есть хороший обзор: https://arxiv.org/pdf/1910.00760v1.pdf
DL графовые сети (обзор) https://arxiv.org/pdf/1901.00596.pdf
обзор много-чего по графам (современные статьи) https://github.com/benedekrozemberczki/awesome-graph-classification
аномалии в графах https://github.com/bhatiasiddharth/MIDAS

экваринтные сети

тут надо разбираться - слишком много материала

https://github.com/Chen-Cai-OSU/awesome-equivariant-network

а тут топология:

https://github.com/Chen-Cai-OSU/Topology-and-Learning

нестандартная оптимизация

для начала просто разобраться - сделать обзо по нескольким статьям

обзор по т.н. Quality-Diversity https://quality-diversity.github.io https://gitlab.com/leo.cazenille/qdpy

Дистилляция

классная идея в статье, почему-то никто не развил. Как минимум, сделать более интерпретируемые картинки ( регуляризация как в distill.pub). Можно попробовать без диф. оптимизации сделать что-то подобное. По второй работе: можно ли базис совсем маленьким сделать???

Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba, Alexei A. Efros «Dataset Distillation» // https://arxiv.org/abs/1811.10959
вторая работа Ilia Sucholutsky, Matthias Schonlau Soft-Label Dataset Distillation and Text Dataset Distillation // https://arxiv.org/pdf/1910.02551v2.pdf

Извлечение признаков из деревьев и обучение на деревьях

Оригинальная интересная идея Celine Vens, Fabrizio Costa Random Forest Based Feature Induction // https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.454.7215&rep=rep1&type=pdf
Её современная модификация https://arxiv.org/pdf/2011.02829.pdf
тут просто м.б. полезный код: https://github.com/yunchuankong/forgeNet/blob/master/forgeNet.py

Semi-, Self-and Unsupervised

Schmarje L. et al. A survey on Semi-, Self-and Unsupervised Techniques in Image Classification //arXiv preprint arXiv:2002.08721. – 2020. https://arxiv.org/pdf/2002.08721.pdf

Отличнейший обзор!

заметка в блоге можно сделать для неглубокого обучения (получится что-то типа стекинга)

SVM-кластеризация

обзор и реализация известных подходов, например

Интересные идеи

Анализ ошибок известных алогритмов, здесь NER: https://arxiv.org/ftp/arxiv/papers/1910/1910.02403.pdf
Генерация с помощью деревьев новых признаков - RuleFite: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf

Неевклидовы сети (просто почитать)

Group Equivariant Convolutional Networks https://arxiv.org/abs/1602.07576
3D G-CNNs for Pulmonary Nodule Detection https://arxiv.org/abs/1804.04656
Geodesic convolutional neural networks on Riemannian manifolds https://arxiv.org/abs/1501.06297
Geometric deep learning: going beyond Euclidean data https://arxiv.org/abs/1611.08097
Gauge Equivariant Convolutional Networks and the Icosahedral CNN https://arxiv.org/abs/1902.04615
Fake News Detection on Social Media usingGeometric Deep Learning https://arxiv.org/abs/1902.06673
книга Spectral Geometry of Shapes https://books.google.ru/books?hl=ru&lr=&id=j-O4DwAAQBAJ&oi=fnd

Онлайн-обучение

Bandit Algorithms Book https://tor-lattimore.com/downloads/book/book.pdf
блог к BAB https://banditalgs.com/
Regret Analysis of Stochastic andNonstochastic Multi-armedBandit Problems http://sbubeck.com/SurveyBCB12.pdf
Some Notes on Multi-armed Bandits (2020) https://courses.cs.washington.edu/courses/cse599i/20wi/resources/bandit_notes.pdf
http://sbubeck.com/BubeckLectureNotes.pdf
Introduction to Online Optimization 2011 курс https://courses.cs.washington.edu/courses/cse599i/18wi/
A Modern Introduction to Online Learning https://arxiv.org/pdf/1912.13213.pdf
ECE 543: Statistical Learning Theory https://courses.engr.illinois.edu/ece543/sp2019/SLT.pdf
Avrin Blum http://www.cs.cmu.edu/~avrim/Papers/survey.pdf

Оригинальное

Поиск прорывных / пустых научных областей

Есть такое решение: https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/ Есть более обширная база: https://dblp.org

Name		Name	Last commit message	Last commit date
Latest commit History 151 Commits
SEMINARS		SEMINARS
2021.md		2021.md
Metric_Learning.md		Metric_Learning.md
README.md		README.md
papers.md		papers.md
soft.md		soft.md
speech.md		speech.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MSU

нормировка данных

калибровка уверенности

кодирование категориальных признаков

метрические алгоритмы / эффективные методы поиска ближайших соседей

случайные леса

важности признаков

оптимизация гиперпараметров

аугментация

развитие ядерных методов

весовые схемы, оценка меняющихся вероятностей

ансамбли алгоритмов

дисбаланс

Иерерхические вложения

"Regularization by noise"

Векторные представления

SNA

графы

экваринтные сети

нестандартная оптимизация

Дистилляция

Извлечение признаков из деревьев и обучение на деревьях

Semi-, Self-and Unsupervised

SVM-кластеризация

Интересные идеи

Неевклидовы сети (просто почитать)

Онлайн-обучение

Оригинальное

About

Releases

Packages

Dyakonov/MSU

Folders and files

Latest commit

History

Repository files navigation

MSU

нормировка данных

калибровка уверенности

кодирование категориальных признаков

метрические алгоритмы / эффективные методы поиска ближайших соседей

случайные леса

важности признаков

оптимизация гиперпараметров

аугментация

развитие ядерных методов

весовые схемы, оценка меняющихся вероятностей

ансамбли алгоритмов

дисбаланс

Иерерхические вложения

"Regularization by noise"

Векторные представления

SNA

графы

экваринтные сети

нестандартная оптимизация

Дистилляция

Извлечение признаков из деревьев и обучение на деревьях

Semi-, Self-and Unsupervised

SVM-кластеризация

Интересные идеи

Неевклидовы сети (просто почитать)

Онлайн-обучение

Оригинальное

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages