Skip to content
/ MSU Public

описание тем исследовательских работ для студентов

Notifications You must be signed in to change notification settings

Dyakonov/MSU

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MSU

описание тем исследовательских работ для студентов

нормировка данных

попробовать разные на фиксированном пуле задач и алгоритмов, например есть тут ( интересные - tanh)

калибровка уверенности

все ссылки есть здесь - https://dyakonov.org/2020/03/27/проблема-калибровки-уверенности/ Есть куча идей - как сделать ещё / лучше. Нет честного сравнения всего и обзора (можно и более полный обзор сделать).

кодирование категориальных признаков

исследование различных спомобов кодирования категорий (отнестись к этому, как к простейшей реализации стекинга)

метрические алгоритмы / эффективные методы поиска ближайших соседей

  • материалы из лекции
  • сделать аналогичные эксперименты / критику работы (есть журнальный вариант) https://arxiv.org/abs/1708.04321

случайные леса

Исследуются разные способы агрегации вероятнсотей - всё на R - можно переписать и сделать лучше

важности признаков

  • что быстее сходится (в RF, например) качество или важность
  • (done) Strobl C., Boulesteix A.-L., Zeileis A., Hothorn T. Bias in random forest variable importance measures (2007). BMC Bioinformatics, 8(1), 25.

Здесь отмечается смещение важностей в сторону признаков с большим числом категорий или масштаба. Для некоторых моделей -зависимость от способа сэмплинга (с возвратом или без).

  • van der Laan MJ (2006) Statistical inference for variable importance. Int J Biostat. https://doi.org/10.2202/ 1557-4679.1008

поправка идёй Бреймана - на самом деле, это теоретическая работа по мат. статистике

  • Gregorutti B, Michel B, Saint-Pierre P (2015) Grouped variable importance with random forests and application to multiple functional data analysis. Comput Stat Data Anal 90:15–35
  • Gregorutti B, Michel B, Saint-Pierre P (2017) Correlation and variable importance in random forests. Stat Comput 27(3):659–678

(вроде) теория Бреймана для регрессий

  • Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful: Variable importance for black-box, proprietary, or misspecified prediction models, using model class reliance. arXiv:1801.01489v3

(вроде) какое-то новое определение важности - теоретическая статья, много непонятного

  • Datta A, Sen S, Zick Y (2016) Algorithmic transparency via quantitative input influence: theory and experiments with learning systems. In: 2016 IEEE symposium on security and privacy (SP). IEEE, pp 598–617
  • Kononenko I et al (2010) An efficient explanation of individual classifications using game theory. J Mach Learn Res 11(Jan):1–18
  • Staniak M, Biecek P (2018) Explanations of model predictions with live and breakDown packages. arXiv:1804.01955

(вроде) SHARP

  • G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts. Understanding variable impor-tances in forests of randomized trees. InAdvances in Neural Information ProcessingSystems, pages 431–439, 2013.
  • A. Sutera, G. Louppe, V. A. Huynh-Thu, L. Wehenkel, and P. Geurts. Context-dependent feature analysis with random forests.arXiv preprint arXiv:1605.03848,2016.

(вроде) теоретическое исследование про категориальные признаки

  • Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. Variable selection using Random Forests.Pattern Recognition Letters, Elsevier, 2010, 31 (14), pp.2225-2236.

Тут зависимость от параметров RF

оптимизация гиперпараметров

сделать обзор существующих методов / предложить быстрые (не обязательно для настройки ML-алгоритмов)

аугментация

в принципе, выигрышная тема

развитие ядерных методов

Если сделать по уму - они немного проигрывают DL:

весовые схемы, оценка меняющихся вероятностей

Решить задачу оценки вероятности p(t), сравнить метод весового оценивания с LSTM

ансамбли алгоритмов

Сначала сделать обзор существующих обзор, например, погуглив "Dietterich, T. G. (2000). Ensemble methods in machine learning."

  • оценивание распределения для каждого элемента метапризнаковой матрицы, генерация обучения для мета-алгоритма с помощью оценённого распределения

дисбаланс

  • https://arxiv.org/pdf/1901.05555.pdf - можно использовать и другой множетель для перевзвешивания (придумать!) / тут неплохой обзор подходов

Иерерхические вложения

тут надо разбираться... :)

"Regularization by noise"

Векторные представления

Начать с обзора (см. перечень), вариант темы: сделать такое же для категорий / исследовать существующие

SNA

много тем

графы

предложить новые подходы генерации графов, сделать эксперименты

экваринтные сети

тут надо разбираться - слишком много материала

а тут топология:

нестандартная оптимизация

для начала просто разобраться - сделать обзо по нескольким статьям

Дистилляция

классная идея в статье, почему-то никто не развил. Как минимум, сделать более интерпретируемые картинки ( регуляризация как в distill.pub). Можно попробовать без диф. оптимизации сделать что-то подобное. По второй работе: можно ли базис совсем маленьким сделать???

Извлечение признаков из деревьев и обучение на деревьях

Semi-, Self-and Unsupervised

Отличнейший обзор!

  • заметка в блоге можно сделать для неглубокого обучения (получится что-то типа стекинга)

SVM-кластеризация

обзор и реализация известных подходов, например

Интересные идеи

Неевклидовы сети (просто почитать)

Онлайн-обучение

Оригинальное

  • Поиск прорывных / пустых научных областей

Есть такое решение: https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/ Есть более обширная база: https://dblp.org

About

описание тем исследовательских работ для студентов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published