Skip to content

Краулеры для проекта Taiga Corpus и Taiga Parser, скачивание ресурсов из открытых источников

Notifications You must be signed in to change notification settings

Cantilo/crawlers

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

crawlers

Краулеры для проекта Taiga Corpus и Taiga Parser, скачивание ресурсов из открытых источников

Ресурсы к скачиванию: Новости

Фонтанка (Оля)
Ведомости (Оля)
Известия (Оля)
Интерфакс (Таня)
Комсомольская Правда (Таня)
Лента ру (Таня)
Газета ру (Оля)

Худлит

Журнальный зал (Таня)

Остальное

Прожито ру (?)
oral history (Оля)
nplus1 (Таня)
postnauka (Таня)
Стихи ру (Таня)
Проза ру (Таня)
Арзамас (Оля)

Все скачанные данными скриптами материалы необходимо проверять на наличие лишних тегов, достоверность метатекстовой разметки и дедублицировать отдельно.

About

Краулеры для проекта Taiga Corpus и Taiga Parser, скачивание ресурсов из открытых источников

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.6%
  • Python 0.4%