支持抓取下述各站点的内容列表,并导出为json/csv格式,并对每个网页抓取图片快照。
网站名称 | 网址 |
---|---|
东北林业大学新闻站综合新闻 | https://news.nefu.edu.cn/dlyw.htm |
东北林业大学新闻站人物专栏 | https://news.nefu.edu.cn/xyrw.htm |
东北林业大学信息与计算机工程学院新闻中心 | https://icec.nefu.edu.cn/index/xwzx.htm |
东北林业大学机电工程学院 | https://cmee.nefu.edu.cn/index/xyxw.htm |
scrapy crawl icec -o titles.json
scrapy crawl icec_content -o titles.json
scrapy crawl cmee_content -o titles.json
综合新闻抓取新增了日期前缀,方便查阅日期和后续的图片快照抓取。
scrapy crawl news -o titles.json
scrapy crawl people -o titles.json
首先将抓取内容导出为csv文件,然后使用screen.py
,在其中改好chromedriver
路径、网页数据(csv)文件地址以及图片的保存路径,即可进行批量快照保存。