Skip to content

oldshensheep/crawl-yande.re

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

About The Project

爬取yande.re网站上的所有图片
下载给定页数区间的图片,已经下载的会自动跳过
下载速度应该是很快的,破校园网,53 代理破解再加 clash 代理可以跑到差不多 50Mbs
下载后看看下面的提示,还有config.ini根据自身需求修改

环境要求

python >=3.8 python lib: requests

Getting start

下载项目

git clone https://github.com/oldshensheep/crawl-yande.re.git

或者下载 zip 解压

运行前配置

安装依赖 requests,这个应该都安装了。

pip3 install requests

配置文件是一个python文件,程序启动时会运行它。
打开 config.py 按照文件里的提示配置, 国内要配置代理,支持 http 代理,不填用系统代理设置
如果打开了 clash,v2ray 等代理软件,并且开启系统代理应该不用填代理设置
这里列出了配置文件文件内容

# 下载起始页 默认 1
start_page = 1

# 下载结束页 默认 100
end_page = 100

# 同时下载的线程数 默认 8
max_workers = 8

# 图片保存路径 默认为 yande.re, 不存在自动创建
filepath = "yande.re"

# http代理 不填默认没有代理/系统代理
proxy = None

# 云函数代理 默认无代理 CloudFlare Workers 代理,不需要爬墙代理啦,每天10W次请求(UTC 0)
# 部分地区/宽带 用这个可能还是下载不了或者很慢,建议使用http代理。
# "https://http-proxy.oldshensheep.workers.dev"
hproxy = None

# 连接错误重试次数 默认 2
max_retries = 2

# 连接超时 默认 4 出现Read timed out可尝试增大此值
timeout = 5

# 画质 'original jpeg sample 画质由好到差
quality = "jpeg"

运行

python3 run.py

提示

  • 下载的文件会根据画质选项分类
  • 如果全部下载建议选择 sample 画质(空间多当我没说),original 画质平均文件大小在 3.5MB
    测试 的时候不知不觉下载了 4000 多张差不多占了 17GB 的空间……
  • 如果你看到了似乎是一样的图片,那不是重复下载了,或者 yande.re 有重复的图片。(你应该小心的放大图片对比看看有什么不同(/ω\))

TODO

  1. 添加下载画质的选项
  2. 用数据库存储 id 的 tag 等信息,方便查询
  3. 添加按 tag 下载的功能
  4. 支持云函数代理 https://xxxxx.workers.dev/https://yande.re/post.json 用云函数代理,这样就可以省点流量了……(
  5. 存储 log,更友好的爬取详细输出
  6. 完善注释?
  7. 并行化请求图片 url 的过程
  8. add more todo

License

MIT License

About

Crawl all pictures on yande.re

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages