#开源# 妹妹站,全站采集自动发布
采集说明:crawler下的每个文件都是一个独立爬虫,分别对应一个站。需要采集那个站就修改那个文件,默认采集首页,根据标题去重。爬虫里有备注
另外,建议第一次采集全站,然后修改配置,只采集第一页,写进linux定时任务里
本地图片发布说明:cd 到 crawler,执行python3 AutoPost.py,根据提示输入本地图片所在路径,输入自动发布时间
图片压缩使用说明:有些网站可能未对图片进行压缩,一张图1m甚至几m不但降低传输速度还占空间。cd 到 crawler,执行python3 Compress.py,
根据提示输入,默认10个线程压缩,如果服务器配置高可适当增加,只压缩图片质量,尺寸不变,实测1m图片压缩到100k后肉眼看不出区别
宝塔安装教程:最初因为这是Python程序只用安装mysql和nginx(可选),所以一直没写教程。群里一老哥写了一个教程,在此借用下
直接上老哥博客地址:
https://sunsea.im/131/bt-94imm-build-beautiful-girl-picture-station/
演示地址:模板1 https://www.94imm.com、 模板2 http://mm.94imm.com(联通有墙)
git地址:https://git.coding.net/zxy_coding/94imm.git
1.环境需求Python3.6.5、mysql5.7、nginx(可选)。系统版本推荐centos7 64位 2.环境搭建 python3.6.5参考 http://blog.51cto.com/wenguonideshou/2083301,软链地址有问题,注意看回复 mysql5.7安装,参考https://blog.csdn.net/qq_38663729/article/details/79327305 python-dev安装,参考https://blog.csdn.net/default7/article/details/73368665 安装程序依赖,进入程序目录,输入:pip3 install -r requirements.txt 3.程序安装 修改silumz下settings.py文件中数据库的配置 DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': 'xxxx', 'USER': 'root', 'PASSWORD': 'xxxx', 'HOST': '127.0.0.1', 'PORT': '3306', } } 创建相应数据库,导入程序目录下的sql文件 修改nginx配置文件(centos7 /etc/nginx/nginx.conf) 配置文件的server中的location字段如下修改 location / { proxy_pass http://127.0.0.1:8000; index index.html index.htm; } 重启nginx,访问网站即可 4.修改爬虫中的数据库地址 爬虫位于crawler目录下,每一个文件都是独立的,可单独执行 建议第一次运行时修改爬虫参数为采集全站,运行完修改参数为采集第一页,然后在linux中添加定时任务。实现自动采集 5.启动程序 进入程序目录,uwsgi --ini uwsgi.ini 6.模板修改 修改silumz下settings文件中的模板配置 TEMPLATES = [ { 'BACKEND': 'django.template.backends.django.DjangoTemplates', 'DIRS': [os.path.join(BASE_DIR, 'templates'+"/"+"94imm")] 94imm为模板名 模板文件位于templates文件夹下,修改相应页面 7.其他配置 将模板目录下的pagination.html文件放入python安装目录的/site-packages/dj_pagination/templates/pagination/下 (centos7 /usr/lib/python3.6/site-packages/dj_pagination/templates/pagination) 8.备注说明 其他系统请自行百度mysql python3.6.5 nginx的安装方法,程序安装方法相同 更新内容 9.自动发布位于crawler下,执行python3 AutoPost.py 即可,注意输入文件夹时选择图片根目录,脚本会自动获取根目录下的所有子目录,并将子目录名作为标题,并复制子目录下所有文件到static/images/随机7个字母/ 下并删除源文件 10.压缩脚本位于crawler下,执行python3 Compress.py 即可,演示时使用兔玩的图片,发现图片太大,平均每张1M左右,600多套就占30G。所以写了个批量压缩脚本,同样是输入图片根目录,可以选在覆盖原图或在新目录压缩
不明白的跟帖或加qq 386523048
作者:saskeke
支持作者:sunsea.im
查看原帖:https://www.hostloc.com/thread-507774-1-1.html