admin 服务器教程 2023-05-25 5:01:10

关于图片服务器的反爬虫处理请教

碰到老大提了一个吐血的需求，想要给公司的图片服务器加上反爬虫处理减少带宽消耗。
我了解到的反爬虫策略有几种判断referer，判断user-agent，使用cookie。
但是做为一个写过各种爬虫的做死程序猿，我知道这几种方法都有伪造的策略可以绕过，而且很难防范。
现在老大给我扔了一个链接，说这个网站的反爬虫策略就做得很好，浏览器无referer，无cookie的情况下可以正常打开，但是如果用程序模拟、wget、curl之类的伪造user-agent就只能下载到一个大小正常但是不能打开的图片文件。
我看服务器标识是：Server:grid-cache/1.4.4
莫非是专用的图片服务端？
想请教这样的反爬虫处理是用什么策略做的？
图片链接是这样的： http://www.lady8844.com/h042/h28/img201501281600230.jpg

----------------------- 以下是精选回复-----------------------

答:谁告诉你 curl 不能伪造的

curl 'http://www.lady8844.com/h042/h28/img201501281600230.jpg' -H 'Pragma: no-cache' -H 'DNT: 1' -H 'Accept-Encoding: gzip, deflate, sdch' -H 'Accept-Language: en,zh-CN;q=0.8,zh;q=0.6' -H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.17 Safari/537.36' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8' -H 'Cache-Control: no-cache' -H 'Connection: keep-alive' --compressed

学业不精
答:只不过用 zip 之类的压缩了
下载下来改后缀名为 .zip
解压后有个无后缀名的文件
自己加个后缀名 .jpg
就可以打开了
答:只是强制返回gzip内容而已。
你用curl --compressed 就能让curl自动解压
或者你先保存然后用gunzip解压也行

客户端没设置Accept-Encoding的情况下返回压缩内容确实不符合规范。不过至少有设置Content-Encoding，多少还算客气（不客气的话浏览器就显示不出来了……）
答:话说直接chrome触发下下载，然后copy as curl就好了。。1l一看就是这么搞的。。

现在搞爬虫方便多了。。chrome神器不解释
答:一个IP过来，只读图片不读CSS/JS/HTML的，直接封IP。哪那么多废话？
答:没有办法的
答:1限制请求频率这是基本，限制好请求频率不至于浪费太多，或者要求注册，验证邮箱
2连这点带宽都要唧唧歪歪的老板，炒掉算了
答:直接暴露图片的源地址是防不住的，防IP也不行，多路ADSL+加自动重拔轻松解决
如果对图片地址做动态处理对服务器压力就大了
答:你不要想着有什么神奇的方法能够一下有效防扒了，所有安全方面的事都是持久战，你所要做到的是增加爬取的难度，比如你提到的referer检查之类的，其实你都可以加上，能破解是一回事，你用不用又是另一回事了，至少你加上了增加了爬取的难度。其实我好奇你们是什么图片呀，很受欢迎么，好图要分享呀。
答:异步处理日志封ip，以前我爬虫，在本机攫取是非常累的一个过程，一般爬虫都是放在服务器的，服务器ip一般是固定，能防大部分的爬虫。

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » 关于图片服务器的反爬虫处理请教

admin 钻石

分享到：

关于图片服务器的反爬虫处理请教

admin 钻石

0条评论

发表评论取消回复

admin 钻石

相关推荐

0条评论

发表评论 取消回复

提供最优质的资源集合

发表评论取消回复