如何解决爬虫暴力抓取网站数据的行为?

来源:http://www.zteidc.com 作者:sandy 发布时间:2021-01-23 16:16:39
     最近,一些网站管理员在网络上开玩笑说,为了更好地发展趋势检索业务流程,发送网络爬虫围绕网站内容的暴力行为,部分较低的网站已立即截瘫,给中小型网站所有者造成了巨大的破坏和混乱,更严重地危及了所有正常的用户浏览网站。

     该网站的站长表示,2020年7月,他突然发现企业的网站无法正常打开,页面加载极其缓慢,有时甚至立即瘫痪。经过一系列检查,网络服务器日志上发现了bytespider网络爬虫的印象。爬虫每天爬行数百万次,一天数千次,服务器带宽负载100%,爬虫在爬行时完全不遵循机器人的URL协议。网站管理员查看了网络爬虫的IP地址,以确定爬虫是大量引擎的检索爬虫。
     这样的网络爬虫不仅没有产生网站的总流量,而且危及到所有正常的用户浏览,着就不得不引起我们的注意。

     网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

     简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

     我们该如何解决爬虫暴力抓取网站数据的行为呢?众所周知的网站服务器的配置很高,专业和技术人员都很好。许多网站论坛无法忍受如此数量如此之多的搜索引擎检索网络爬虫。

     1、只要你对网站进行了访问它都有机会记录下来,“压力”这个词在你很暴力的爬取的时候会有,如果你访问时间控制的好的话就能避免“暴力”。

     2、如果你是想润物细无声(让它不知道你是爬虫)的话,除了请求页面,你还得时不时象征性的请求一下资源文件(图片,js,css),这样看着猜想浏览器。