阿里云服务器蜘蛛访问日志分析

阿里云服务器

运营网站的最终目的是盈利,网站不盈利没人去经营,这个是底线问题,网站盈利的前提是网站拥有大量精准流量、精准用户,所以,网站整体seo效果至关重要,精准用户大都来自搜索用户。

网站seo是一项长期短时间内很难见效的项目,但是我们可以查看蜘蛛访问我们网站的日志文件,知道百度蜘蛛在访问我们哪些页面,从而针对爬虫的访问目录和路径,对网站做出调整。

如果我们购买的是阿里云服务器,在iis信息管理器上启用日志文件功能,这种就会每天生成很多log文件,不管是用户访问还是搜索引擎爬虫访问,所有的记录都在这个log文件之中,我们可以下载到本地,针对这些log文件进行分析,利用excel表格工具或者其他日志文件分析工具,分析搜索引擎爬虫记录数据。

有没有一种可以实时查看每个爬虫的数据记录呢?比如当前网站有多少页面,哪些页面已经被抓取过,哪些从未抓取过,抓取了多少次?

答案是可以的,需要我们编写一套爬虫日志管理系统放到阿里云服务器站点下,找到网站的通用文件,尤其是调用数据库的文件,这种文件一般是全局的,我们在这个全局文件中去调用日志访问管理系统的全局文件,这样就打通了网站和日志管理系统的关系。

日志管理系统需要有以下几个功能?

1、当前有哪些爬虫种类,比如百度蜘蛛、360蜘蛛、谷歌机器人、搜狗蜘蛛等

2、显示全部网页的url或者所有目录url

3、统计每个url抓取频次和最后一次抓取时间

4、网站的总抓取频次,并对蜘蛛种类分别统计

6、蜘蛛未抓取的页面url

7、蜘蛛抓取出现500或者其他非200状态码的url

这样可以实时查看网站在搜索引擎严重的表现状态,阿里云服务器只能提供生成日志文件,但是日志文件数据比较多,并且和用户访问数据聚合在一起,难以辨认,通过日志管理系统可以可视化看到站点在爬虫”眼中“的表现状态。