解决百度统计数据被爬虫污染的问题
别看我站小,其实爬虫很喜欢我这里(所以统计页经常收到一大堆垃圾数据,对分析造成了极大的影响.那咋办嘛(\#0 分析我这里遭到的数据污染,都是这样的:操作系统:macOS网络服务商:电信屏幕分辨率:1024x768屏幕颜色:32-bit操作系统:Win 7网络服务商:网通屏幕分辨率:1024x768屏幕颜色:32-bit而一个普通的访客:操作系统:Win 7网络服务商:移动屏幕分辨率:1366x768屏幕颜色:24-bit可以看出非常明显的特征:分辨率为1024*768 (这种分辨率已经极其少见)颜色深度为32 (家用显示器基本上只有24)这种组合更是诡异那不用洗了,直接前端过滤掉就好了....
用PHP做一个(可能)很快的MCBBS用户数据爬取程序
这篇文章说明了一个人吃饱了有多么无聊之前我坛有两位dalao爬了两次,但是耗时都很长.于是我就想再爬一次.而且要更快,更多,更方便.在做MCBBS水怪鉴定时我了解到有一个API,数据详细得一批.而且还是JSON!这可比正则匹配HTML快多了.走着.目标爬取更详细的数据统计更多的全站数据方便的增减进程基本构思用MySQL存储数据使用MySQL分发UID,实现方便的增减进程而不影响整体当然要使用API开始API地址:http://www.mcbbs.net/api/mobile/index.php?module=profile&uid=比如我:http://www.mcbbs.net/api...