大众点评爬虫

首先爬大众点评有两种方式
http://www.dianping.com/shop/14686875
直接爬店铺 大家一看这个uri 可能都明白了吧 直接一个for 循环 14686875
一般来说 一个商铺大概是三个url 初步估计应该是 330万的商家左右
(理想状态下)差不多会发1000w的请求
这个不需要登录但是对于我们这种小成本制作来说肯定是不行的
那怎么办呢
所以就有了第二种方式 先爬 搜索列表过滤 在爬详细信息 但是这种方式需要登录 不过问题不大,下面我来说一下这种方式
首先是登录那cookie

(62~~23L(Q26@U)UPS~LRQT.png

经测试 需要 _lxsdk_cuid _lxsdk _hc.v _hc.v最为重要 拿到之后就可以开始写了
然后是封禁策略 这也没啥好说的 就是ip加账号 账号就那几个 重点就是换ip 如果你请求的比较慢 其实换不换都无所谓 一个账号可以支撑10个线程 1个小时的爬取工作 到点之后需要滑动一下验证码 当然如果你是土豪 准备应cookie池当然是最好的 然后就是 _lxsdk_cuid _lxsdk 一直不变的的问题 清理一下 浏览器就好了
其实说白了 就那就是些常规的反爬措施
1.png

(url解析)
还有就是大众点评的css反扒 网上一大堆 我就不说了

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容