|
1,打开淘宝网并登陆。
( i: D3 X# N" S- A# q4 F2 e2,保持淘宝账号登陆状态,在浏览器新标签页打开有好货https://market.m.taobao.com/apps/youhaohuo/index/index4.html,随便点击一条内容页进入详情页。
& {0 \" y" Y3 }$ T6 C3,在有好货详情页面按键盘F12或鼠标右键查看元素打开浏览器的调试工具,按F5刷新一下,按如下图标注的顺序【可点击图片放大查看】/ d2 ?$ x* R- ]- c% E
7 B1 F3 [; k5 y. B1 }# X4,复制cookie到有好货后台站点设置中淘宝登陆COOKIE项。然后就可以采集了,如果cookie无效的话,只能采集默认的数据。cookie过期了可以重新登陆获取。
: O# _/ ~: T" T. R& h5,由于淘宝现在限制网页抓取比较严格,采集一段时间后会出现滑块人工验证,可以打开滑块验证成功之后,再打开有好货页面获取cookie填到后台,用验证之后的cookie接着采集。4 w# p, g* {" u0 j
6,如果用验证滑块之后的COOKIE也采集不到了,说明你的IP已经被有好货临时屏蔽了,需要等一段时间自动解封之后再采集。7,每天抽一点时间采集一些就行了,不用大量采集,持续两三个月后,内容量达几万条,百度收录会越来越多。* X7 _5 O: u5 h) |$ W6 T
' s% K5 h, \* \: V' s' C2 Y/ ~
" g* Y3 W3 h8 m3 }1 J$ T2 Q ^: m; F2 w: ?/ e3 e5 O& L+ O
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
评分
-
查看全部评分
|