博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《精通Python网络爬虫:核心技术、框架与项目实战》——2.3 用户爬虫的那些事儿...
阅读量:6951 次
发布时间:2019-06-27

本文共 807 字,大约阅读时间需要 2 分钟。

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第2章,第2.3节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 用户爬虫的那些事儿

用户爬虫是网络爬虫中的一种类型。所谓用户爬虫,指的是专门用来爬取互联网中用户数据的一种爬虫。由于互联网中的用户数据信息,相对来说是比较敏感的数据信息,所以,用户爬虫的利用价值也相对较高。

利用用户爬虫可以做大量的事情,接下来我们一起来看一下利用用户爬虫所做的一些有趣的事情吧。

2015年,有知乎网友对知乎的用户数据进行了爬取,然后进行对应的数据分析,便得到了知乎上大量的潜在数据,比如:

知乎上注册用户的男女比例:男生占例多于60%。

知乎上注册用户的地区:北京的人口占据比重最大,多于30%。

知乎上注册用户从事的行业:从事互联网行业的用户占据比重最大,同样多于30%。

除此之外,只要我们细心发掘,还可以挖掘出更多的潜在数据,而要分析这些数据,则必须要获取到这些用户数据,此时,我们可以使用网络爬虫技术轻松爬取到这些有用的用户信息。

同样,在2015年,有网友爬取了3000万QQ空间的用户信息,并同样从中获得了大量潜在数据,比如:

QQ空间用户发说说的时间规律:晚上22点左右,平均发说说的数量是一天

中最多的时候。

QQ空间用户的出生月份分布:1月份和10月份出生的用户较多。

QQ空间用户的年龄阶段分布:出生于1990年到1995年的用户相对来说较多。

QQ空间用户的性别分布:男生占比多于50%,女生占比多于30%,未填性别的占10%左右。

除了以上两个例子之外,用户爬虫还可以做很多事情,比如爬取淘宝的用户信息,可以分析淘宝用户喜欢什么商品,从而更有利于我们对商品的定位等。

由此可见,利用用户爬虫可以获得很多有趣的潜在信息,那么这些爬虫难吗?其实不难,在阅读完本书后,相信你也能写出这样的爬虫。

转载地址:http://xjyil.baihongyu.com/

你可能感兴趣的文章
独角兽复活:Twilio上市预示IPO市场起死回生
查看>>
数据中心运维管理经验39条
查看>>
安防的未来五年 如何把握机遇深耕市场?
查看>>
如此逼真的高清图像居然是端到端网络生成的?GANs 自叹不如 | ICCV 2017
查看>>
Wework的线上社交,能否支撑其169亿估值?
查看>>
印度SaaS创企Whatfix获370万美元A轮融资
查看>>
征信考量社交化和大数据化
查看>>
虚拟仪器技术的飞跃是测试行业转折点
查看>>
SD-WAN+物联网:让城市更智慧
查看>>
最适合数据分析师的数据库为什么不是MySQL?
查看>>
携手英特尔,百度开放云将提供更强悍云服务
查看>>
用于物联网数据收集和传输的边缘网络密钥
查看>>
亚马逊股价继续大涨 首度突破每股800美元
查看>>
受两大市场拖累 IC Insights下调物联网半导体增长预期
查看>>
CenturyLink设定NG-PON2部署阶段 业务、无线回程为初始服务目标
查看>>
外贸SaaS服务公司小满科技获达晨数千万元投资
查看>>
DigitalOcean发布弹性块存储服务
查看>>
物联网还是泄秘网?嗅探流量即可知用户动向
查看>>
智能美观网速快 有这样的无线路由吗?
查看>>
存储器火热 大陆厂商3倍薪水赴台挖人
查看>>