数据分析之数据爬取

数据分析之数据爬取

爬虫原理

什么是爬虫？

爬虫，即网页爬虫，又可称为网络蜘蛛。通俗的讲，网络蜘蛛是通过网页的URL来获取网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面抽取新的URL放入队列,然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

网络爬虫流程

模拟浏览器发送请求(获取网页代码)->获取响应内容->解析内容->保存数据（存放于数据库或文件中）

爬虫实践

数据来源：某招聘网站上数据分析和数据挖掘岗位信息

爬取手段：某爬虫工具

爬取字段：招聘公司；招聘地址；岗位要求；薪资水平等

部分爬取结果如下所示：

初级数据分析学习计划

第一周：数据爬取，初步了解爬虫原理。学会用爬虫工具进行简易数据爬取，进阶阶段再通过编程实现。

第二周：概率统计知识回顾与巩固。

第三周：掌握Excel对数据进行清洗，整理和分析等工作。

第四周：复习sql语法，并用sql对数据进行分析。

第五周：学习数据可视化，熟悉常用的可视化工具以及完善ppt的制作。

第六周：整理自己的项目报告。

编辑于 2018-07-06 12:26

玻璃钢生产厂家锦州玻璃钢制品公司南宁玻璃钢花槽定做新乡玻璃钢花钵公司泉州玻璃钢装饰定做锦州玻璃钢浮雕公司娄底不锈钢雕塑哪家好肇庆玻璃钢动物雕塑制造阳江玻璃钢花箱多少钱荆门玻璃钢休闲椅定做徐州玻璃钢垃圾桶公司南充玻璃钢茶几批发泉州玻璃钢花箱多少钱吉安玻璃钢家具多少钱白城玻璃钢人物雕塑厂家直销青海玻璃钢装饰工程价格铜陵玻璃钢景观雕塑厂家直销徐州商业美陈生产厂家浙江玻璃钢花钵厂曲靖商业美陈价格揭阳玻璃钢坐凳湖州玻璃钢定做安庆玻璃钢花钵价格宿州玻璃钢装饰批发临汾玻璃钢花坛加工梅州不锈钢家具批发抚顺玻璃钢花瓶制造益阳玻璃钢设备外壳制作临沧玻璃钢家具沧州玻璃钢树池制造宁德玻璃钢花盆定做香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

玻璃钢生产厂家 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化