本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》(by 嵩天 北京理工大学)学习笔记。代码段均可在ide中运行by now(2021-12-01).
爬取的是百度/360搜索某个关键词返回的页面信息。
首先看一下百度请求数据的url长下面这样,这里搜索的是关键词字符串是‘Python’。
360搜索关键词'Python'的url及返回是下面这样的:
百度搜索url: http://www.baidu.com/s
360搜索url: http://www.so.com/s
继续深入了解requests方法的参数,在上一讲headers参数上又增加新参数‘params’的使用。
上一讲地址:
Python爬虫实战之二:requests-爬取亚马逊商品详情页面_miracle2me的专栏-CSDN博客
本讲关键方法:requests.get(url,headers,params)
参数解释:
url:需要爬取的网址
headers:以键值对形式传入浏览器的user-agent
params:参数,针对本项目需要传入的请求关键词
上图左边是使用爬虫爬取的网页文本,右边是网页源代码文件,结果一致,爬取成功。
上图左为爬虫爬取结果,右为网页源代码,结果一致,爬取成功。
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://www.xrbh.cn/tnews/1792.html