[seo]python抓取网页数据的三种方法

python抓取网页数据的三种方法

一、正则表达式提取网页内容

解析效率：正则表达式>lxml>beautifulsoup

代码：

import re

　　import urllib2

　　urllist = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

　　html = urllib2.urlopen(urllist).read()

　　num = re.findall('<td class="w2p_fw">(.*?)</td>',html)

　　print num

　　print "num[1]: ",num[1]

二、BeautifulSoup方法提取网页内容

代码如下：

from bs4 import BeautifulSoup

　　import urllib2

　　urllist = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

　　html = urllib2.urlopen(urllist).read()

　　#把html格式进行确定和纠正

　　soup = BeautifulSoup(html,'html.parser')

　　#找出tr标签中id属性为places_area__row的内容，如果把find改成findall函数则会把匹配所#有的内容显示出来，find函数只匹配第一次匹配的内容。

　　tr = soup.find('tr',attrs={'id':'places_area__row'})

　　td = tr.find('td',attrs={'class':'w2p_fw'})

　　#取出标签内容

　　area = td.text

　　print "area: ",area

三、lxml

lxml库功能和使用类似BeautifulSoup库，不过lxml解析速度比beautifulsoup快。

代码：

import lxml.html

　　import urllib2

　　urllist = 'http://example.webscraping.com/places/default/vie

　　w/United-Kingdom-239'

　　html = urllib2.urlopen(urllist).read()

　　tree = lxml.html.fromstring(html)

　　td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]

　　area = td.text_content()

　　print area

原文链接：https://www.jocat.cn/archives/39171，转载请注明出处。

[seo]python抓取网页数据的三种方法

在线客服

升级VIP

返回顶部

站点提示

[seo]python抓取网页数据的三种方法

猜你喜欢

潭州学院SEO视频教程 最新SEO教程完整版 第94期网络培训教程

黑帽SEO视频教程 SEO视频教程 共22课

潭州学院SEO基本+运营视频教程 2017最新SEO视频教程完整版包含课件源码

利为汇SEO全套网站优化vip培训视频教程 网站SEO教程 全套SEO教程 共160课

Czbk网络营销实地培训视频教程 SEO/SEM/网络推广/新媒体运营/电商视频教程

seo商学院第四期VIP课程视频教程 商学院SEO教程完整版共51课

在线客服

升级VIP

返回顶部

站点提示

潭州学院SEO视频教程最新SEO教程完整版第94期网络培训教程

黑帽SEO视频教程 SEO视频教程共22课

利为汇SEO全套网站优化vip培训视频教程网站SEO教程全套SEO教程共160课

seo商学院第四期VIP课程视频教程商学院SEO教程完整版共51课