Mryqu's Notes


  • 首页

  • 搜索
close

lxml.html.soupparser引入BeautifulSoup 4的work-around

时间: 2014-06-22   |   分类: Python     |   阅读: 39 字 ~1分钟

想用一下python的xpath功能分析一个html文件,lxml是比较不错的xml/html解析库,lxml功能强大,性能也不错,此外也包含了ElementTree,html5lib ,beautfulsoup 等库。 可惜我的html文件格式不是很严谨,lxml的ElementTree处理不了,就转而想用lxml的beautfulsoup来处理。 结果lxml找不到BeautifulSoup库。

lxml.html.soupparser引入BeautifulSoup 4的work-around 查了一下Anaconda装的库里面明明有Beautiful Soup 4.3.1,感觉很奇怪!! lxml.html.soupparser引入BeautifulSoup 4的work-around 原来Beautiful Soup 3目前已经停止开发,Beautiful Soup 4移植到了BS4。

下面的语句就可以引入Beautiful Soup 4了,可是lxml还是无法引入beautfulsoup。

from bs4 import BeautifulSoup

stackoverflow有一个帖子import error due to bs4 vs BeautifulSoup讲了一个work-around,可以欺骗lxml从而引入beautfulsoup。测试一下,果然工作正常了。

import sys, bs4
sys.modules['BeautifulSoup'] = bs4
import lxml.html.soupparser as soupparser

lxml.html.soupparser引入BeautifulSoup 4的work-around

标题:lxml.html.soupparser引入BeautifulSoup 4的work-around
作者:mryqu
声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处!

#python# #lxml# #beautifulsoup# #html# #xml#
通过Java反射操作注解
Python(x,y)功能实现思维导图
  • 文章目录
  • 站点概览

Programmer & Architect

662 日志
27 分类
1472 标签
GitHub Twitter FB Page
© 2009 - 2023 Mryqu's Notes
Powered by - Hugo v0.120.4
Theme by - NexT
0%