from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
print line
当在HTML文件中打印一行时,我试图找到一种仅显示每个HTML元素的内容而不显示格式本身的方法。如果找到'<a href="whatever.com">some text</a>'
,它将仅打印“某些文本”,'<b>hello</b>'
打印“ hello”,等等。如何去做呢?
大多数情况下,使用BeautifulSoup,html2text或@Eloff中的代码,它仍然保留一些html元素,javascript代码...
因此,您可以结合使用这些库并删除markdown格式(Python 3):
它对我来说效果很好,但是可以增强,当然...