查看您列出的url,我执行了以下操作:使用wget下载了页面
将urllib与ipython一起使用并下载了页面
使用chrome,只保存了url
所有3个都给了我相同的结果文件(相同的大小,相同的内容)。在
这可能是因为我没有登录,但我确实看到这个网站包含了大量的javascript来呈现页面。在
我知道您正在尝试使用urllib,但是考虑到上述情况,我将使用selenium并将详细介绍如何开始使用它。这个例子需要selenium和phantomjs,但是对于selenium和firefox也可以这样做。在from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
browser_agent = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"
url = 'https://scrap.tf/stranges/47'
dcap = {}
mydriver = None
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = browser_agent
mydriver = webdriver.PhantomJS(desired_capabilities=dcap)
mydriver.implicitly_wait(30)
mydriver.set_window_size(1366,768)
mydriver.get(url)
title = mydriver.title
print (title)
page = mydriver.page_source
# debugging get screen shot to see how we look
mydriver.get_screenshot_as_file('/data/screen/test.png')
这会下载页面,并且所有javascript都会正确呈现,但是您需要登录到steam,这需要一些交互。在
您可以通过检查Chrome或Firefox中的页面,找到css选择器或xpath,并使用webdriver find_element函数来确定需要做什么。在
这也允许按键和单击。在