python抓取网站URL小工具

1、安装Python requests模块(通过pip):

环境搭建好了!

2、测试一下抓取URL的过程:

抓取出来的URL有JavaScript代码,正则上还有待更加完善,有兴趣的可以研究下~!

工具源代码:

#coding:utf-8

import sys

import re

import requests

#获取输入URL,并获取网页text

input = raw_input("please input URL format like this(http://www.baidu.com):")

print 'input : %s' % input

r = requests.get(input)

data = r.text

#利用正则查找所有URL

link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)

count = 0

for url in link_list:

    file = open("c:\\test.txt", "a")

    file.write(url+"\n")

    count = count + 1

    print url

print '\n'

print 'total URL is:' + str(count)

print '\n'

print 'crawling achieve...'

file.close()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/262723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二叉树特性及详细例子

二叉树的性质 一般二叉树性质&#xff1a; 在非空二叉树的k层上&#xff0c;至多有2k个节点(k>0)高度为k的二叉树中,最多有2k1-1个节点(k>0)对于任何一棵非空的二叉树,如果叶节点个数为n0&#xff0c;度数为2的节点个数为n2&#xff0c;则有: n0 n2 1完全二叉树性质:只…

C#抽象类与接口的比较

相同点 ●都不能被直接实例化&#xff0c;都可以通过继承实现其抽象方法。 ●都是面向抽象编程的技术基础&#xff0c;实现了诸多的设计模式。 不同点 ●接口支持多继承&#xff1b;抽象类不能实现多继承。 ●接口只能定义抽象规则&#xff1b;抽象类既可以定义规则&#xff0c…

创建 Spring容器的三种方式

一、src路径下打包完在war包的classes层级下 1、Spring容器创建的三种方式 创建Bean容器之后创建对象&#xff1a; 其中第三种使用的是BeanFactory对象 2、spring通过配置文件用容器创建对象的原理 转载于:https://www.cnblogs.com/wmqiang/p/11537638.html

OpenSSL以及私有CA的搭建

首先我们肯定会问什么是OpneSSL,以及OpenSSL有什么用&#xff1f;当让这不仅是刚接触Linux的我想知道&#xff0c;相信大多数人和我一样也非常想知道&#xff0c;因为OpenSSL是linux上基础的服务之一&#xff0c;了解它的应用可以帮助我们更好的了解linux。那么我们先了解下什么…

重新修复安装.netframework2.0

有时候由于各种原因&#xff0c;导致.net组件失效&#xff0c;不防试试修复一下: CMD里运行: C:\Windows\Microsoft.NET\Framework\v2.0.50727\aspnet_regiis.exe -u C:\Windows\Microsoft.NET\Framework\v2.0.50727\aspnet_regiis.exe -i转载于:https://www.cnblogs.com/comcy…

电话骗术升级了,提高警惕! (转自公司内部新闻组,真人真事)

事情经过: 今天早上家里的座机接到10000号打来的欠费电话,电脑语音提示欠费2600多元,然后我就很惊讶,挂断后就打10000号查询(手动拨号,并不是回拨的).一切都跟平常打10000号一样的语音提示,一步步操作,最后转到人工台,查询结果是欠费2600多,我说不可能,平常打电话都是用手机居多…

yii使用寻呼功能

CDbCriteria这是类包使用&#xff0c;包是yii自带专门用来处理类似分类这种功能的。而我们使用yii框架然后调用这种方法会起到事半功倍的效果&#xff0c;会发现使用这个可以节省非常多的时间。让你高速的使用PHP中分页的功能。 还要使用的一个类包就是CPagination&#xff0c;…

VTK:一个面向对象的可视化类库(zz)

VTK&#xff1a;一个面向对象的可视化类库(zz) &#xff08;高隽 黄伟 合肥工业大学计算机与信息学院 合肥 230009&#xff09; 摘要 Visualization Toolkit 是一个面向对象的可视化类库&#xff0c;它为从事可视化应用程序开发的广大科研工作者提供直接的技术支持。VTK…

装配Bean的三种方式

一、装配Bean就是在xml写一个Bean标签&#xff1b;装配完Bean,还需要读取xml配置文件创建Spring容器来创建对象&#xff1b; 1、new 实现类方式 正常的三种创建Bean容器的方法都可以根据装配的Bean创建的Bean对象&#xff1b; 2、静态工厂模式方式 其中&#xff0c;静态工厂方式…

通用权限管理系统组件 (GPM - General Permissions Manager) 权限管理以前我们都是自己开发,可是到下一个系统又不适用,又改,加上人员流动大,管理很混乱...

权限管理以前我们都是自己开发&#xff0c;可是到下一个系统又不适用&#xff0c;又改&#xff0c;加上人员流动大&#xff0c;管理很混乱 Ψ吉日嘎拉 采用通用权限管理系统&#xff0c;这些烦恼就少了很多了&#xff0c;很固定&#xff0c;很稳定。 权限管理系统是否支持按组织…

Mahout 介绍

1.Hbasek-means (G级别) 2.k-meansmr (T级别)1. 2.canopy 2.贝叶斯算法 决策&#xff0c;分类&#xff0c;文档分类3.推荐系统 4.图书推荐系统 1.需求 付完款的用户90%都要回到购物车看看自己买的东西是否少买/多买 猜你喜欢 购买组合 内部推荐系统测试jps查询 转载于:https:/…

只能打开一进程

#define MUTEX_NAME _T("shit") //unicode环境下 /*#define MUTEX_NAME “shit" //多字节环境下*/ if (NULL OpenMutex(MUTEX_ALL_ACCESS, FALSE, MUTEX_NAME)) { CreateMutex(NULL, FALSE, MUTEX_NAME); } else { exit (0); } 转载于:https:…

Android游戏开发系统控件-CheckBox

Android游戏开发系统控件-CheckBox 2012/5/11 星期五 CheckBox是Android系统最普通的UI控件&#xff0c;继承了Button按钮 下面通过一个实例来学习 作者&#xff1a;wwj 功能&#xff1a;实现复选框的功能 创建项目“CheckBoxProject” 运行项目效果截图&#xff1a; 代码实现&…

改变Fragment的默认动画

FragmentTransaction ft getFragmentManager().beginTransaction(); //设置进入退出动画 ft.setCustomAnimations(R.anim.slide_in_left, R.anim.slide_out_right);DetailsFragment newFragment DetailsFragment.newInstance();ft.replace(R.id.details_fragment_container, …

如何解决管理工具MSC拒绝访问?

1.改.msc文件类型信息入手&#xff08;成功&#xff09;资源管理器&#xff0d;菜单『工具』&#xff0d;文件夹选项&#xff0d;选项卡『文件类型』找到msc&#xff0d;点击『高级』在列表框中点击『打开(O)』&#xff0d;编辑用于执行操作的应用程序下面的文本框的文本改为: …

前端文章分享

https://blog.csdn.net/WEB_CSDN_SHARE 转载于:https://www.cnblogs.com/pingxingxian/p/11541035.html

在ubuntu中使用MYBASE

一直都使用MYBASE管理资料&#xff0c;个人信息、随笔、摘要还有项目文档都在里面记录。转到UBUNTU后自然想要继续使用&#xff0c;但遗憾的发现mybase并没有linux版&#xff0c;用WINE也不能运行&#xff0c;这下可愁坏我了。 研究了一下找到解决办法&#xff0c;方法如下&…

Android从无知到有知——NO.7

的ip拨号器在监听外拨电话时用的是系统提供的广播事件。而有些时候我们须要自己设定广播事件来满足特定的须要。Ok&#xff0c;今天整一下自己定义广播事件&#xff0c;我们用一个状态监測模块向一个3G模块发送报警信息来实现这一想法。 先定义一个3g模块用来接收特定的广播&am…

Flex 学习随笔 ---- 玩 Chart

上次好象写了Flex通过web服务访问数据库&#xff0c;并绑定一个简单的Chart. 在Flex Builder 3 里&#xff0c;有很多Chart &#xff0c;我好象只会一个ColumnChart。不过其他的也差不多。 来个简单的。上代码才是王道。。 Code<mx:Panel layout"absolute" right&…

HTML与CSS:设计滚动条(仅仅适用于IE浏览器)

摘自&#xff1a;http://www.cnblogs.com/xh831213/archive/2008/07/23/1249488.htmlscrollbar属性、样式详解1&#xff0e;overflow内容溢出时的设置&#xff08;设定被设定对象是否显示滚动条&#xff09;overflow-x水平方向内容溢出时的设置overflow-y垂直方向内容溢出时的设…