初识python之 APP store排行榜 蜘蛛抓取(一)

直接上干货!!

采用python 2.7.5-windows

打开 http://www.apple.com/cn/itunes/charts/free-apps/ 

 

如上图可以见采用的是utf-8 编码  

 

经过一番思想斗争  编码如下 (拍砖别打脸)

#coding=utf-8
import urllib2    
import urllib    
import re    
import thread    
import time#----------- APP store 排行榜 -----------    
class Spider_Model:    def __init__(self):    self.page = 1    self.pages = []    self.enable = False    def GetCon(self):    myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/"    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   headers = { 'User-Agent' : user_agent }   req = urllib2.Request(myUrl, headers = headers)   myResponse = urllib2.urlopen(req)  myPage = myResponse.read()    #encode的作用是将unicode编码转换成其他编码的字符串    #decode的作用是将其他编码的字符串转换成unicode编码       print myPageprint ' '
myModel = Spider_Model()
myModel.GetCon()

  采集页面字符集 python文件字符集统一为utf-8 (贫蛋哥是认为没啥问题的)  

  打印输出结果:

                

       拿出杀手锏   www.baidu.com  

       找到原因:

        http://blog.csdn.net/lf8289/article/details/2465196

        http://www.crifan.com/unicodeencodeerror_gbk_codec_can_not_encode_character_in_position_illegal_multibyte_sequence/

  各种狂改中.......

        

#coding=gbk   编码修改为gbk
import urllib2    
import urllib    
import re    
import thread    
import time#----------- APP store 排行榜 -----------    
class Spider_Model:    def __init__(self):    self.page = 1    self.pages = []    self.enable = False    def GetCon(self):    myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/"    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   headers = { 'User-Agent' : user_agent }   req = urllib2.Request(myUrl, headers = headers)   myResponse = urllib2.urlopen(req)  myPage = myResponse.read()    #encode的作用是将unicode编码转换成其他编码的字符串    #decode的作用是将其他编码的字符串转换成unicode编码    unicodePage = myPage.decode('utf-8').encode('gbk','ignore') #采集页面编码为utf-8  转为 gbk (ignore来忽略非法的字符)

     print unicodePage
    print ' ' 
    myModel = Spider_Model()
    myModel.GetCon()

  运行结果:

            

转载于:https://www.cnblogs.com/etodream/p/3918264.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/264465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么叫做matlab的信号频谱分析,基于MATLAB的信号频谱分析及实现.doc

基于MATLAB的信号频谱分析及实现数 字 信 号 处 理课程设计题目: 基于MATLAB的信号频谱分析及实现学院: 信息工程专业: 通信工程班级: 1001学号: 2010013448, 2010013466姓名: 常珍珍 &#xff…

PP团队圣经巨著《Application Architecture Guide2.0》14章-数据访问层

第十四章 数据访问层指导 概览 这一章主要描述设计数据访问层时要注意的主要原则。它们覆盖了设计数据访问层遇到的通常问题及错误。下面的图表展示了数据层怎样嵌入一个通用的应用架构。 (cnblog我的图片一直上传不了,报Remote server Error,只能使用网络图片了) 数…

20个Flutter实例视频教程-第03节: 不规则底部工具栏制作-1

第03节: 不规则底部工具栏制作-1 博客地址: https://jspang.com/post/flutterDemo.html#toc-973 视频地址: https://www.bilibili.com/video/av39709290?p3 视频里面的评论:动态组件就是可以setState的组件 flutter create demo02的项目 这里…

javascript保留两位

//保留两位小数 //功能:将浮点数四舍五入,取小数点后2位 function toDecimal(x) { var f parseFloat(x); if (isNaN(f)) { return; } f Math.round(x*100)/100; return f; } //制保留2位小数,如&#xff1…

mysql内置的变量,MySQL服务器模式及相关内置变量

本章我们主要包含两部分的内容:MySQL服务器模式MySQL内置变量1. MySQL服务器模式不同的MySQL客户端可以通过不同的模式操作MySQL Server。DBA可以设置一个全局模式,而每个应用程序可以根据需要为相应的会话设置不同的模式。MySQL操作模式会影响到SQL的语…

python模块之smtplib: 用python发送SSL/TLS安全邮件

转载请注明原文出自 http://blog.csdn.net/zhaoweikid/ python的smtplib提供了一种很方便的途径发送电子邮件。它对smtp协议进行了简单的封装。smtp协议的基本命令包括: HELO 向服务器标识用户身份 MAIL 初始化邮件传输 mail from: RCPT 标识单个的邮件…

B-树

6.7 B-树★4◎3 1.B-树的定义  B-树是一种平衡的多路查找树,它在文件系统中很有用。  定义:一棵m阶的B-树,或者为空树,或为满足下列特性的m叉树:  (1)树中每个结点至多有m棵子…

dom4j和jaxp解析工具的

dom4j解析中的几个对象node --branch --document --element --commment --attribute --text branch --document --element jaxp解析中的几个对象 node --document --element --commment --attr --text dom4j解析 中全部对象都是node对象的子节点,也就是说它把说有…

mysql数据库交叉连接,MySQL数据库联合查询与连接查询

联合查询基本概念联合查询是可合并多个相似的选择查询的结果集。等同于将一个表追加到另一个表,从而实现将两个表的查询组合在一起,使用为此为UNINO或UNION ALL联合查询:将多个查询的结果合并到一起(纵向合并):字段数不变&#xf…

C#-委托和事件

要为类构造一个事件,必须用 event 来声明一个 delegate 型的字段,如: puclic calss Test{ public delegate EventHandler(object sender, EventArgs e); //声明为delegate 型的事件; } 然后要指定一个事件的名称,并写出处…

性能测试四十五:性能测试策略

1、项目具体需求,及业务场景:关注真实用户会是怎样的一个业务场景,确定用户的用户习惯。 2、指标:响应时间在多少以内,并发数多少,tps多少,总tps多少,稳定性交易总量多少,事务成功率…

原创:MD5 32位加密软件

网站后台数据库切勿使用明文保存密码,否则一旦黑客拿下你的Webshell,后果不堪设想。网站后台密码加密大多数采用的就是MD5算法加密。今天给大家送一个本人用c#简单编写的MD5 32位加密程序,虽然没有什么技术含量,但保证没有后门。 …

(教学思路 c#之类一)声明类和对象、定义类成员及其引用

上一节(教学思路 c#之面向对象二)初步理解面向对象的基本概念中,我没有提到任何的代码,只是用语言和实例来说明什么是类和对象以及面向对象的特性等基本概念,类是c#程序语言的重要核心,也是构建应用程序最主…

matlab数值过小为0,MATLAB数值计算——0

MATLAB数值计算MATLAB中文论坛基础板块常见问题归纳(出处: MATLAB中文论坛)登录http:www.mathworks.com/moler 获取NCM文件,注册账户,下载Toolbox格式,点击安装——在MATLAB中输入ncmgui出现图案即为success!(pathtool添加默认路径…

【springboot】之自动配置原理

使用springboot开发web应用是很方便,只需要引入相对应的GAV就可以使用对应的功能,springboot默认会帮我们配置好一些常用配置。那么springboot是怎么做到的呢?这篇文章将一步步跟踪源码,查看springboot到底是如何帮我们做自动化配置。 sprin…

阴雨连绵潮湿加剧 车辆防潮提升保值

近日来,申城阴雨绵绵,不但增加了行车的难度,也使爱车潮气严重,开上一会就会发现前车窗布满水汽,需要开空调吹干才能保证良好视野。此外潮气也容易对人体和车辆本身造成影响,首当其冲的是车内电器&#xff0…

php nsdata,iOS开发之数据存储之NSData

1、概述使用archiveRootObject:toFile:方法可以将一个对象直接写入到一个文件中,但有时候可能想将多个对象写入到同一个文件中,那么就要使用NSData来进行归档对象。NSData可以为一些数据提供临时存储空间,以便随后写入文件,或者存…

php:兄弟连之面向对象版图形计算器1

曾经看细说PHP的时候就想做这个&#xff0c;可是一直没什么时间&#xff0c;这次总算忙里偷闲搞了代码量比較多的project。 首先&#xff0c;文档结构&#xff0c;都在一个文件夹下就好了&#xff0c;我的就例如以下。 一開始&#xff0c;进入index.php文件。 <html><…

asp.net控件开发基础(19)

上两篇讨论了基本数据绑定控件的实现步骤&#xff0c;基本上我们按着步骤来就可以做出简单的数据绑定控件了。过年前在看DataGrid的实现&#xff0c;本来想写这个的&#xff0c;但2.0出了GridView了&#xff0c;再说表格控件实现比较复杂&#xff0c;所以先放着。我们一起打开M…

Mapreduce的序列化和流量统计程序开发

一、Hadoop数据序列化的数据类型 Java数据类型 > Hadoop数据类型 int         IntWritable float        FloatWritable long        LongWritable double       DoubleWritable String       Text boolean      BooleanWr…