国家发改委网站储气能力建设/百度信息流广告推广

国家发改委网站储气能力建设,百度信息流广告推广,国外做问卷调查的网站,南阳做网站优化公司点击关注,我们共同每天进步一点点!前言本意,昨晚想发一文,在梳理思路找笔记一小半时,一朋友跟伴侣吵架了,突然从技术写文转变到情感“砖家”,微信聊了一个多小时,脑力都用光了&#…
515ff6f83e10bb716afe8eb509587db5.gif

点击关注,我们共同每天进步一点点!

前言

本意,昨晚想发一文,在梳理思路找笔记一小半时,一朋友跟伴侣吵架了,突然从技术写文转变到情感“砖家”,微信聊了一个多小时,脑力都用光了,早上开会上传了一下调整后的代码,中午补一下文,完成既定目标。

一、起因

去年在测试公司的人工智能产品中的一功能【成语接龙】,人工语音测试总玩不过【琥珀】小姐姐,叹自身知识匮乏、小琥珀之刁钻;

于是乎,网络找了几个成语数据库,找了几个现成的API,弄成自动化跑的时,自信满满时,【琥珀】却找出大量的非四字成语;

脏数据太多,很有挫败感,于是另谋出路,百度成语相对靠谱,就你了,本文为很简单的测试,主要看测试思路。

二、百度成语HTML解析

2.1、浏览器打开百度成语

https://hanyu.baidu.com/s?wd=成语

2.2、分析HTML与规律

步骤:1、正常请求--》2、抓包分析--》3、模拟请求--》不成功---》4、抓包对比分析

所有基本就是循环以上步骤直至成功为止(反爬另说,主要是变换请求信息,伪装不同的用户请求)。

2.2.1)、正常请求:略

2.2.2)、抓包分析

实操如下,很容易就找到规律,图1图2一对比,就可以找到变化的内容

请求地址:https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn=页数&_=点击时间戳

说明:忽略cookie,实测不需要,也没有反爬机制,但本文还是会保存cookie请求

575c20798170509cb65076aa851e879f.png

a87106df71c888f48273578e6d0141ce.png

  • 数据标签分析

将抓包的数据,拷贝,在线Json格式化,可以得到比较好看的结构:

53b3e72795540bf8b2d43edf6f0e1977.gif

json数据解析,得知一页20个成语,自己所需要信息结构如下:

成语:ret_array[x].name
拼音:ret_array[x].pinyin
总页数:extra.total-page

2.2.3)、模拟请求

  • [工具请求]-初步成功,可以编写脚本了
这一步只是防止蒙头写脚本,分析不到位,瞎整半天啥的。

944048f979c860eb99194a4d9a7bb090.png

3、编写脚本(模拟请求) 

  1 # -*- coding: utf-8 -*-
  2 """
  3 @author: findyou
  4 @contact: albert.peng@foxmail.com
  5 @version: 1.0
  6 @license: Apache Licence
  7 @file: get_idiom_from_baidu.py
  8 @time: 2018/10/21 20:35
  9 """
 10 
 11 __author__ = 'albert'
 12 __version__ = '1.0'
 13 
 14 import json
 15 import sqlite3
 16 
 17 import os
 18 import requests
 19 import socket
 20 import time
 21 import sys
 22 
 23 # 总页数,直接手动,不去获取了
 24 page_count = 1546
 25 
 26 # 组装请求头
 27 header = {
 28     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 29     'Accept-Encoding': 'gzip, deflate, sdch',
 30     'Accept-Language': 'zh-CN,zh;q=0.9',
 31     'Connection': 'keep-alive',
 32     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
 33 }
 34 # 默认数据库
 35 db_filename = 'idiom.sqlite3'
 36 
 37 
 38 def get_idiom_data(start_pagenum=1, end_pagenum=10, all=False):
 39     '''
 40       爬取百度成语数据,解析并保存到数据到数据库
 41       :param start_pagenum: 默认从第1页开始
 42       :param end_pagenum: 默认第10页结束
 43       '''
 44     global page_count, header
 45 
 46     # 统计成语条数
 47     idiom_count = 0
 48     # 进度条
 49     page_num = 0
 50     get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(1, int(round(time.time() * 1000)))
 51 
 52     # 获取全部成语
 53     if all:
 54         end_pagenum = page_count
 55 
 56     for i in range(start_pagenum, end_pagenum + 1):
 57         # 连接数据库
 58         conn = sqlite3.connect(db_filename)
 59         cursor = conn.cursor()
 60 
 61         # 当前时间戳
 62         # t = int(round(time.time() * 1000))
 63         # 模拟请求获取json数据
 64         try:
 65             # 自动保存cookie
 66             s = requests.session()
 67             header['Referrer'] = get_url
 68 
 69             # 百度 ajax 成语请求API
 70             get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(i, int(round(time.time() * 1000)))
 71 
 72             # 模拟请求
 73             result = s.get(get_url, headers=header)
 74             # 判断请求是否成功
 75             if result.status_code == 200:
 76                 res = json.loads(result.text)
 77                 page_count = res['extra']['total-page']
 78                 # 得到返回的成语
 79                 for a in range(len(res['ret_array'])):
 80                     txt = res['ret_array'][a]
 81                     # 条数递增
 82                     idiom_count += 1
 83 
 84                     # 目前只需:成语、拼音
 85                     name = (get_vaule(txt, 'name'))[0].strip()
 86                     pinyin = (get_vaule(txt, 'pinyin'))[0].strip()
 87                     pinyin_list = pinyin.split(" ")
 88 
 89                     # 例句
 90                     # liju = get_vaule(txt, 'liju')[0]
 91                     # 出处
 92                     # tmp = get_vaule(txt, 'source')[0]
 93                     # if len(tmp) > 0:
 94                     #     source = tmp.replace('"', '').replace("'", "").replace('\n', '')
 95                     # else:
 96                     #     source = ''
 97                     # 同义词
 98                     # get_vaule(txt, 'synonym')
 99                     # tmp = get_vaule(txt, 'term_synonym')
100                     # if len(tmp) > 0:
101                     #     synonym = tmp
102                     # else:
103 
104                     # ID,成语,拼音,成语首字,尾字,首拼,尾拼
105                     cursor.execute(
106                         'insert into IDIOM (ID,NAME,PINYIN,NAMEF,NAMEL,PINYINF,PINYINL) values (NULL,"%s","%s","%s","%s","%s","%s")' %
107                         (name, pinyin, name[0], name[len(name) - 1], pinyin_list[0], pinyin_list[len(pinyin_list) - 1]))
108             else:
109                 print("获取数据失败:第"+i+"页")
110         except requests.exceptions.ConnectTimeout as e:
111             print("http请求超时!" + str(e))
112         except socket.timeout as e:
113             print("请求超时! " + str(e))
114         except socket.error as e:
115             print("请求错误!" + str(e))
116         finally:
117             # 每获取一页,保存一次
118             cursor.close()
119             conn.commit()
120             conn.close()
121         # 进度条
122         page_num += 1
123         view_bar(page_num, end_pagenum)
124     print('\n本次爬取[百度成语] :  第 ' + str(start_pagenum) + ' 至 ' +
125           str(end_pagenum) + ' 页,共计 ' + str(idiom_count) + ' 条')
126 
127 def view_bar(num, total):
128     '''进度条'''
129     rate = num / total
130     rate_num = int(rate * 100)
131     # r = '\r %d%%' %(rate_num)
132     r = '\r[%s>] %d%%' % ('=' * rate_num, rate_num)
133     sys.stdout.write(r)
134     sys.stdout.flush
135 
136 
137 def get_vaule(idiom_dict, key_vaule):
138     if key_vaule in idiom_dict.keys():
139         return idiom_dict[key_vaule]
140     else:
141         return [' ']
142 
143 
144 def init_db(filename=db_filename):
145     '''
146      如果数据库不存在,自动在当前目录创建idiom.sqlite3:
147     '''
148     if not os.path.exists(filename):
149         conn = sqlite3.connect(filename)
150         # 创建一个Cursor:
151         cursor = conn.cursor()
152         # 建表ID 自增长key
153         cursor.execute(
154             'CREATE TABLE IDIOM (ID INTEGER PRIMARY KEY AUTOINCREMENT, NAME VARCHAR(100),NAMEF VARCHAR(10),NAMEL VARCHAR(10),\
155               PINYIN VARCHAR(100),PINYINF VARCHAR(10),PINYINL VARCHAR(10))')
156         # 关闭Cursor:
157         cursor.close()
158         # 提交事务:
159         conn.commit()
160         # 关闭Connection:
161         conn.close()
162 
163 
164 if __name__ == '__main__':
165     # 初始化数据库
166     init_db()
167 
168     # 获取1-10页的数据,数据库只会往里一直加数据,未做去重,所以以下三个方式,用最后一种。
169     # get_idiom_data()
170 
171     # 获取x-x页的数据
172     # get_idiom_data(start_pagenum=10,end_pagenum=30)
173 
174     # 获取所有数据
175     get_idiom_data(all=True)
执行> python get_idiom_from_baidu.py

[====================================================================================================>] 100%
本次爬取[百度成语] : 第 1 至 1546 页,共计 30875 条
源码:https://github.com/findyou/idiom_from_baidu

4、存在的问题
1、本脚本没有应对反爬虫机制(但实测不需要)
简单方案:请求头收集一堆,list随机取值
完整一点:代理IP+请求头list

2、保存数据较少,需要完整的成语数据
解析你想要的数据:第88行 -- 102行间
数据库增加你想要的字段:第154行 -- 155行
增加要保存的数据:第106行 -- 107行

3、成语数据不全
再爬其他成语库补充

4、单线程,速度慢
自已解决一下

三、自动化测试(接口层)

1、成语接龙游戏

正接,即接的成语的前一个字和问的成语的最后一个字一致(同字或同音都可),目前【琥珀】只支持正接中的尾首同字

2、自动化简单方案

识别【琥珀】说的成语,判断是否成语
如是成语,取其【尾字】,在数据库中获取【首字】一样的成语列表,随机给出一个成语继续。
不是成语,记录

说明:所以第二部分爬取成语只需保存数据:成语,首字,尾字

3、测试结果

正常用例-自动测试结果:

5d43d9a2a22fe50abd5ce4d001aee032.png

4、问题

1、如何做语音自动化方案?
其实主要测试逻辑一样,只需要多解决自动化用例TTS播报,被测的ASR(或文本)获取。

2、这自动化只是一个简单的功能测试,无法达到智能测试的效果?
对的,此方案仅覆盖的是成语的正确性;
趣味性、情感化等回复的语料,可人工标注或者其他方案。

原文地址:https://www.cnblogs.com/findyou/p/9828221.htmlbdbe61e5040c2c936976b4176d671d5d.png2deb367a3d1feee429c0dcd969e3d4e3.gif

喜欢请关注,有用请转发~

升职、加薪、无漏测-点“在看”

6c610c5f57568c34f809a630e57369db.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498820.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员35岁之后的出路_35岁的程序员走向何方?

当我们还刚毕业还年轻的时候我们会考虑着要找寻的工作是不错的,能够继续学习带来成长的,这位我们的将来能够带来好的阶梯。随着年龄的增长,我们逐步地面临着时下的问题,父母在家需要赡养,身体可能也不再健康&#xff0…

android 图片预览动画,Android实现仿Windows7图片预览窗格效果

本实例将显示类似于windows7提供的图片预览窗格效果,单击任意一张图片,可以在右侧显示该图片的预览效果。效果如图所示:具体实现方法:res/layout/main.xml:android:orientation"horizontal"android:layout_width"f…

得到品控手册_得到品控手册 一本令人惊喜的说明书

2020 / 08 / 26 星期三文 | 非一工厂里生产螺丝,零件,都有模子,每个一模一样,非常标准。写文章、培训、制作课程,炒菜,这些带有主观性,创造性的事,感觉很难标准化,不容…

android发送点击事件,Android 模拟发送事件

所有的事件一览图片.png一、TrackBall 事件定义:等同于连续点击左右按键。格式: roll (Default : trackball)参数: dx 为横向移动偏移量,dy 为纵向的。使用实例:向下滚动一项 input roll 0 1 input trackball 0 1图片…

android 电池电量显示不正常,vivo电量显示不正常怎么解决?vivo手机电量校准教程...

vivo手机用了一段时间会发现,手机电量显示会出现不准确的情况,明明刚充满电不到10分钟,仅剩50%电量;或者充电一晚上,电量仍然显示为70%,无法充满。小伙伴们稍安勿躁,这并不是电池本身出了问题&a…

蒙特卡洛方法_【每日一题56】蒙特卡洛方法 用试验所得的频率估计事件发生概率...

关注“中考数学当百荟”,感谢您的支持!点击“了解更多”56.将两个圆形纸片(半径都为1)如图重叠水平放置(两圆相互过对方的圆心),向该区域随机投掷骰子,求骰子落在重叠区域(阴影部分)的概率.关注“中考数学当百荟”&…

android scrollview居中,使用 HorizontalScrollView 实现滚动控制

功能要求是屏幕上固定显示 3 个 Layout 项(图片文字),支持点击切换到选择的 Layout 项,并支持滑动切换到最近的 Layout 项。最后的效果如下:下面逐步上代码:布局文件 activity_main.xml 如下:xmlns:tools"http://…

系统鸿蒙生态链,任正非透露鸿蒙系统细节,比安卓速度快60%,两三年建好生态链...

原标题:任正非透露鸿蒙系统细节,比安卓速度快60%,两三年建好生态链华为鸿蒙系统自被曝光以来,就引起全球媒体极大关注。关于鸿蒙系统的相关细节,目前大多只限于猜测和知情人士透露的些许信息。不过,近期华为…

数值传热学陶文铨pdf_西安交大陶文铨当选“2019最美科技工作者”

未来网高校频道8月12日讯(记者 杨子健 通讯员 张玥)近日,由中央宣传部、中国科学技术协会、中华人民共和国科学技术部、中国科学院、中国工程院、国家国防科技工业局联合开展“最美科技工作者”学习宣传活动,共遴选出10位2019年“最美科技工作者”。据了…

mysql load data infile 导入数据 某一列 空_Sql数据挑战赛amp;网络销售案例分析

SQL挑战赛第一期:1: 编写一个查询&#xff0c;列出员工姓名列表&#xff0c;员工每月工资超过2000美元且员工工作时间少于10个月。通过提升employee_id对结果进行排序select name from employee where salary > 2000 and months < 10 order by employee_id;2: 查询 Emplo…

html项目列表页面源码,HTML 列表

HTML 列表HTML 支持有序、无序和定义列表:HTML 列表有序列表第一个列表项第二个列表项第三个列表项无序列表列表项列表项列表项在线实例无序列表本例演示无序列表。有序列表本例演示有序列表。(可以在本页底端找到更多实例。)HTML无序列表无序列表是一个项目的列表&#xff0c;…

html用转义字符画菱形,JavaScript生成字符画(ASCII Art)

今天玩一些新的东西&#xff0c;大家都没有看过这样的视频&#xff1a;或者 这样的图片&#xff1a;网上有很多生成这种图片/视频的工具&#xff0c;但是每个程序员都有一颗造轮子的心&#xff0c;我们当然要玩出自己的花样啦。老规矩&#xff0c;还是先讲原理&#xff0c;建议…

微信更新对html影响,微信再次大更新 将极大影响用户使用习惯

[导读]微信再次迎来历史性大更新&#xff0c;小程序终于展露腾讯野心&#xff01;微信再次迎来历史性大更新&#xff0c;小程序终于展露腾讯野心!...微信小程序桌面在昨日1月22日晚&#xff0c;微信更新7.0.3版本&#xff0c;腾讯在App Store中只表示&#xff1a;本次是一次小更…

什么叫pmt测试分析_RVS — 面向目标硬件的软件性能测试工具

Rapita Verification Suite(简称&#xff1a;RVS)&#xff0c;为英国Rapita Systems公司提供的一款嵌入式系统在板测试套件。其产品符合ISO-26262、IEC-61508等行业标准&#xff0c;兼容Vxworks、Linux、SYSBIOS 等操作系统&#xff0c;支持C、C、Ada多种语言&#xff0c;多方位…

版本不见了_王者荣耀复古版本来袭?第四代主宰形象回归!可以给小兵加速

山河不足重&#xff0c;重在遇知已。好久不见&#xff0c;别来无恙来自小助理的文章推送~时值中秋&#xff0c;先祝大家中秋节快乐&#xff01;王者荣耀的新版本即将上线&#xff0c;不知道大家还记不记得新版本将会上线很多新的东西&#xff0c;峡谷路线更改&#xff0c;鼓励同…

python从小到大的顺序输出_「小白专栏」Python中使用for循环,为什么输出结果不是按顺序?...

欢迎各位小哥哥小姐姐阅读本的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!!您的点赞和关注将是我持续更新的动力呢.^v^有不懂的问题可以私聊我哦!前言如图&#xff0c;为什么输出的不是按Jen, Sarah, Phil, Edward的顺序呢&#xff1f;大家可以先想想为什么&#xff1f;思考…

雷库兹韦尔量子计算机,熬到2045年,人类可能靠人工智能战胜死亡了

这几天差评君在网上冲浪的时候&#xff0c;无意间挖到了这一张坟图。虽然这已经是五六年前的老梗了&#xff0c;但依旧今人唏嘘不已&#xff0c;毕竟这些年来的技术发展真的是又快又粗暴。让人不由得想像公知们一样阴阳怪气一番&#xff1a;科技啊&#xff0c;请你慢些走&#…

elxel表格纸张尺寸_一本书的诞生:纸张知识

平张纸的数量以令来计算&#xff0c;不论纸张(百科)大小&#xff0c;每500张为一令。卷筒纸的数量通常以吨来计算&#xff0c;即用重量来反映数量。单张纸的重量以每平方米的克重来表示&#xff0c;单位是gsm&#xff0c;即g&#xff0f;m2&#xff0c;如果说80g的纸,就是每平方…

追加的英文计算机,Latex同时添加中英文摘要

注重版权&#xff0c;若要转载烦请附上作者和链接作者&#xff1a;Joshua_yi链接&#xff1a;https://blog.csdn.net/weixin_44984664/article/details/106168468哎&#xff0c;已经步入了开始写论文的年纪了&#xff0c;从之前的上传作业也慢慢变成了上交论文第一次用latex这玩…

React 路由

引言 在我们之前写的页面当中&#xff0c;用我们的惯用思维去思考的话&#xff0c;可能会需要写很多的页面&#xff0c;例如做一个 tab 栏&#xff0c;我们可能会想每个选项都要对应一个 HTML 文件&#xff0c;这样会很麻烦&#xff0c;甚至不友好&#xff0c;我们把这种称为 …