python discuz搜索api_python如何模拟搜索引擎分词

大家知道python非常的强大,特别针对seo也非常的有用。

1、python可以自动收集与处理信息,比如文章标题与内容

2、python可以自动登录后台发布文章

之前有写过相关利用python采集信息的文章,这里就不多说了,今天说一下怎么利用python分词。

最早我在利用python自动收集与发布文章的时候,是利用的discuz的分词api来分词的,这样我就不用人工对每篇文章填入关键词,非常的方便,而且还是比较精准的。

但是这种方法觉得不是太通用

1、效率好像有点慢

2、要自己有个论坛,并且会抓包分析才行,门槛高

最近发现python有个包非常好用,可以直接模拟搜索引擎进行分词,所以就利用python专门写了个分词程序。

举个例子,我昨天写了一篇文章标题是:python批量查询网页收录情况并计算收录率

我用写好的分词程序可以实现自动分词,运行结果如下图:

其原理就是利用结巴分词来实现的。

具体代码分享给大家吧:

#coding:utf8

”’

author:liyatao wx:841483350

”’

#python利用结巴分词关键词自动提取 请确认安装jieba,安装方法pip install jieba

import jieba

def cutword(word):

tags=[]

seg_list = jieba.cut(word)

seg_list={}.fromkeys(seg_list).keys() #去除列表中重复的元素

for x in seg_list:

if len(x)>=2: #如果分出来的词的元素大于等于2个字

tags.append(x) #添加到新的列表中

else:

pass

tags.sort(key=lambda x:len(x)) #按列表中元素字符串的长度从小到大排序

print ‘,’.join(tags)

# return tags

if __name__==”__main__”:

word=”python批量查询网页收录情况并计算收录率 ””

cutword(word)

好了,今天就分享到这里,希望本文对大家有所帮助,如果大家觉得有用可以点个关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java微信支付代码_Java微信支付之服务号支付代码示例

Java微信支付之服务号支付实现,网上的java微信支付sdk和Demo基本上是水的,看着头疼所以我决心自己开始写Java微信支付之公众号支付,多的不说见下面源码,为了方便使用我分别用了两个Servlet,一个是统一下单Unifiedorder…

朴素贝叶斯分类器python_朴素贝叶斯分类器及Python实现

贝叶斯定理贝叶斯定理是通过对观测值概率分布的主观判断(即先验概率)进行修正的定理,在概率论中具有重要地位。先验概率分布(边缘概率)是指基于主观判断而非样本分布的概率分布,后验概率(条件概率)是根据样本分布和未知参数的先验概率分布求得的条件概率…

RDD模型

Spark是Berkeley大学AMP(stands for Algorithms, Machines, and People)实验室开发的一个项目。它是一个基于RDD(Resilient Distributed Datasets)模型,能够支持计算MapReduce模式的作业,主要用于迭代计算和…

计算机视觉python入门_计算机视觉应该怎样入门?

自学了一段时间计算机视觉(Computer Vision),下文简称:CV。内容以基本概念为主,形式以看书为主,跟着敲代码为辅。起因:因工作中会涉及到交通物流风险管理、出险理赔材料审查等内容,会涉及到大量人工介入审阅…

java lambda if_使用Java8的Lambda实现Monda -解道Jdon

使用Java8的Lambda实现MonadMonad是函数语言(Cojure或Scala)中的设计模式概念, 那么现在为什么在Java中变得如此重要?因为Java从版本8以后引入了新的Lambda特性,Lambda或闭包是函数语言的特征,它允许你使用代码块作为一个变量&…

ConcurrentHashMap,一个更快的HashMap

ConcurrentHashMap 是 Doug Lea 的 util.concurrent 包的一部分,它提供比 Hashtable 或者 synchronizedMap 更高程度的并发性。而且,对于大多数成功的 get() 操作它会设法避免完全锁定,其结果就是使得并发应用程序有着非常好的吞吐量。这个月…

python算法与程序设计基础(第二版)第八章实训答案_Python算法与程序设计基础(第2版)...

章程序设计与计算思维1.1程序设计与计算机语言1.1.1程序设计1.1.2设计步骤1.1.3程序设计分类1.1.4基本规范1.1.5计算机语言1.2计算机语言与计算思维的关系1.2.1思维与计算思维1.2.2计算思维与计算科学的关系1.2.3计算思维与程序设计语言的关系1.3初识Python语言1.3.1Python语言…

python处理图片隐写分析_Python3简单实现隐写术

下载W3Cschool手机App,0基础随时随地学编程>>戳此了解导语利用Python简单实现图片隐写术。。。或者说是水印技术。。。说实话,真的只是简单实现。。。没什么技术含量。。。可以说是入门级的隐写术/水印技术。。。Lets Go?相关文件密码: 9ffy开发工…

使用Jquery提交Json格式的数据到Asp.net程序的另类做法

一般我们使用Jquery提交数据到Asp.net程序都有两种方法,今天我再介绍一种方法.以下是详细描述: 1)使用Get请求的方式,将参数接在请求Url的后面.例如: http://www.google.com.hk/search?qjquerypost 获取参数的方法:在Asp.net中可以使用Request.QueryString["q"]来获…

python xml添加命名空间_XML的命名空间与python解析方法

在 XML 中,元素名称是由开发者定义的,当两个不同的文档使用相同的元素名时,就会发生命名冲突,而XML 命名空间提供避免元素命名冲突的方法。XML 命名空间属性被放置于元素的开始标签之中,并使用以下的语法:x…

详解在Visual Studio中使用git版本系统(转)

http://www.uml.org.cn/pzgl/201206211.asp 转载于:https://www.cnblogs.com/kevin3274/archive/2012/08/29/2662556.html

java派生类_我可以使派生类从Java的基类继承派生成员...

我有看起来像这样的代码:public class A{public void doStuff(){System.out.print("Stuff successfully done");}}public class B extends A{public void doStuff(){System.out.print("Stuff successfully done, but in a different way");}pub…

流程图中的虚线含义_还在为画流程图烦恼,焦躁?介绍一款画图神器,让你爱上画图!...

在团队协作过程中最常见的就是开会、开会最常用的就是图,而图中最常见的就是流程图,时序图,类图等下面介绍一款画图神器:PlantUMLPlantUML是一个开源项目,支持快速绘制:时序图用例图类图活动图组件图状态图…

有限状态自动机java实现_用java开发编译器之:Thompson构造,将正则表达式转换为有限状态自动机...

阅读博客的朋友可以到我的网易云课堂中,通过视频的方式查看代码的调试和执行过程:上一节,我们通过代码,实现了一个有限状态自动机,并将其应用于对整形和浮点数的识别。构造有限状态自动机,并驱动它&#xf…