杂项

结巴直接分词

  python -m jieba -d ' ' allTrain.txt > train_contents.txt

使用redis

  cmd1 :redis-server.exe redis.windows.conf

  cmd2:redis-cli.exe -h 127.0.0.1 -p 6379

  scrapy-redis src- scrapy-redis copy- scrapy project

redis

  keys * 列出

  https://github.com/rmax/scrapy-redis

  type jobbole:requests :类型

  zrange jobbole:requests 0 1 :zset元素

  scard jobbole:dupefilter  :set元素数量

  smembers jobbole:dupefilter :获得key

查看mysql文件夹位置

  show global variables like "%datadir%"

打开 tensorflow summary 的目录 执行 tensorboard --logdir=C:\redis\logs

  TensorBoard 0.1.6 at http://DESKTOP-FIPG2GH:6006 (Press CTRL+C to quit) 便可以在浏览器输入 localhost:6006 查看tensorflow 模型相关 graph  HISTOGRAMS

jupyter

  'sha1:f0147912cfac:fe72a5a54b1bb234881e4fdc5d04419d70dc4e58'

LINUX下批量修改文件夹下面的文件名

  i=1; for x in *; do mv $x $i.扩展名; let i=i+1; done

 删除文件夹及文件夹下所有内容

  rm -rf folder

python 替换掉字符串中的换行符

  str.replace('\n',' ')

RE处理数据

 1 import re
 2 import os
 3 dir_list = [dirs for dirs in sorted(os.listdir()) if dirs.endswith('.json')]
 4 print("JSON文件:{0}".format(len(dir_list)))
 5 path = '../pubmedData/'
 6 if not os.path.exists(path):
 7     os.makedirs(path)
 8     
 9 for file in dir_list:
10     print("正在处理:{0}".format(file))
11     with open(file,'r') as f:
12         x = f.read()
13     cit_pubmed = re.findall('cit {(.*?)Pubmed-entry',x,re.DOTALL)
14     print("匹配到的总数:{0}".format(len(cit_pubmed)))
15 
16     i = 0
17     j = 0
18     k = 0
19     set_title_list = []
20     set_abstract_list = []
21     set_issn_list = []
22     issn_class = []
23     for y in range(len(cit_pubmed)):
24         #title
25         title = re.findall('title {(.*?)authors {',cit_pubmed[y],re.DOTALL)
26         set_title_list.append(len(title))
27         if len(title) == 2:
28             i += 1
29             title = re.findall('name "(.*?)."', title[0], re.DOTALL)
30         if len(title) == 1:
31             title = re.findall('name "(.*?)."', title[0], re.DOTALL)
32             i += 1
33         
34         #issn
35         issn = re.findall('issn "(.*?)",',cit_pubmed[y], re.DOTALL)
36         if len(issn) == 1:
37             #abstract
38             abstract = re.findall('abstract "(.*?).",',cit_pubmed[y],re.DOTALL)
39             if len(abstract) == 1:
40                 with open(path + issn[0] + '.txt','a') as f:
41                     f.write(abstract[0].replace("\n", " ") + '\n')
42                 j += 1
43             set_abstract_list.append(len(abstract))
44             
45             issn_class.append(issn[0])
46             k += 1
47         set_issn_list.append(len(issn))
48         
49     set_title_list = set(set_title_list) 
50     set_abstract_list = set(set_abstract_list)
51     set_issn_list = set(set_issn_list)
52     print("TITLE种类:{0},总数:{1}".format(set_title_list, i))
53     print("ABSTRACT种类:{0},总数:{1}".format(set_abstract_list, j))
54     print("ISSN种类:{0},总数:{1}".format(set_issn_list, k))
55     print("ISSN_CLASS:{0}类".format(len(set(issn_class))))

 numpy argsort() 

1 import numpy as np
2 x=np.array([5,4,3,2,1])
3 y = x.argsort()
4 #output array([4, 3, 2, 1, 0])

取出ndarray 中最大的五个数的index

x=np.array([[5,4,3,2,1,7,8,9],[1,2,3,4,5,9,8,6]])
y = map(lambda label: label.argsort()[-1:-6:-1], x)
t = list()
t.extend(y)
#result [array([7, 6, 5, 0, 1]), array([5, 6, 7, 4, 3])]

numpy.hstack() horizontal 水平的 a = array([1,2,3]) b = array([4,5,6])  c = array([1,2,3,4,5,6])

numpy.vstack() vertical 垂直的 a = array([1,2,3]) b = array([4,5,6])  c = array([1,2,3],[4,5,6])

统计数组中出现次数最少的两个值

1 from collections import Counter
2 a = [1,2,3,4,2,3,4,5]
3 x = Counter(a).most_common()[-2:]

 查看文件夹大小

  du -h --max-depth=1 pubmedData

查看单个文件大小

  ls -sh 1932-6203.txt

列出当前文件夹下前十个最大的文件

  du -a | sort -n -r | head -n 10

python 引用 

 1 x = [1,2,3]
 2 y = x
 3 print (y)
 4 >>[1,2,3]
 5 x.pop()
 6 print (y)
 7 >>[1,2]
 8 x = [1,2,3]
 9 y = x[:]
10 print (y)
11 >>[1,2,3]
12 x.pop()
13 print (y)
14 >>[1,2,3]

 Python中一个对象有两个头部信息 1.型标志符 标识对象的类型 2.引用计数器 用来决定是不是可以回收这个变量  

类型属于对象的不属于变量  python变量 是在特定的时间引用了特定的变量 a = 123(整数) a = '123'(字符串) a = 1.23(float)

对象的垃圾收集 a = 123(整数) a = '123'(字符串) a = 1.23(float) 如果a 从指向int对象123 变成指向str对象‘123’则int对象123就要进行回收 被回收的空间自动放到 # 自由内存空间池 #

递归计算任意结构list元素和

def sum(l):total = 0for x in l:if  not isinstance(x, list):total += xelse:total += sum(x)return total
sum([[1,2,3],[1,[2]]])

 

转载于:https://www.cnblogs.com/wlc297984368/p/7873391.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/268060.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强制使用CGLIB实现动态代理@EnableAspectJAutoProxy(proxyTargetClass = true)

用EnableAspectJAutoProxy(proxyTargetClass true)注解来开启AOP功能,基于CGLIB实现 proxyTargetClass:表示动态代理实现方式,如果值设置true,表示需要代理类都基于CGLIB来实现;默认情况下值是设置成false表示如果原…

抗击海冰 地理信息系统来帮忙

对广大生活在沿海地区的居民来讲,冬天里除了要经受大风和低温的考验外,还多了一项担忧——海冰灾害。什么是海冰?狭义来讲,是指海水结成的冰。但广义地讲,海冰是浮在海上的冰的总称,不仅包括海水冻结的冰&a…

static_cast 和 reinterpret_cast的区别以及dynamic_cast

大多程序员在学C前都学过C&#xff0c;并且习惯于C风格&#xff08;类型&#xff09;转换。当写 C&#xff08;程序&#xff09;时&#xff0c;有时候我们在使用static_cast<>和reinterpret_cast<>时可能会有点模糊。在本 文中&#xff0c;我将说明static_cast<…

@ConditionalOnProperty的作用和用法

在spring boot中有时候需要控制配置类是否生效,可以使用ConditionalOnProperty注解来控制Configuration是否生效 步骤一&#xff1a;配置类代码 Configuration ConditionalOnProperty(prefix "application", value "enable", havingValue "true&qu…

Blog-LOGO原型

上午忙里偷闲&#xff0c;特意花了一个小时&#xff0c;制作博客LOGO&#xff0c;之前一直想给博客改头换面&#xff0c;但弄了后台之后才发现&#xff0c;自定义的图片不支持本地上传&#xff0c;为了不让这一个小时的功夫浪费&#xff0c;所以贴出这张png图。想打造独特的网页…

朴素贝叶斯和贝叶斯估计

贝叶斯定理 贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。 在参数估计中可以写成下面这样&#xff1a; 这个公式也称为逆概率公式&#xff0c;可以将后验概率转化为基于似然函数和先验概率的计算表达式&#xff0c;即 在贝叶斯定理中&#xff0c;每个名词都有…

spring的service不启动事务的配置。

为什么80%的码农都做不了架构师&#xff1f;>>> 原来是这样设置的&#xff1a; <tx:attributes> <tx:method name"*" read-only"true"/> </tx:attributes> 发现selectA调用selectB&#xff0c;如果selectB抛出Exception&…

@ConditionalOnJava注解使用

如果想让配置文件在特定的jdk版本中生效可以使用ConditionalOnJava注解 等于或大于指定的jdk版本 EQUAL_OR_NEWER 小于指定的jdk版本 OLDER_THAN 步骤一&#xff1a; 我项目用的jdk8 下面的注解表示jdk版本要大于等于jdk8才生效 ConditionalOnJava(range ConditionalOnJava…

nginx实现301(加密)跳转和200跳转

我们用nginx实现301跳转&#xff0c;下面我们先讲一下实现的大概思想&#xff0c;首先我们用yum或者编译安装nginx&#xff0c;然后配置nginx的主配置文件的子文件&#xff0c;&#xff08;在配置子文件的时候可以把默认文件先注释掉&#xff09;配置好子文件之后重启nginx服务…

ASP.NET控件开发基础5

上一篇简单的讲了从WebControl继承的控件(好象我讲的都是简单的,嘿嘿).本次讲的更简单,主题是是属性,只当分享经验,希望对大家有帮助我们根据属性的不同表现形式,把其区分为简单属性和复杂属性下面来看下属性的表现形式简单属性表现形式如下,大家都很熟悉 <asp:TextBox ID&q…

项目Alpha冲刺Day4

一、会议照片 二、项目进展 1.今日安排 学习熟悉前台框架且搭建前台页面框架。 2.问题困难 使用了前端的构建工具webpack&#xff0c;困难在于怎么使用gradle结合它连同后台框架中的配置一起打包&#xff0c;因为本身都才刚接触这两者。本来希望每个人下好项目能配置尽量少的东…

log4j:ERROR Could not find value for key log4j.appender.stdout.layout

Connected to the target VM, address: 127.0.0.1:65401, transport: socket log4j:ERROR Could not find value for key log4j.appender.stdout.layout 此log4j:ERROR Could not find value for key log4j.appender.XXXX类型报错与log4j.properties文件写法有关系 处理方法&a…

第十二周学习笔记

先检查有没有对应类型的接口&#xff0c;没有必须先到网上下载&#xff0c;重新开启SQL SEVER即可 64位以上的系统必须用 Microsoft Ace Oledb 12.0 版本的 要选对数据库 没有查询到表格的可以建立表格 用INSERT INTO 语句可以插入数据 ----------删除 删除格式代码&#xff0c…

TechEd2010

微软&#xff08;中国&#xff09;TechEd2010今天在北京国家会议中心开幕了&#xff0c;还是和去年一样&#xff0c;场面做的很大。今年的主题是云&#xff0c;Windows Phone 7&#xff0c;和IE9。 会上&#xff0c;也见了非常多的朋友&#xff0c;有微软的老朋友&#xff0c;也…

错误: 找不到或无法加载主程序类 错误: 找不到或无法加载主类 wc.BatchWordCount

错误描述 编写完代码以后运行main方法&#xff0c;出现错误: 找不到或无法加载主类 错误: 找不到或无法加载主类 wc.BatchWordCount 解决办法 1、点击IDEA侧边的maven栏目&#xff0c;点击compile进行编译 2:显示BUILD SUCCESS表示编译成功 3、再次运行main方法&#xff0…

BZOJ 4808: 马(二分图最大点独立集)

http://www.lydsy.com/JudgeOnline/problem.php?id4808 题意&#xff1a; 思路&#xff1a; 这图中的两个马只能选一个&#xff0c;二选一&#xff0c;很像二分图吧&#xff0c;对能互吃的两个棋子连线&#xff0c;在所选的任意两个棋子中&#xff0c;都不能互相有连线&#x…

使用Flink批处理实现WordCount

Flink作为一个非常优秀的大数据实时计算框架&#xff0c;在很多从事大数据开发的公司都是必备的技能&#xff0c;接下来我将通过Flink以批处理来实现入门案例WordCount 1:步骤一 idea新建设maven项目&#xff0c;并且自己配置好maven环境 2&#xff1a;步骤二 在pom文件中加…