用户投票算法

作者: 阮一峰  发布时间: 2012-03-29 13:33  阅读: 7323 次  推荐: 6   原文链接   [收藏]  

  目录

  基于用户投票的排名算法(一):Delicious和Hacker News
  基于用户投票的排名算法(二):Reddit
  基于用户投票的排名算法(三):Stack Overflow
  基于用户投票的排名算法(四):牛顿冷却定律
  基于用户投票的排名算法(五):威尔逊区间
  基于用户投票的排名算法(六):贝叶斯平均

  基于用户投票的排名算法(一):Delicious和Hacker News

  互联网的出现,意味着"信息大爆炸"。

  用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。

  各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。

  下面,我将整理和分析一些基于用户投票的排名算法,打算分成四个部分连载,今天是第一篇。

  一、Delicious

  最直觉、最简单的算法,莫过于按照单位时间内用户的投票数进行排名。得票最多的项目,自然就排在第一位。

  旧版的 Delicious,有一个"热门书签排行榜",就是这样统计出来的。

  它按照"过去 60 分钟内被收藏的次数"进行排名。每过 60 分钟,就统计一次。

  这个算法的优点是比较简单、容易部署、内容更新相当快;缺点是排名变化不够平滑,前一个小时还排在前列的内容,往往第二个小时就一落千丈。

  二、Hacker News

  Hacker News 是一个网络社区,可以张贴链接,或者讨论某个主题。

  每个帖子前面有一个向上的三角形,如果你觉得这个内容很好,就点击一下,投上一票。根据得票数,系统自动统计出热门文章排行榜。但是,并非得票最多的文章排在第一位,还要考虑时间因素,新文章应该比旧文章更容易得到好的排名。

  Hacker News 使用 Paul Graham 开发的 Arc 语言编写,源码可以从 arclanguage.org 下载。它的排名算法是这样实现的:

  将上面的代码还原为数学公式:

  其中,

  P 表示帖子的得票数,减去 1 是为了忽略发帖人的投票。

  T 表示距离发帖的时间(单位为小时),加上 2 是为了防止最新的帖子导致分母过小(之所以选择2,可能是因为从原始文章出现在其他网站,到转贴至 Hacker News,平均需要两个小时)。

  G 表示"重力因子"(gravityth power),即将帖子排名往下拉的力量,默认值为1.8,后文会详细讨论这个值。

  从这个公式来看,决定帖子排名有三个因素:

  第一个因素是得票数P。

  在其他条件不变的情况下,得票越多,排名越高。

  从上图可以看到,有三个同时发表的帖子,得票分别为 200 票、60票和 30 票(减 1 后为 199、59和 29),分别以黄色、紫色和蓝色表示。在任一个时间点上,都是黄色曲线在最上方,蓝色曲线在最下方。

  如果你不想让"高票帖子"与"低票帖子"的差距过大,可以在得票数上加一个小于 1 的指数,比如(P-1)^0.8。

  第二个因素是距离发帖的时间T。

  在其他条件不变的情况下,越是新发表的帖子,排名越高。或者说,一个帖子的排名,会随着时间不断下降。

  从前一张图可以看到,经过 24 小时之后,所有帖子的得分基本上都小于1,这意味着它们都将跌到排行榜的末尾,保证了排名前列的都将是较新的内容。

  第三个因素是重力因子G。

  它的数值大小决定了排名随时间下降的速度。

  从上图可以看到,三根曲线的其他参数都一样,G的值分别为1.5、1.8和2.0。G值越大,曲线越陡峭,排名下降得越快,意味着排行榜的更新速度越快。

  知道了算法的构成,就可以调整参数的值,以适用你自己的应用程序。

  [参考文献]

  * How Hacker News ranking algorithm works

  * How to Build a Popularity Algorithm You can be Proud of

 
  基于用户投票的排名算法(二):Reddit

  Hacker News 排名算法的特点是用户只能投赞成票,但是很多网站还允许用户投反对票。就是说,除了好评以外,你还可以给某篇文章差评。

  Reddit 是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit 根据投票结果,计算出最新的"热点文章排行榜"。

  怎样才能将赞成票和反对票结合起来,计算出一段时间内最受欢迎的文章呢?如果文章A有 100 张赞成票、5张反对票,文章B有 1000 张赞成票、950张反对票,谁应该排在前面呢?

  Reddit 的程序是开源的,使用 Python 语言编写。排名算法的代码大致如下:

  这段代码考虑了这样几个因素:

  (1)帖子的新旧程度t

t = 发贴时间 - 2005 年 12 月 8 日7:46:43

  t 的单位为秒,用 unix 时间戳计算。不难看出,一旦帖子发表,t就是固定值,不会随时间改变,而且帖子越新,t值越大。至于 2005 年 12 月 8 日,应该是 Reddit 成立的时间。

  (2)赞成票与反对票的差x

x = 赞成票 - 反对票

  (3)投票方向y

  y 是一个符号变量,表示对文章的总体看法。如果赞成票居多,y就是 +1;如果反对票居多,y就是-1;如果赞成票和反对票相等,y就是0。

  (4)帖子的受肯定程度z

  z 表示赞成票超过反对票的数量。如果赞成票少于或等于反对票,那么z就等于1。

  结合以上几个变量,Reddit 的最终得分计算公式如下:

  这个公式可以分成两个部分来讨论:

  (一)

  这个部分表示,赞成票超过反对票的数量越多,得分越高。

  需要注意的是,这里用的是以 10 为底的对数,意味着z=10可以得到 1 分,z=100可以得到 2 分。也就是说,前 10 个投票人与后 90 个投票人(乃至再后面 900 个投票人)的权重是一样的,即如果一个帖子特别受到欢迎,那么越到后面投赞成票,对得分越不会产生影响。

  当反对票超过或等于赞成票,z=1,因此这个部分等于0,也就是不产生得分。

  (二)

  这个部分表示,t越大,得分越高,即新帖子的得分会高于老帖子。它起到自动将老帖子的排名往下拉的作用。

  分母的 45000 秒,等于 12.5 个小时,也就是说,后一天的帖子会比前一天的帖子多得 2 分。结合前一部分,可以得到结论,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它得到的净赞成票必须增加 100 倍。

  y 的作用是用来产生正分和负分。当赞成票超过反对票时,得分为正;当赞成票少于反对票时,得分为负;当两者相等,得分为0。这就保证了得到大量净赞成票的文章,会排在前列;得到大量净反对票的文章,会排在最后。

  (三)

  这种算法的一个问题是,对于那些有争议的文章(赞成票和反对票非常接近),它们不可能排到前列。假定同一时间有两个帖子发表,文章A有 1 张赞成票(发帖人投的)、0张反对票,文章B有 1000 张赞成票、1000张反对票,那么A的排名会高于B,这显然不合理。

  结论就是,Reddit 的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。这决定了 Reddit 是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。

  [参考资料]

  * How Reddit ranking algorithms work


  基于用户投票的排名算法(三):Stack Overflow

  Reddit 排名算法的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。

  但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 Stack Overflow,就是这样一个网站。

  你在上面提出各种关于编程的问题,等待别人回答。访问者可以对你的问题进行投票(赞成票或反对票),表示这个问题是不是有价值。

  一旦有人回答了你的问题,其他人也可以对这个回答投票(赞成票或反对票)。根据投票结果,系统自动找出最佳回答。

  排名算法的作用是,找出某段时间内的热点问题,即哪些问题最被关注、得到了最多的讨论。

  在 Stack Overflow 的页面上,每个问题前面有三个数字,分别表示问题的得分、回答的数目和该问题的浏览次数。以这些变量为基础,就可以设计算法了。

  创始人之一的 Jeff Atwood,曾经在几年前,公布过排名得分的计算公式。

  写成 php 代码,就是下面这样:

  各个算法变量的含义如下:

  (1)Qviews(问题的浏览次数)

  某个问题的浏览次数越多,就代表越受关注,得分也就越高。这里使用了以 10 为底的对数,用意是当访问量越来越大,它对得分的影响将不断变小。

  (2)Qscore(问题得分)和 Qanswers(回答的数量)

  首先,Qscore(问题得分)= 赞成票-反对票。如果某个问题越受到好评,排名自然应该越靠前。

  Qanswers 表示回答的数量,代表有多少人参与这个问题。这个值越大,得分将成倍放大。这里需要注意的是,如果无人回答,Qanswers 就等于0,这时 Qscore 再高也没用,意味着再好的问题,也必须有人回答,否则进不了热点问题排行榜。

  (3)Ascores(回答得分)

  一般来说,"回答"比"问题"更有意义。这一项的得分越高,就代表回答的质量越高。

  但是我感觉,简单加总的设计还不够全面。这里有两个问题。首先,一个正确的回答胜过一百个无用的回答,但是,简单加总会导致,1个得分为 100 的回答与 100 个得分为 1 的回答,总得分相同。其次,由于得分会出现负值,因此那些特别差的回答,会拉低正确回答的得分。

  (4)Qage(距离问题发表的时间)和 Qupdated(距离最后一个回答的时间)

  改写一下,可以看得更清楚:

  Qage 和 Qupdated 的单位都是秒。如果一个问题的存在时间越久,或者距离上一次回答的时间越久,Qage 和 Qupdated 的值就相应增大。

  也就是说,随着时间流逝,这两个值都会越变越大,导致分母增大,因此总得分会越来越小。

  (5)总结

  Stack Overflow 热点问题的排名,与参与度(Qviews 和 Qanswers)和质量(Qscore 和 Ascores)成正比,与时间(Qage 和 Qupdated)成反比。


  基于用户投票的排名算法(四):牛顿冷却定律 

  这个系列的前三篇,介绍了 Hacker News,Reddit 和 Stack Overflow 的排名算法。

  今天,讨论一个更一般的数学模型。

  这个系列的每篇文章,都是可以分开读的。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企图解决的都是同一个问题:根据用户的投票,决定最近一段时间内的"热文排名"。

  你可能会觉得,这是一个全新的课题,伴随着互联网而产生,需要全新的方法来解决。但是,实际上不是。我们可以把"热文排名"想象成一个"自然冷却"的过程:

(1)任一时刻,网站中所有的文章,都有一个"当前温度",温度最高的文章就排在第一位。

(2)如果一个用户对某篇文章投了赞成票,该文章的温度就上升一度。

(3)随着时间流逝,所有文章的温度都逐渐"冷却"。

  这样假设的意义,在于我们可以照搬物理学的冷却定律,使用现成的公式,建立"温度"与"时间"之间的函数关系,轻松构建一个"指数式衰减"(Exponential decay)的过程。

  伟大的物理学家牛顿,早在 17 世纪就提出了温度冷却的数学公式,被后人称作"牛顿冷却定律"(Newton's Law of Cooling)。我们就用这个定律构建排名算法。

  "牛顿冷却定律"非常简单,用一句话就可以概况:

物体的冷却速度,与其当前温度与室温之间的温差成正比。

  写成数学公式就是:

  其中,

- T (t)是温度(T)的时间(t)函数。微积分知识告诉我们,温度变化(冷却)的速率就是温度函数的导数T'(t)。

- H 代表室温,T(t)-H就是当前温度与室温之间的温差。由于当前温度高于室温,所以这是一个正值。

- 常数α(α>0)表示室温与降温速率之间的比例关系。前面的负号表示降温。不同的物质有不同的α值。

  这是一个微分方程,为了计算当前温度,需要求出T(t)的函数表达式。

  第一步,改写方程,然后等式两边取积分。

  第二步,求出这个积分的解(c为常数项)。

  第三步,假定在时刻t0,该物体的温度是T(t0),简写为T0。代入上面的方程,得到

  第四步,将上一步的C代入第二步的方程。

  假定室温H为 0 度,即所有物体最终都会"冷寂",方程就可以简化为

  上面这个方程,就是我们想要的最终结果:

本期温度 = 上一期温度 x exp (-(冷却系数) x 间隔的小时数)

  将这个公式用在"排名算法",就相当于(假定本期没有增加净赞成票)

本期得分 = 上一期得分 x exp (-(冷却系数) x 间隔的小时数)

  其中,"冷却系数"是一个你自己决定的值。如果假定一篇新文章的初始分数是 100 分,24小时之后"冷却"为 1 分,那么可以计算得到"冷却系数"约等于0.192。如果你想放慢"热文排名"的更新率,"冷却系数"就取一个较小的值,否则就取一个较大的值。

  [参考文献]

  Rank Hotness With Newton's Law of Cooling


  基于用户投票的排名算法(五):威尔逊区间

  迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去 24 小时最热门的文章"。

  但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。

  这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因素的情况下,如何给出排名。

  一种常见的错误算法是:

得分 = 赞成票 - 反对票

  假定有两个项目,项目A是 60 张赞成票,40张反对票,项目B是 550 张赞成票,450张反对票。请问,谁应该排在前面?按照上面的公式,B会排在前面,因为它的得分(550 - 450 = 100)高于A(60 - 40 = 20)。但是实际上,B的好评率只有 55%(550 / 1000),而A为 60%(60 / 100),所以正确的结果应该是A排在前面。

  Urban Dictionary 就是这种错误算法的实例。

  另一种常见的错误算法是

得分 = 赞成票 / 总票数

  如果"总票数"很大,这种算法其实是对的。问题出在如果"总票数"很少,这时就会出错。假定A有 2 张赞成票、0张反对票,B有 100 张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。

  Amazon 就是这种错误算法的实例。

  那么,正确的算法是什么呢?

  我们先做如下设定:

(1)每个用户的投票都是独立事件。

(2)用户只有两个选择,要么投赞成票,要么投反对票。

(3)如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。

  如果你熟悉统计学,可能已经看出来了,p服从一种统计分布,叫做"两项分布"(binomial distribution)。这很重要,下面马上要用到。

  我们的思路是,p越大,就代表这个项目的好评比例越高,越应该排在前面。但是,p的可信性,取决于有多少人投票,如果样本太小,p就不可信。好在我们已经知道,p服从"两项分布",因此我们可以计算出p的置信区间。所谓"置信区间",就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是 80%,但是这个值不一定可信。根据统计学,我们只能说,有 95% 的把握可以断定,好评率在 75% 到 85% 之间,即置信区间是[75%, 85%]。

  这样一来,排名算法就比较清晰了:

第一步,计算每个项目的"好评率"(即赞成票的比例)。

第二步,计算每个"好评率"的置信区间(以 95% 的概率)。

第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。

  这样做的原理是,置信区间的宽窄与样本的数量有关。比如,A有 8 张赞成票,2张反对票;B有 80 张赞成票,20张反对票。这两个项目的赞成票比例都是 80%,但是B的置信区间(假定[75%, 85%])会比A(假定[70%, 90%])窄得多,因此B的置信区间的下限值(75%)会比A(70%)大,所以B应该排在A前面。

  置信区间的实质,就是进行可信度的修正,弥补样本量过小的影响。如果样本多,就说明比较可信,不需要很大的修正,所以置信区间会比较窄,下限值会比较大;如果样本少,就说明不一定可信,必须进行较大的修正,所以置信区间会比较宽,下限值会比较小。

  二项分布的置信区间有多种计算公式,最常见的是"正态区间"(Normal approximation interval),教科书里几乎都是这种方法。但是,它只适用于样本较多的情况(np > 5 且 n (1 − p) > 5),对于小样本,它的准确性很差。

  1927年,美国数学家 Edwin Bidwell Wilson 提出了一个修正公式,被称为"威尔逊区间",很好地解决了小样本的准确性问题。

  在上面的公式中,表示样本的"赞成票比例",n表示样本的大小,
表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在 95% 的置信水平下,z统计量的值为1.96。

  威尔逊置信区间的均值为

  它的下限值为

  可以看到,当n的值足够大时,这个下限值会趋向。如果n非常小(投票人很少),这个下限值会大大小于
。实际上,起到了降低"赞成票比例"的作用,使得该项目的得分变小、排名下降。

  Reddit 的评论排名,目前就使用这个算法。

  [参考文献]

  * How Not To Sort By Average Rating


  基于用户投票的排名算法(六):贝叶斯平均

  上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。

  举例来说,如果只有 2 个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。

  以 IMDB 为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为 1 分,最高为 10 分。

  系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前 250 名的电影。

  这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有 10000 个观众投票,一部小成本的文艺片只有 100 个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?

  一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。

  在排名页面的底部,IMDB 给出了它的计算方法。

  •  WR, 加权得分(weighted rating)。
  •  R,该电影的用户投票的平均得分(Rating)。
  •  v,该电影的投票人数(votes)。
  •  m,排名前 250 名的电影的最低投票数(现在为 3000)。
  •  C, 所有电影的平均得分(现在为6.9)。

  仔细研究这个公式,你会发现,IMDB 为每部电影增加了 3000 张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有 3000 张选票,那么就都具备了进入前 250 名的评选条件;然后假设这 3000 张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

  这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。

  把这个公式写成更一般的形式:

  •  C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
  •  n,该项目的现有投票人数。
  •  x,该项目的每张选票的值。
  • m,总体平均分,即整个网站所有选票的算术平均值。

  这种算法被称为"贝叶斯平均"(Bayesian average)。因为某种程度上,它借鉴了"贝叶斯推断"(Bayesian inference)的思想:既然不知道投票结果,那就先估计一个值,然后不断用新的信息修正,使得它越来越接近正确的值。

  在这个公式中,m(总体平均分)是"先验概率",每一次新的投票都是一个调整因子,使总体平均分不断向该项目的真实投票结果靠近。投票人数越多,该项目的"贝叶斯平均"就越接近算术平均,对排名的影响就越小。

  因此,这种方法可以给一些投票人数较少的项目,以相对公平的排名。

  "贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有 10 个观众评分,5个为五星,5个为一星;电影B也有 10 个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。

  解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布"(Multinomial distribution),就可以结合贝叶斯定理,计算该分布的期望值。由于这涉及复杂的统计学知识,这里就不深入了,感兴趣的朋友可以继续阅读 William Morgan 的How to rank products based on user input

转载于:https://www.cnblogs.com/liuchaogege/p/5217274.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/471047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 2255. 统计是给定字符串前缀的字符串数目

文章目录1. 题目2. 解题1. 题目 给你一个字符串数组 words 和一个字符串 s ,其中 words[i] 和 s 只包含 小写英文字母 。 请你返回 words 中是字符串 s 前缀 的 字符串数目 。 一个字符串的 前缀 是出现在字符串开头的子字符串。 子字符串 是一个字符串中的连续一…

常用排序讲解

分类: 1)插入排序(直接插入排序、希尔排序)2)交换排序(冒泡排序、快速排序)3)选择排序(直接选择排序、堆排序)4)归并排序5)分配排序&a…

七、matplotlib的使用

matplotlib的使用 点击标题即可获取文章源代码和笔记 二、Matplotlib2.1 Matplotlib之HelloWorld2.1.1 什么是Matplotlib - 画二维图表的python库mat - matrix 矩阵二维数据 - 二维图表plot - 画图lib - library 库matlab 矩阵实验室mat - matrixlab 实验室2.1.2 为什么要学习M…

LeetCode 2256. 最小平均差(前缀和)

文章目录1. 题目2. 解题1. 题目 给你一个下标从 0 开始长度为 n 的整数数组 nums 。 下标 i 处的 平均差 指的是 nums 中 前 i 1 个元素平均值和 后 n - i - 1 个元素平均值的 绝对差 。两个平均值都需要 向下取整 到最近的整数。 请你返回产生 最小平均差 的下标。 如果有…

十、简单线性回归的python实现(详解)

4. 简单线性回归的python实现 点击标题即可获取源代码和笔记 4.1 导入相关包 import numpy as np import pandas as pd import random import matplotlib as mpl import matplotlib.pyplot as pltplt.rcParams[font.sans-serif] [simhei] # 显示中文 plt.rcParams[axes.unic…

LeetCode 2257. 统计网格图中没有被保卫的格子数

文章目录1. 题目2. 解题1. 题目 给你两个整数 m 和 n 表示一个下标从 0 开始的 m x n 网格图。 同时给你两个二维整数数组 guards 和 walls ,其中 guards[i] [rowi, coli] 且 walls[j] [rowj, colj] ,分别表示第 i 个警卫和第 j 座墙所在的位置。 一…

LeetCode 2259. 移除指定数字得到的最大结果

文章目录1. 题目2. 解题1. 题目 给你一个表示某个正整数的字符串 number 和一个字符 digit 。 从 number 中 恰好 移除 一个 等于 digit 的字符后,找出并返回按 十进制 表示 最大 的结果字符串。 生成的测试用例满足 digit 在 number 中出现至少一次。 示例 1&am…

十一、加权线性回归案例:预测鲍鱼的年龄

加权线性回归案例:预测鲍鱼的年龄 点击文章标题即可获取源代码和笔记 数据集:https://download.csdn.net/download/weixin_44827418/12553408 1.导入数据集 数据集描述: import pandas as pd import numpy as npabalone pd.read_table(&q…

LeetCode 2260. 必须拿起的最小连续卡牌数(哈希)

文章目录1. 题目2. 解题1. 题目 给你一个整数数组 cards ,其中 cards[i] 表示第 i 张卡牌的 值 。如果两张卡牌的值相同,则认为这一对卡牌 匹配 。 返回你必须拿起的最小连续卡牌数,以使在拿起的卡牌中有一对匹配的卡牌。 如果无法得到一对…

十二、案例:加利福尼亚房屋价值数据集(多元线性回归) Lasso 岭回归 分箱处理非线性问题 多项式回归

案例:加利福尼亚房屋价值数据集(线性回归)& Lasso & 岭回归 & 分箱处理非线性问题 点击标题即可获取文章源代码和笔记 1. 导入需要的模块和库 from sklearn.linear_model import LinearRegression as LR from sklearn.model_sel…

LeetCode 2261. 含最多 K 个可整除元素的子数组

文章目录1. 题目2. 解题1. 题目 给你一个整数数组 nums 和两个整数 k 和 p ,找出并返回满足要求的不同的子数组数,要求子数组中最多 k 个可被 p 整除的元素。 如果满足下述条件之一,则认为数组 nums1 和 nums2 是 不同 数组: 两…

二十、MySQL之用户权限管理(用户管理、权限管理、忘记root密码的解决方案)

用户权限管理:在不同的项目中给不同的角色(开发者)不同的操作权限,为了保证数据库数据的安全。 通常,一个用户的密码不会长期不变,所以需要经常性的变更数据库用户密码来确保用户本身安全(mysql…

PyQt5 基本窗口控件(状态栏/窗口/图标/提示消息/QLabel/文本类控件)

文章目录1. 状态栏2. 窗口居中显示3. 关闭窗口4. QWidget5. 添加图标6. 气泡提示信息7. QLabel添加快捷键8. QLineEditechoMode验证器inputMask综合练习9. QTextEditlearn from 《PyQt5 快速开发与实战》 1. 状态栏 self.statusbar.showMessage("hello, Michael", …

CSMA/CD协议(先听再说,边听边说)

一、概念 载波监听多点接入/碰撞检测 CSMA/CD (carrier sense multiple access with colision detection) CS:载波侦听/监听,每一个站再发送数据之前以及发送数据时都要检测一下总线上是否有其他计算机再发送数据。 MA&#xff…

PyQt5 基本窗口控件(按钮类/对话框类)

文章目录1. 按钮类1.1 QPushButton1.2 QRadioButton1.3 QCheckBox1.4 QComboBox 下拉列表1.5 QSpinBox 计数器1.6 QSlider 滑动条2. 对话框类2.1 QDialog2.2 QMessageBox2.3 QInputDialog2.4 QFontDialog2.5 QFileDialoglearn from 《PyQt5 快速开发与实战》 https://doc.qt.io…

python网络爬虫系列(二)——ProxyHandler处理器实现代理IP

ProxyHandler处理器(代理): 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个lP的访问。 所以我们可以设置一些代理服…

LeetCode 2264. 字符串中最大的 3 位相同数字

文章目录1. 题目2. 解题1. 题目 给你一个字符串 num ,表示一个大整数。如果一个整数满足下述所有条件,则认为该整数是一个 优质整数 : 该整数是 num 的一个长度为 3 的 子字符串 。该整数由唯一一个数字重复 3 次组成。 以字符串形式返回 …

四则运算个人项目进展

一、项目要求 基本要求:将10-20道四则运算题目写入文档,程序读取并输出题目,同时计算出正确结果。使用者对每道题目计算答案,答对进行提示,答错输出正确结果。分别记录回答正确、错误的数目并输出。四则运算题目基本要…

python网络爬虫系列(一)——urllib库(urlopen、urlretrieve、urlencode、parse-qs、urlparse和urlsplit、request.Request类)

urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 一、urlopen函数: 在Python3的urllib库中,所有和网络请求相关的方法,都被集…

LeetCode 2265. 统计值等于子树平均值的节点数(DFS)

文章目录1. 题目2. 解题1. 题目 给你一棵二叉树的根节点 root ,找出并返回满足要求的节点数,要求节点的值等于其 子树 中值的 平均值 。 注意: n 个元素的平均值可以由 n 个元素 求和 然后再除以 n ,并 向下舍入 到最近的整数。…