搜索工具是 C 站的核心产品,也是广大计算机学习读者的最爱。基于 CSDN 的程序设计与基于 Baidu 的程序设计并肩,成为计算机学习者的最爱。
本文对几种常用的计算机行业相关搜索工具进行对比分析。
本次对比分析只针对各网站的 PC 端网页版。
文章目录
- 0. 对比网站
- 1. 搜索栏的位置
- 2. 搜索结果页面的分析
- 2.1 搜索结果页面
- 2.2 搜索结果页面项目的对比
- 2.3 搜索结果中摘要的对比
- 3. 搜索结果的内容质量
- 3.1 搜索内容质量评分
- 3.2 搜索内容质量对比分析
- 4 搜索结果的二次选择
- 5 提高搜索效率的讨论
0. 对比网站
专业性网站:
-
CSDN(https://www.csdn.net/)
-
博客园(https://www.cnblogs.com/)
-
掘金(https://juejin.cn/)
-
极客邦(https://www.infoq.cn/)
-
开源中国(https://www.oschina.net/)
跨行业平台:
-
知乎(https://www.zhihu.com/)
-
简书(https://www.jianshu.com/)
1. 搜索栏的位置
- 在网站首页都设有搜索栏,通常位于页面右上方,标题行右侧
-
只有 CSDN、知乎 的搜索按键为橙色/蓝色独立按键,非常显著,不容易误操作,点赞!
-
只有 CSDN、知乎 的搜索栏设有下拉列表,提供关键词引导提示功能,点赞!
-
CSDN 的标题栏(含搜索栏)的高度比知乎、掘金、极客邦的标题栏高度略小,视觉感受有些拥挤。
-
虽然首页的版面设计不是本次对比的内容,但开源中国与博客园的页面设计相对怀旧,而知乎、掘金、极客邦的 PC版页面风格更鲜明地接近移动端的设计潮流。
-
通常,在网站其它页面中也设有搜索栏,位置、风格基本一致。
2. 搜索结果页面的分析
网页搜索,搜索关键词设为 opencv轮廓
,不是很热门也不算太偏的内容。对于这个关键词,我看过文章超过300篇,所以比较容易评价。
2.1 搜索结果页面
先上搜索结果页面,再做分析讨论。
2.2 搜索结果页面项目的对比
- 各专业网站的搜索结果内容都比较丰富,内容展现页面都比较干净,广告不多。
- CSDN 搜索结果数量 28455个,简书 搜索结果数量 3513个,极客邦 搜索结果数量 49个,其它网站没有给出搜索结果数量。为极客邦的坦诚点赞!
- **各专业网站的搜索结果中,目测都没有广告软文。**页面其它区域广告,不影响搜索结果,不做讨论。
- 极客邦的搜索结果中包括“微信公众号“的搜索内容,其它网站的搜索结果中没有明显发现站外内容。
- **只有 CSDN 在页面右侧提供了 “相关搜索”、“猜你想搜” 窗口,个人认为很有意义。**知乎、开源中国在右侧提供了 “热门搜索”,简书在左侧提供了 “最近搜索”,明显差了一个层次。
- 对于用户输入的关键词,在搜索结果的标题中都用亮色进行了标识。
- CSDN、知乎、简书 对搜索结果摘要中的搜索关键词也用亮色进行了标识,但个人体验并不好,反而干扰了阅读。
- **各网站的搜索结果中,都提供了标题、摘要、发布日期、作者。**知乎将作者放在摘要的开头。
- 摘要图片不仅很有吸引力,也是用户选择的重要参考。
- CSDN、掘金、开源中国、知乎在部分搜索结果中提供了摘要图片
- 极客邦、博客园、简书在搜索结果中没有提供摘要图片
- 博客园、简书在搜索结果中提供了阅读量、推荐数、评论数,CSDN 提供了阅读量、推荐数,开源中国提供了阅读量、评论数,掘金提供了推荐数、评论数,知乎提供了评论数、点赞数,极客邦都未提供。
- 前 3 篇搜索结果的阅读量分别为:CSDN 2855/6772/4596,博客园 44395/12458/51572,开源中国 8/21/10,简书 618/181/164。掘金和极客邦未提供阅读量,从阅读量数据推测原因是“商业秘密”。
- 前 5 篇搜索结果的发布年份,CSDN 2022/2020/2022/2013/2020,博客园 2013/2014/2011/2018/2014,掘金 2021/2022/2021/2021/2021,开源中国 2021/2018/2014/2020/2021,极客邦 2021/2021/2021/2021/2021,知乎 2021/2020/2021/2022/2020,简书 2020/2020/2022/2020/2022。不评论,但感概不已。
- 只有知乎搜索结果中包括视频内容,且前 5 篇中有 2 篇视频内容。
- 前 5 篇搜索结果都能打开,没有失踪,但是也有细微差异:
- 开源中国在搜索结果的摘要行末设有
展开更多
,点击后展开摘要的全部内容。 - 开源中国采用了特殊的展示方式,点击搜索结果标题后,在搜索结果页面直接载入文章内容,而不是跳转搜索结果页面。这种方式有利有弊,弊端也不小,本文不做展开。
- 知乎的展示方式是二者兼有,可以点击“阅读全文”后在搜索结果页面直接载入文章内容,也可以点击标题跳转搜索结果页面。。
- CSDN 设有需要会员的下载内容,这些内容也在搜索结果在,因此存在打开后非会员不能阅读/下载的情况。
- 开源中国在搜索结果的摘要行末设有
2.3 搜索结果中摘要的对比
-
各网站的搜索结果页面中,80%以上的有效面积/有效内容是搜索结果的标题、摘要和摘要图。
-
搜索结果页面中,有效内容占比最大的是文章摘要。
- CSDN:2 行,约 120 字符
- 博客园:3~4 行,约 190 字符
- 掘金:1 行,约 50 字符
- 开源中国:2 行,约 110 字符
- 极客邦:1 行,约 50 字符
- 知乎:无图 2 行,有图 3 行,70-100 字符
- 简书:4~6 行,150-300 字符
-
目前摘要的质量都比较差,很多文章作者并没有写摘要,搜索结果中的摘要是由系统自动生成的。
选择每个网站前 5 篇搜索结果进行分析,检查自动摘要的占比如下:- CSDN:5 篇都是自动摘要,都是自动截取文章开始段落内容
- 博客园:5 篇都是自动摘要,自动截取文章开始或结束段落的内容
- 掘金:1 篇是作者写的摘要,4 篇是自动摘要,截取文章开始段落的内容,但剔除了一些非本文内容(如链接、广告)
- 开源中国:5 篇都是自动摘要,都是自动截取文章开始段落内容
- 极客邦:5 篇都是自动摘要,都是自动截取文章开始段落内容
- 知乎:3 篇文档内容都是自动摘要,2 篇视频内容是作者写的摘要
- 简书:5 篇都是自动摘要,自动截取文章开始或结束段落的内容
基于这个简单的抽样结果,我的感受是:
- 文章作者不写摘要是普遍现象,即使写了摘要的质量往往也比较差。
- 内容占比最大的文章摘要,能提供给用户的信息事实上非常有限。
- 简书提供的摘要长度可达 300 字符,相对来说可以更好地判断文章内容,但每个页面展示的搜索结果明显减少,有些得不偿失。
- 这表明“摘要”在搜索结果呈现中的效率是比较低的,需要和可以优化。既包括对摘要本身的优化,也包括对搜索结果呈现方式的优化。
3. 搜索结果的内容质量
选择每个网站前 5 篇搜索结果,对文章内容的质量进行评价。这是一个非常不靠谱的主观评价。
3.1 搜索内容质量评分
-
CSDN:
(1)原创,有图形,有例程,有说明,结构较完整,80
(2)原创,有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95
(3)原创,有图形,有例程,有说明,结构较完整,80
(4)原创,有图形,有例程,有说明,结构很完整,内容丰富,85
(5)下载内容,不做评价 -
博客园
(1)有图形,有例程,说明简单,部分公式显示异常,内容有点偏,60
(2)无图形,有例程,有说明,结构完整,内容丰富,80
(3)无图形,有例程,有说明,结构完整,内容丰富,部分例程和公式显示异常,70
(4)有图形,有例程,有说明,完整,内容丰富,90
(5)有图形,有例程,有说明,结构较完整内容有点偏,75 -
掘金:
(1)有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95
(2)有图形,有例程,有说明,结构较完整,85
(3)无图形,有例程,有说明,结构较完整,80
(4)有图形,有例程,说明简单,结构基本完整,75
(5)有图形,有例程,有说明,结构较完整,85 -
开源中国:
(1)原创,有图形,有例程,有说明,结构基本完整,75
(2)原创,有图形,有例程,说明简单,结构较乱,65
(3)原创,有图形,有例程,说明极少,结构较乱,55
(4)无图形,有例程,有说明,结构较完整,70
(5)只有例程,无说明,无图形,结构不完整,40 -
极客邦:
(1)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(4)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(5)有图形,有例程,说明简单,结构基本完整,70
注:极客邦前 4 篇都是梦想橡皮擦的文章,而且是真原创,怎么能给低分呢。 -
知乎:
(1)纯视频,长度 16‘43’‘,内容专业完整,可惜无配套文档容,98
(2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(4)纯视频,长度 6‘00’‘,专业视频课程,可惜无配套文档容,98
(5)有图形,有例程,有说明,结构很完整,内容全面,文字流畅,95 -
简书:
(2)图形少,有例程,有说明,结构很完整,内容很全面,文字很流畅,93
(2)有图形,有例程,有说明,结构完整,内容全面,文字流畅,90
(3)有图形,有例程,有说明,结构完整,内容全面,文字流畅,91
(4)无图形,有例程,有说明,结构较完整,75
(5)有图形,有例程,有说明,结构完整,内容丰富,90
3.2 搜索内容质量对比分析
首先还是要说明以上评分非常不靠谱,而且只是随机抽样,各位网友不必较真,您完全可以自行评分。
其次还是有些东西可以分析,可供参考的。
- 按照以上主观评价的结果,各网站的内容质量评分的均值为: 知乎94,简书88,极客邦 86,CSDN 85,掘金 83,基本相当;博客园 75;开源中国 61,内容质量较差,有些是凑数的。
- 即使剔除知乎的视频内容,文档内容的质量评分 92,仍然是最高的。
- 博客园的评分受到部分例程和公式显示异常的影响,否则应该会高一些。这样一个老牌 IT 网站,真是让人惋惜。
- 知乎的 2 篇视频内容,都是系列视频,确实做的很好,不是随便搞搞的。可惜没有配套文档,哪怕只是视频中的配套例程。
- 我评分最高的 3 篇文章(95分)分别在 C站、知乎和掘金,内容全面,文字流畅,层次分明,例程、图形完整。
- 似乎各网站的排序算法都不能很好地保证按照文章质量高低来排序。其中的原因首先是我的评价不科学不准确,其次是网站可能会有自己的考虑,但我想更重要的是搜索结果的自动评价目前仍然是非常困难的。
- CSDN 和 开源中国对原创、转载文章进行了标注(作者声明),其它网站未作标注。但是标注原创的内容,(绝)大部分并非原创,很多是直接抄袭,还有部分是洗稿。
- 坦率地说,CSDN 内容质量这个抽样结果比我预计的高,我的印象中搜索结果中质量不高的内容占比还是不低的。
- 注意极客邦该关键词的搜索结果只有 49 篇,但内容质量竟然不输给 CSDN、掘金,实在发人深思。
- 我另选了几个关键词,测试极客邦的搜索内容,个人评价也还是:数量不多、质量不差。
- 无论 49 篇还是 49 万篇,老板和投资人可能会关注,但对用户来说其实没多少差别,前 5 篇就够用了。当然偏门内容,新锐网站中可能连 5 篇都没有,那就不行了。
- 邀请优质创作者创作优质内容,是新锐网站的利器,看来真的很有效。
- 内容越多,筛选出优质内容的难度其实更大,或者说更为迫切。
- 知乎、简书这两家综合性网站的搜索内容质量,既然能力压所有 IT 专业网站,有些出乎我的预料。这当然与我的评分不靠谱有关,但是我也观察到一些特点:
- 入选内容质量都很稳定,换句话说低质量内容都没有入选。
- 首先与作者群体有关,CSDN 的写作者范围更广,一些初学者也积极参与写作,并得到鼓励。
- 我认为与搜索算法也有很大关系,并不是知乎、简书没有低质量的文章,而是通过内容质量自动评价方法,搜索排序方法,保证低搜索结果首页的文章质量很高、很稳定。
- 从文章质量看,一些网站主动地、针对性地邀请优质作者在某个方向持续稳定地进行创作,效果很明显。
4 搜索结果的二次选择
为什么要提出搜索结果的二次选择问题?
作为用户,首先关心的是能不能找到需要的内容。随着网站资源的快速增长, 内容的数量应该越来越不是主要问题了。opencv轮廓
这样一个不是很热门的搜索关键词,竟然有数万篇内容。
这说明在数字时代,不是内容太少,而是内容太多了。由此带来的另一个问题,就是能不能从海量的搜索结果中找到优质的内容,找到自己需要的内容。这是一个很有挑战性的问题。
各网站搜索结果的排序,都没有明显的规律,即都不是简单地按照发布日期或阅读量排序。显然,每家网站都有各自的搜索排序算法。
网站提供的搜索结果排序算法,能不能满足用户的需求呢?首先是提供优质内容,其次是提供特定用户需要的特定的内容。
我个人认为目前的现状并不理想。按说内容越多的网站,这个问题会做的比较好,毕竟通过内容积累和读者的阅读选择可以实现优胜劣汰。但我的实际体验并不是这样,内容越多的网站,博主范围越广泛,劣质内容也越多,优质内容被淹没的问题越突出,或者说优质内容被淹没的困扰也很大。
我简单地猜测,阅读量与内容质量一般应该具有较强的正相关性,所以我经常是以阅读量作为重要的辅助筛选指标。但我在 CSDN 的使用体验(不是本次搜索测试),也经常遇到一些阅读量非常大(数万)但质量一般甚至质量较差的内容。我猜想这类似于热榜效应,即阅读量在某些条件下可能发生正反馈,阅读量越高的文章将吸引更多的读者阅读,此时已与内容的质量无关了。
这就需要对搜索结果进行二次选择。
目前,各网站向用户提供搜索结果筛选或更换排序方式的功能都比较有限。
-
CSDN 在网页端提供了栏目筛选、排序方式两种搜索结果二次选择方案。
- 一是可以按照
全站
、博客
、下载
、代码
、用户
等栏目进行筛选,默认选项为全站
。如果选择博客
栏目就可以过滤前述下载内容非会员不能打开的问题。但是这个栏目筛选其实是有些鸡肋的,因为只有博客
、下载
栏目筛选结果有意义,其它栏目筛选结果基本没用。 - 二是提供了
综合
、最新
、热门
和VIP内容
4个标签,可以进行搜索结果重排,默认选项为综合
。但这些标签的设计不显著,我在写本文时才注意到。
选择最新
筛选后的搜索结果,主要是 2022年的内容,也有少量 2021年的内容,阅读量相对都较小,推测加大了发布日期在排序中的权重。
选择热门
筛选后的搜索结果,第 1 位阅读量高达 31万+,前 5 位只有一篇阅读量低于 1 万,推测加大了阅读量在排序中的权重。
选择VIP
筛选后的搜索结果,都需要开通 VIP 会员卡才能阅读。 - 移动端 APP 搜索工具中不能对搜索结果重新排序或筛选。
- 一是可以按照
-
掘金 提供了按照
综合
、文章
、课程
、标签
、用户
进行搜索结果过滤,也可以按照时间不限
、最近一天
、最近一周
、最近三月
进行搜索结果过滤,或者按照综合排序
、最新优先
、最热优先
进行重新排序。 -
开源中国 提供了按照
所有内容
、软件
、资讯
、问答
、博客
等栏目进行搜索结果过滤。 -
极客邦 提供了按照
全部
、InfoQ网站
、微信公众号
进行搜索结果过滤。 -
博客园 提供了分别按照浏览数、推荐数、发布时间对搜索结果进行筛选,但该筛选栏在屏幕右侧的广告下方,并不太显眼,界面风格非常怀旧。
-
简书 提供了按"文章"、“用户”、“主题”、“文集” 筛选,或按"最近一天"、“最近一周”、“最近一月”、“时间不限"筛选,或按"综合排序”、“热门文章”、“最新发布”、"最新评论"重新排序。
-
知乎 提供了按照专栏进行筛选,还设有“筛选”按钮可以提供按照类型、综合、时间进行筛选。
5 提高搜索效率的讨论
正如生产效率是制造业最核心的指标,搜索效率也是搜索工具的核心指标。搜索工具的竞争,本质上就是搜索效率的竞争。
从用户的角度考虑,我需要的首先是更方便、更快捷地找到我需要的内容,其次是尽可能减少打开后阅读无效资源、低质资源(影响心情,所以影响体验)。
从这个角度出发,并考虑技术实现的可行性,提出一些建议:
产品改善的建议:
- 提供更丰富、更灵活的用户自选排序方法,最好能一键筛选。
- 搜索结果中增加作者资质标签供用户参考,例如增加 CSDN 认证的博客专家、优质创作者身份标识,类似于大V标签。如果能设置博客专家按键进行二次筛选更好。
- 将需要会员资格或VIP资格才能阅读的内容单独列出或进行特殊标识。
- 鉴于一些文章的开头会有非正文内容(例如:系列介绍、转载链接、广告),建议系统提取摘要时自动剔除这些无效内容。
- 以文章目录作为系统自动提取的摘要,是否比开头段落会更有效?
- 能否设计可选的摘要模板,以结构化的方式半自助地生成摘要?
深入研究的建议:
-
更加丰富全面的内容特征,例如段落数、例程数、插图数、是否原创、是否专栏,这些特征并不需要在搜索结果中体现,但可以用于训练内容质量自动评价系统。数据量越大的网站优势就越大。
-
用户评价机制,例如鼓励用户阅读后对文章评分,顶会论文评审已经从审稿人评审向投稿人评审转变。
-
作者评价模型,每位作者的文章质量虽然会有波动,但相对来说非常稳定。实际上,作者评价模型是更加客观、精准的优质创作者身份认证。
个人观点:
-
CSDN 的内容不是太少而是太多了,很多低质量的内容淹没了高质量的内容。
-
作者分层是自动评价内容质量、提高搜索质量的重要特征。
-
仅从搜索结果质量来考虑,CSDN 需要进行作者分层,这不仅是创作者资质认证,而是基于内容质量和用户画像等数据的作者评价(不必公开)。创作者资质认证只是作者分层的补充。
-
主动地、针对性地邀请优质作者在某个方向持续稳定地进行创作,对于提高搜索质量效果显著。
-
CSDN 拥有最大量的优质创作者,但从搜索结果来看效率并不高。
-
网站流量支持的创作计划不能只重数量、重热度,更好重视质量,考虑长期建设的需要。
(本文完)
版权声明:
youcans@xupt 原创作品,转载必须标注原文链接:(https://blog.csdn.net/youcans/article/details/125137881)
Copyright 2022 youcans, XUPT
Crated:2022-6-12