网站的SEO以及它和站长工具的之间秘密

博客迁移没有注意 URL 地址的变化,导致百度和 google 这两只爬虫引擎短时间内找不到路。近段时间研究了下国内最大搜索引擎百度和国际最大搜索引擎google的站长工具,说下感受。

  • 百度的站长工具地址:http://zhanzhang.baidu.com/dashboard/index
  • google 的站长工具地址: https://www.google.com/webmasters/tools/home

最近墙的比较厉害,google 不一定能访问进去(我平时用的 GreenVPN,还挺不错的,速度快,支持的国家也多)。

站长工具的作用是为了辅助开发者,针对自己的网站做出更加合理的网页布局和代码优化,以便让 spider 更好地理解网页,从而将最准确的信息送达到用户的荧屏上。它对搜索引擎和开发者是双赢的。

Web 发展极快,由于客户端厂商纷纭加之开发者没把重点放在 web 标准上,直到 2014 年的 10 月底才有了统一的标准。用户输入关键词,搜索引擎要在 0.1s 内将网络上的资源汇聚起来,这个过程中计算的开销、数据整合的开销是极大的,如果我们开发的网页不能让 spider 准确理解,最后的结果就是,写的东西很难出现在用户面前。

搜索引擎对网页的理解

摸索两个站长工具,感触最深的是结构化数据(Structured Data),结构化数据不是把文章段落分清楚、标题写清楚,实际上你文章段落分的再清晰,爬虫机器也不知道你在表达什么,所以数据结构化是给爬虫看而不是给人看的。HTML 标签的数量很有限,有限的几个标签没办法表达网页上每一个元素的含义,比如一个小的图标、一个广告位、一个蒙层等,于是网页上出现了很多 class 名、id 名来标记一个元素。这些内容的统一让爬虫理解的略微透彻了一些,比如:

.banner: 一张banner广告位
.sidebar: 侧边导航栏
.nav: 主导航
.icon: 页面小图标
.post: 一篇文章
.post-title: 文章标题

在一个需要表达的块上加上 itemscope 属性和一个 itemtype 属性,itemtype 是有固定值的,具体可以参阅 schema.org 的说明。然后在块内添加详细的说明,使用 itemprop 标注。整个操作十分简单,略微麻烦的是需要对照 schema 的官方网站填写规定的 itemprop字段。然而搜索引擎聚合的网页太多,当这些五花八门的 class 出来之后,它又开始迷茫了,难以较好的聚合分类。所以出现一个叫做 Schema 的东西,它用来表示一个结构化数据结构,可以看下面一个 schema 示例:

<div itemscope itemtype="http://schema.org/Person">   <span itemprop="name">李靖</span>   <img src="http://barretlee.com/avatar.png" itemprop="image" />    <span itemprop="jobTitle">攻城师</span>   <div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress">     <span itemprop="streetAddress">文一西路969号</span>     <span itemprop="addressLocality">浙江杭州</span><span itemprop="postalCode">310000</span>   </div>   <span itemprop="telephone">(0571) 123-4567</span>   <a href="mailto:barret.china@gmail.com" itemprop="email">barret.china@gmail.com</a>李靖的主页:  <a href="http://barretlee.com" itemprop="url">barretlee.com</a>    
</div>

结构化数据,通常也可以称之为元数据,这些数据附着在网页文本信息内,厘清了页面上每个部件的功能、属性和意义。当机器进入网页的时候,能够像人一样,一眼瞄出要表达的内容。关于 schema ,以前翻译过一篇文章 SEO:让搜索引擎对你的网站更有亲和力。

SEO和站长工具的之间秘密

除非搜索引擎能够猜到你要搜索的具体的 URL 地址,一般地,它都会从自己的数据索引库中扒拉数据。对于权重高、更新频率高、原创内容多的网站,搜索引擎会十分勤快的爬最新内容。那么,如何让搜索引擎知道网站上有多少网页便成了一件重要的事情。

我们经常会听到一个叫做”网站地图”的东西。有些网站会在自己的站点中添加一个页面,这个页面包括了整站的重要入口,那么这个页面就是该页面的网站地图。这些地图是给人看的,如果只想给爬虫引擎看,可以将所有的链接按照一定的格式放到 sitemap.xml 文件中,然后把这个文件放到网站的根目录下,如 http://www.barretlee.com/sitemap.xml。

而最重要的还是 robots.txt 这个文件,它是所有引擎约定俗成的一个文件,比如我的网站中用到的 http://www.barretlee.com/robots.txt ,其内容为:

Sitemap: http://www.barretlee.com/sitemap.xml
User-agent: *
Allow: /

SEO上,站长工具主要分为两个方面,一个是对网页的抓取,一个是对网页的分析。它告诉搜索引擎,网站地址的位置、允许蜘蛛爬取的内容等,它是一个协议。最近,貌似还多了一个humans.txt,也是一个比较有意思的文件,可以在这里了解它:http://www.humanstxt.org.cn/,它可以描述一些站点和团队的故事。

网页的抓取在百度站长工具中体现的比较多,而网页的分析,诸如数据标注、结构化数据等,百度做的还比较搓,目前还在内测阶段,需要发送邮件才能申请权限。看到百度站长工具页面上的几个数据标注示意图,揣测应该比 google 弱一百倍,所以我还是重点说说 google 的吧。

网页的抓取

这块上,两个站长工具都是强调让开发者把网站地图显式的暴露给搜索引擎,提供了各种分析网站地图准确性合理性的工具,搜索引擎如果发现你的网站上一个地址时有时无,就会觉得你不可信有点飘渺。所以一旦网页因为改造或迁移导致页面链接丢失,可以在站长工具中填写这些死链。

不要贪婪的让搜索引擎不停的爬取你的网站,如果它多次过来发现内容是一样的,它也会很伤心的离开。而如果它发现每次过来爬你的内容都能找到很有意思的、从来没发现过的东西,它会对你越来越感兴趣,甚至日久天长它会给你定型、定位,然后权重会越来越高。在站长工具上都是可以设置的。

网页的分析

google 的数据化标记做的实在是太赞了!输入网址,它会打开你的网页,设置你要标记的类型,比如文章。选中页面上的元素然后标记。比如选中文章的标题,选中之后有一个菜单,在菜单上选择 title,选中作者名字,然后菜单上选择 author,一个页面标记完了之后,他会分析整站的所有页面,如果结构相似,也会自动标记其他页面。

整个标记完成之后,google 就知道你整个网站的信息架构了,下次要做的就是对这些信息内容做匹配和分类。所以我们可以看到,个人博客在 google 中的搜索是极其靠前的,因为页面的信息结构简单,即便你不去标记,它爬取多次之后也能自己理解。

对比百度和 google ,两者如同屌丝和高富帅。不过高富帅总是要越墙才能看到,所以我平时使用的依然是百度分析。百度分析和百度站长工具还是不一样的。百度对网页流量的分析和搜索词汇的分析还是挺精准,也很有参考价值。

小结

本文对 SEO 相关的东西做了一个简要的概述,同时也概括了搜索引擎做的一些工作,知识量有限,难以面面俱到,如有错误还请斧正。




本文转自Barret Lee博客园博客,原文链接:http://www.cnblogs.com/hustskyking/p/webmaster-in-baidu-and-google.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/454459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html 缩略图点击预览,[每天进步一点点~] uni-app 点击图片实现预览图片列表

点击图片&#xff0c;实现预览图片功能&#xff0c;并且可循环预览图片列表&#xff01;image.png一、多张图片预览html代码js代码data(){return {photos:[{ src: 图片路径1},{ src: 图片路径2},{ src: 图片路径3},……]}},methods: {// 预览图片previewImage(index) {let phot…

git ssh拉取代码_阿里云搭建git服务器

一.搭建步骤&#xff0c;分为两步搭建中心仓库自动同步代码到站点目录二.详细步骤如下1.先检查一下服务器上有没有安装gitgit --version如果出现版本号&#xff0c;说明服务器已经安装git&#xff0c;如图所示&#xff1a;2.如果没有版本信息&#xff0c;则先安装git&#xff1…

Django REST framework 序列化

创建一个序列化类 使用序列化有四种方式 使用json模块&#xff0c;完全手写使用django自带的序列化模块 1&#xff0c;# from django.core import serializers 2&#xff0c;# dataserializers.serialize(“json”,book_list)使用REST framework 带的序列化方法&#xff0c…

基于SIMD的AVS整数反变换算法设计与优化

基于SIMD 的AVS 整数反变换算法设计与优化王玲娟&#xff0c;张刚**作者简介&#xff1a;王玲娟&#xff0c;&#xff08;1987-&#xff09;&#xff0c;女&#xff0c;在读硕士&#xff0c;主要研究方向&#xff1a;视频解码算法通信联系人&#xff1a;张刚&#xff0c;&#…

Word -- 列表重新编号

Word -- 列表重新编号office一言&#xff1a;我小心翼翼地灌溉&#xff0c;一日复一日地期待&#xff0c;那么费力&#xff0c;植成参天的乔木&#xff0c;岂愿见你终有一日从容赴死&#xff1f;问题 word 文档早就想解决的一个问题&#xff0c;这次遇到了就上网找解决掉了&…

非持久连接和持久连接

非持久连接和持久连接 HTTP既可以使用非持久连接(nonpersistent connection)&#xff0c;也可以使用持久连接(persistent connection)。HTTP/1.0使用非持久连接&#xff0c;HTTP/1.1默认使用持久连接。 非持久连接 让我们查看一下非持久连接情况下从服务器到客户传送一个Web页面…

计算机开机键鼠无法识别,我得电脑一开机就检测不到键盘和鼠标

2005-10-18 16:06:131、开机后当出现dos界面时&#xff0c;按一下pause键(这个键在四个方向键的上边&#xff0c;仔细找就能找到)&#xff0c;如果计算机启动停止&#xff0c;说明你的键盘起作用&#xff0c;主板在开机时就已经检测到了鼠标键盘。启动后不能使用鼠标键盘&#…

vs2003 局部友元访问私有不可访问_C++ 类:重载运算符与友元

18.类中重载运算符与友元上次节中学习了如何在类中重新定义赋值()运算符&#xff0c;实际上在一个自定义类中除了赋值()运算符外&#xff0c;类的对象是不可以直接使用运算符的&#xff0c;比如你在main函数中写这样的代码会报错&#xff1a;如果想解决这些报错问题&#xff0c…

oracle sqlldr (一) 最基本语法

-- Create table create table DEPT2 (DEPTNO NUMBER(2) not null,DNAME VARCHAR2(14),LOC VARCHAR2(1000) ); alter table DEPT2add constraint DEPT_PK primary key (DEPTNO);------demo.ctl LOAD DATA INFILE * --数据在控制文件中 INTO TABLE DEPT2 INSERT ---默认加…

Django REST framework 视图

上一部分代码在序列化部分 类继承顺序 ############### mixins.py ################ # 类中调用的方法均在 GenericAPIView 类中实现&#xff0c;所以下列类需要结合 GenericAPIView 使用 class ListModelMixin(object) # 查看继承类def list(self, reque…

AVS软件解码器的优化

AVS软件解码器的优化 董斌 , 姜昱明 (西安 电子科技大学计算机学院,陕西 西安,710071)) 摘 要: 主要研究了AVS标准的视频压缩部分,指出了影响解码速度的瓶颈并提出了一种优化方案.使用从程序结构入手结合使用SIMD指令集的方案来优化AVS软件解码器.实验结果表明优化方案可行并且…

IOS7.1.1真的像网上流传的那么好?没有任何问题么??

IOS7.1.1推送更新之后到处看到网上说711好的~~ 那么IOS7.1.1真的像网上现在流传的那么好么&#xff1f; 其实不然&#xff0c;IOS7.1.1目前众多网友反映说升级ios7.1.1之后APPstore连接不上了&#xff0c;提示无法连接到APPstore。 这个问题也不难解决~还是之前的老办法~ 那么今…

三校生计算机对口本科有哪些学校,宝山三校生五月对口高考报名

多次复习生活不可能像你想象得那么好&#xff0c;但也不会像你想象得那么糟。我觉得人的脆弱和坚强都超乎自己的想象。多种方式结合起来复习单一的复习方法&#xff0c;易产生消极情绪和疲劳&#xff0c;如果采用交谈复习法、讨论复习法、自我检查复习法多样化的复习方法&#…

localhost 已拒绝连接_【Python】MongoDB数据库的连接和操作

安装Python 要连接 MongoDB 需要 MongoDB 驱动。pip安装&#xff1a;python3 -m pip3 install pymongo创建数据库import pymongo myclient pymongo.MongoClient("mongodb://localhost:27017/")mydb myclient["loaderman"]注意: 在 MongoDB 中&#xff0c…

checkbox已设置为checked--true-但不勾选问题解决方法(只第一次勾选有效)

一、出现的问题及解决方法&#xff1a; 今天在写一个table相关插件的时候无意中发现了这样一个问题&#xff0c;记得以前在写这种控制checkbox选中与非选中的代码时并没有这种bug&#xff0c;当时也是用的checked属性&#xff0c;而现在却行不通了。 于是乎做了以下测试&#x…

Python 错误和异常小结[转]

原文链接 http://blog.csdn.net/sinchb/article/details/8392827 事先说明哦&#xff0c;这不是一篇关于Python异常的全面介绍的文章&#xff0c;这只是在学习Python异常后的一篇笔记式的记录和小结性质的文章。什么&#xff1f;你还不知道什么是异常&#xff0c;额... 1.Py…

Django REST framework 认证、权限和频率组件

认证与权限频率组件 身份验证是将传入请求与一组标识凭据&#xff08;例如请求来自的用户或其签名的令牌&#xff09;相关联的机制。然后 权限 和 限制 组件决定是否拒绝这个请求。 简单来说就是&#xff1a; 认证确定了你是谁权限确定你能不能访问某个接口限制确定你访问某…

高速率AVS整数变换的汇编实现与优化

1 引言 AVS标准Ⅲ采用的8x8整数变换在获得较H&#xff0e;264更高的压缩率和主观图像质量的同时&#xff0c;增加了算法的实现复杂性和时间开销。本文重点研究AVS编解码器的整数变换模块&#xff0c;针对不同的算法实现模式&#xff0c;在原有Visual C6&#xff0e;0整数变换模…

计算机与广播电视论文,浅谈广播电视中计算机技术的作用论文.pdf

1、计算机技术在广播电视的媒体内容中有重要应用在以往的广播电视中&#xff0c; 媒体内容主要分为音频和视频两种信号&#xff0c; 在传输的过程中使用的是模拟信号&#xff0c; 但模拟信号受到的外界干扰因素较为明显&#xff0c; 因此广播电视传播的媒体内容受到影响&#x…

opencv安装教程python3.7_Mac下安装使用Python-OpenCV,解决opencv3安装完成无法使用的问题 - pytorch中文网...

OpenCV是一个跨平台计算机视觉库&#xff0c;可以运行在Linux、Windows、Android和Mac OS操作系统上。提供了Python、Ruby、MATLAB等语言的接口&#xff0c;实现了图像处理和计算机视觉方面的很多通用算法。 Mac安装OpenCV 在我们的深度学习的过程中&#xff0c;对于图像&#…