2019独角兽企业重金招聘Python工程师标准>>>
什么是SEO
SEO是“搜索引擎优化”的简称,目的是提升网站在搜索引擎结果中的排名,让用户更容易找到我们的网站,从而带来更多的网站访问量。
网络爬虫
爬虫(“crawler”)或蜘蛛(“spider”)是对web机器人一个很形象的概括。它们会递归地对网站进行遍历,顺着一个页面上的链接爬到其他页面上并且获取页面的内容然后存储在自己的服务器上。
SEO的常用方法
可以分为站内优化和站外优化。
站内优化:
- 每个页面都有各自的title
因为搜索引擎读取这个页面时首先就会查看页面的title,所以title要根据这个页面的内容来定,还要包含网站的关键字。比如:开源中国有一个FAQ页面,那么它的title就叫“开源中国-FAQ”,而不要仅仅是FAQ。 - 高质量的h1和h2
每个页面有一个且最多一个h1标签,h1标签的内容也是搜索引擎查看的重点,它应该包含页面的内容概括和网站关键字;h2标签用来概括这个页面每个重点的内容,还是以FAQ举例,有个问题是“如何在开源中国注册用户”,这个问题就可以写在h2当中。 - 规范化url
咋一看这个名字让人摸不着头脑。我们先来看看为什么有这个东西。因为有些网站不同的url可以指向同一个页面。比如:
http://www.example.com/index.html
http://www.example.com/
http://example.com
http://www.example.com:80/INDEX.HTML
以上这些都是指向同一个页面,可是机器人不知道它们指向同一个资源,就会反复的去爬,但获取到的是一样的内容,这对于搜索引擎是无用甚至有害的,因为可能会造成环路。所以我们要给每个页面指定一个规范化的url,虫子就会采用这个我们推荐的url作为这个页面的固定url,如此当它通过其他url再爬过来的时候,一对比就能知道这个页面是不是已经爬过了。
在head中添加如下代码即可:<link rel="canonical" href="http://www.example.com/index.html" />
- 添加关键字(keywords)和描述(description)
在head标签中,记得添加页面的关键字和描述,爬虫会收录这些内容,所以挑选关键字也很重要,能概括这个页面的内容,还得体现自己网站的特色。描述就是概括这个页面的一句话,在搜索结果的网页快照下面会显示出来,不信可以用google搜索“开源中国”试试。<meta name="keywords" content="faq,问题,解答,开源中国"> <meta name="description" content="开源中国常见问题集合">
- 图片使用alt属性
alt属性本意是在图片无法在页面上正确显示出来时用文本替代显示图片内容的,所以搜索引擎会读取图片的alt属性来查看图片内容。 - index和follow
可以在head标签中使用index和follow,明确告诉爬虫整个页面的内容希望被加到搜索引擎索引中,链接也会被追踪;反之,可以使用noindex,nofollow告诉它这个页面的所有内容都不被索引,所有链接都不要追踪。<meta name="robots" content="index, follow">
- 使用robots.txt
robots.txt是一个放在网站根目录下的文件,我们可以在这里看到开源中国的robots.txt文件。它不是一个强制协议,而是搜索引擎自愿遵守的一套约束规范,我们可以用它来告诉爬虫网站哪些部分可以被访问,哪些部分拒绝访问。详细用法参见百度百科。
很有趣的是淘宝,显然它不愿意百度访问任何内容。
同时,robots文件中可以引入网站地图sitemap,把网站上所有页面的链接列出来,爬虫会根据列出来的链接去读取页面,可以减少爬虫的工作量。 - 丰富内容
以上都是一些技术手段,而好的内容才会有人来看有人转载,所以定期更新内容,最好有原创的文章,这样别人转载的次数才会多,搜索引擎也会以此判断这是一个优秀的内容,应该被排在前面。
站外优化:
- 总的来说就是增强存在感,将网站链接发布到其他网站的页面上。可以在论坛发帖中插入网站的链接,空间签名添加网站签名,发布博客,与合作伙伴相互交换等等。
- 还有就是通过商业手段,参加竞价排名,购买seo优化等。
以上是本人对seo的一些浅见。