上次我给大家分享SEO基础了,想必大家也了解seo网站优化所做的工作,要想做好seo工作,首先你必须知道搜索
引擎的工作原理。要了解认识搜索引擎的工作原理,记忆搜索引擎的工作流程。
搜索引擎是如何收集互联网中的网页的?
蜘蛛程序抓取。蜘蛛:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取互联网中网页的程序或者脚本。
百度的爬行程序:baiduspide。
谷歌的爬行程序:Googlebot。
蜘蛛的工作方式:蜘蛛是通过链接进行爬行并抓取网页的。
蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等
通俗讲就是在正常情况下蜘蛛首先会从大的有权威分类目录开始爬行。目前分类目录对于网站更多的意义在于贡献一条高质量的外链。所以一般的新站都会提交分类目录,以便快速被搜索引擎收录。
搜索引擎的抓取程序通过不断的跟踪链接来获取数据内容,获取的数据内容存在原始数据库,在经过一定的处理
提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接,给用户检索服务。
怎么知道蜘蛛有没有来爬我的网站?
我们可以查看空间服务器网站日志查看蜘蛛有没有来过我们自己网站。
不同空间商提供服务器放置网站日志的文件夹可能不一样,一般都是包含log结尾的文件夹里,用来存放已下载的网站日志文件。
点击下载后会在空间根目录下生产wwwlogs文件夹,读取网站日志里的重要信息,ctrl+F搜索baiduspider,确认百度蜘蛛是否来到网站,观察蜘蛛GET的页面内容,以及返回状态码。
1.的返回状态码】
404/NOT FOUND,页面已经失效了,通常会从数据库里删除,同时短时间内如果蜘蛛再次发现这条URL也不会抓取。
2.需要注意的是【robots文件】
所有的搜索引擎抓取程序在访问任何一个网站时,都会先检查根目录下是否存在robots.txt文件。
比如我的seo博客 www.ydwseo.com 在链接后面加/robots.txt就能看到.
既然所有的搜索引擎抓取程序在访问任何一个网站时都会先检查根目录robots.txt文件,那么robots.txt文件写法就是seo网站优化的重要一步。
User-agent:*(所有搜素引擎)
Disallow:/ 禁止抓取什么,可以写一些死链或者对网站网页无关文件及文件夹、或者是动态链接等等
allow:/允许抓取什么,可以写需要抓取页面文件等等。
Sitemap:网站地图的url
对于搜索引擎的工作原理总结就是主要以下三个方面:
网页收集:认识蜘蛛、种子站点、收集机制、原始数据库
预处理:提取文字、分词、去除重复页面、计算重要度、建立索引、提取链接
检索服务:查询词处理 获取排序。
对于这个搜索引擎工作原理,seo初学者只要加深记忆,在以后深入学习会慢慢明白理解。