前两期在介绍SEO的时候,我们讲了SEO的基本定义,这里我们再简单回顾一下吧!
SEO(搜索引擎优化)
SEO(搜索引擎优化)通常的定义是:在了解搜索引擎工作原理的基础上,对网站进行内外部的调整和优化,提高网站的关键词排名,获得更多的流量,实现网站的营销目标。通过这个定义我们可以看出,做SEO,首先要知道我们的搜索引擎是怎么工作的,只有了解了它的原理,我们才能根据这个原理去做后续的优化工作。这就是我今天要重点跟大家分享的话题:搜索引擎是如何工作的!
由于搜索引擎的专业知识涉及面很广,可以作为一门独立的学科进行系统的研究,所以建议新手在刚开始学习SEO的时候,多了解一下搜索引擎的相关知识,也可以买一本搜索引擎原理方面的书,了解了搜索引擎的工作原理,才能对后期的优化工作有一个明确的方向!
搜索引擎的工作原理
首先,搜索引擎的工作原理大致可以分为三个阶段:爬行与抓取:搜索引擎蜘蛛()通过跟踪链接发现并访问页面,然后读取HTML代码并存入数据库;预处理:对搜索引擎蜘蛛抓取到的页面数据进行文本提取、中文分词、索引(正向索引)、倒排索引等处理,为后续的排名展示做准备;排名:通过一定的搜索相关度计算,按照一定的格式生成搜索结果页面。
搜索引擎的工作原理
让我们详细讨论一下搜索引擎在这三个阶段的工作原理:
爬行和抓取
1.跟踪链接:一般有深度优先和广度优先两种跟踪方式,如图:
深度优先跟踪链接
广度优先跟踪链接
理论上来说,无论采用哪种跟踪方式,只要给蜘蛛足够的时间,它就能爬取互联网上所有的链接。但事实上,蜘蛛的宽带资源和时间非常有限,不可能爬取所有的链接,最多能爬取和收录一小部分。因此,我们在做SEO工作的时候,需要主动吸引蜘蛛来抓取和收录我们的页面。
2、吸引蜘蛛:哪些页面能吸引蜘蛛呢?满足下面几点就可以了。
预处理
这里说的预处理包括:文本抽取、中文分词、去停用词、去噪、去重、正向索引、倒排索引、链接关系计算、特殊文件处理及质量判断等。由于内容比较多,这里就不详细讲解了,主要讲正向索引和倒排索引两个核心内容。有的书上把预处理阶段定义为建立索引,其实就是把正向索引和倒排索引的重点讲清楚了。先看下面这张图:
正向索引结构
倒排索引结构
上图中,文件指的是页面,关键词则是与用户搜索的单词相匹配的关键词。这里的关键词是搜索引擎内部存储的关键词,也是根据用户过去搜索过的单词进行收集和排序的。通过对比两种索引结构可以看出,倒排索引更符合搜索引擎的工作要求。当用户搜索某个关键词时,搜索引擎系统可以一次性直接导出符合该关键词的页面,然后通过链接相关性计算、特殊文件处理、页面质量判断等方式,确定哪些页面可以作为搜索结果页面,最后以排名的方式展示出来。
排行
经过预处理,特别是倒排索引处理后,对用户搜索词进行处理并匹配相应的文件,得到初始文件子集。这里的初始文件子集不能直接用于排名,还需要进行相关性计算、排名筛选和调整,才能最终展示页面的排名结果。这里的相关性计算主要是根据关键词的共性、词频及密度、关键词位置及形式、关键词距离、链接分析、页面权重等来判断页面内容是否与用户搜索的词语高度相关。
好了关于搜索引擎的工作原理我就说这么多了,其实还有很多细节我没详细讲到,因为涉及到的东西太多了,大家可以多了解一些搜索引擎的知识,借助相关书籍来系统地学习这方面的内容!本期SEO分享就到此结束,大家有什么问题或者想法可以在下方评论中留言咨询哦!
SEO搜索的原理是什么,如何做SEO优化
SEO很大程度上就是关键词排名,让关键词上首页是SEO的基本目标,有首页排名才有更好的展示机会,才有更好的转化率。
1. 搜索原则
如果把互联网比作一张蜘蛛网,那么网络蜘蛛就是一只在网上爬行的蜘蛛。网络蜘蛛通过网页的链接地址来搜索网页,它从网站的某个页面(通常是首页)开始,读取网页内容,找到网页中的其他链接地址,再通过这些链接地址搜索下一个网页,如此循环,直到爬取完网站的所有网页。如果把整个互联网看作一个网站,那么网络蜘蛛可以利用这个原理爬取互联网上所有的网页。
1.爬行
搜索引擎和普通访客一样,会沿着网页上的链接,逐个下载我们的网页,准备进行下一步的预处理。
2.预处理
①.判断是否符合入选规则,若符合入选规则则继续处理
②. 将文章分词
将网页上的文章切分成单个的单词,测量文档间的相关性,为建立倒排索引做准备,并记录单词出现的位置。
③.创建倒排索引
在搜索引擎中,每个文件都对应一个文件ID,文件内容以关键字的集合来表示。
将文档ID到关键词的映射转换为关键词到文档ID的映射。
使用词语来索引网页的优点在于搜索引擎用户也会输入词语,因此可以轻松找到相关的网页。
3. 搜索
①. 对用户查询中的关键词进行分词,并取索引的交集
②. 排序
重要性 - 网页的静态质量得分。搜索引擎将网站的各种性能状况转换成分数,这些分数相加就得到页面的质量得分,也就是所谓的权重。
a. 页面信噪比:
页面信噪比是指页面上主文本与非主文本的比例。页面信噪比至少要大于1。
稀缺性
c.链接控制:
链接控制分为链接数量和链接自然度,一个页面的权重是固定的,链接可以传递权重,链接越多,每个链接传递的权重越低。
d. 页面浏览量
相关性 - 上面的倒排索引只能定性地判断网页和查询是否相关,但无法定量地知道哪一个更相关。百度的做法:
a.记录该词出现的位置,不同位置的关键词权重不同。
b. TF-IDF算法,即某个词在一篇文章中出现的次数越多,这个词的权重就越高;某个词在整个互联网中出现的次数越多(比如“我”、“的”这类词,对文章主题的识别能力很差,几乎在每一篇文章中都会出现),这个词的权重就越小。
4.常用的高级搜索命令:
site:SEO最熟悉的高级搜索命令,用于搜索某个域名下的所有文件。
inurl:指令用于搜索查询词出现在url中的页面。
:该命令返回标题包含关键字的页面。
:其功能是查询该域名下的反向链接(反向链接=外部链接+内部链接)。
2. 指数排名
1. 收集和索引
已编入索引:已找到并分析网页
索引:经过初步分析,认为有意义,进行数据库建设
收录与被索引的关系是包含关系,收录之后才能被索引,并且收录的量要大于被索引的量。
百度表示,第三方提供的所谓收录查询并不可靠。
1-1. 索引文章的决定因素:
相信;
文章的质量;
更新频率;
网站结构;
熊章浩及站点地图对百度收录有促进作用;
一个网站的年龄和权重影响着百度对该网站的收录效果。
1-2. 加速页面索引的方法:
制作一个好的网站TDK并且不要修改它;
积累高质量的网站内容;
每日定期定量更新;
提交给百度等搜索引擎,包括熊章浩等;
重点关注熊掌号,目前熊掌号提交可实现80%以上的移动端收录;
有针对性、定期地发布高质量外部链接。
2.文章质量判断(百度官方)
① 受众
受众的大小代表着用户搜索需求的大小。
② 稀缺性
稀缺性主要描述互联网上页面的独特性。
③. 品质
不会出现死链接,网站访问速度令人满意。
b.主体内容是否齐全,格式、字体是否方便阅读,是否有过多、种类繁多的广告。
c.信息是否丰富,衍生的次要需求是否得到满足。
④. 期限
3. 原始认定及判定
①. 发布时间——蜘蛛爬行的日期
②. 锚文本链接——网站页面的外部链接数量
③. 信息指纹——文章内容的相似度
4.标题优化方法
从搜索引擎搜索到的内容的标题往往是网页标题的内容,搜索引擎给予标题很高的权重。
①.标题要连贯、吸引人,与文章实际相一致。
②.标题需原创,包含核心关键词及长尾词,与内容关键词一致
③.写作要符合搜索引擎习惯,少用标点符号
④.长度要适当,在22个汉字以内。
5.内容优化方法
主要分为两个部分,一部分是原创/伪原创,一部分是素材库的收集与审核。
至少第一段需要纯原创,最好有可以搜索的内容,整段内容都要根据玩家的搜索需求来写。
正文最好组织成小标题
基于内容价值的伪原创方法
找到有价值的文章,最好是同一天发布的文章,或者利用爬虫爬取到的数据库重写
有价值的文章易于阅读、目标明确、引人注目。
①.修改文章开头和结尾:
重新概括第一段和最后一段,打乱文序,删除不相关的词语,添加观点。
②拆分重组原文章:找出几篇相关性强的文章,合并成一篇新文章
③ 相关内容的组合
④. 将文章翻译成其他语言
⑤.利用论坛、博客、新媒体等挖掘文章
6. 图像优化方法
搜索引擎已经具备了一定的识别大多数图片原创性的能力。
针对图像的算法主要包括计算哈希值、pHash算法、SIFT算法,以及对目标图像进行编码形成“指纹”并存储。
①.给图片添加水印;
②.改变原图的长宽比,或者直接截取图像的一部分;
③.图片的长宽比尽量接近121*75,接近百度搜索显示的缩略图大小;
④.相对于文字链接,缩略图链接更容易吸引访客点击和关注相关性。
⑤.添加alt 可以增强页面的关键词主题,但注意不要堆砌关键词。
⑥.百度越来越喜欢原创内容,图片其实也是页面的一部分。
7.关键词优化方法
关键词分类:核心关键词;相关关键词;长尾关键词;错误关键词;生僻关键词
①.站在用户的角度考虑,思考用户在搜索的时候会用什么词。
②. 不超过5个,通常3个:主关键词,次要关键词,以及一个潜在的长尾关键词
③.关键词密度不宜超过2%-8%(根据需要而定,不绝对)
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。