我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

简要讨论搜索引擎的工作原理

前两期在介绍SEO的时候,我们讲了SEO的基本定义,这里我们再简单回顾一下吧!

简述搜索引擎工作的原理(seo基本原理)

SEO(搜索引擎优化)

SEO(搜索引擎优化)通常的定义是:在了解搜索引擎工作原理的基础上,对网站进行内外部的调整和优化,提高网站的关键词排名,获得更多的流量,实现网站的营销目标。通过这个定义我们可以看出,做SEO,首先要知道我们的搜索引擎是怎么工作的,只有了解了它的原理,我们才能根据这个原理去做后续的优化工作。这就是我今天要重点跟大家分享的话题:搜索引擎是如何工作的!

由于搜索引擎的专业知识涉及面很广,可以作为一门独立的学科进行系统的研究,所以建议新手在刚开始学习SEO的时候,多了解一下搜索引擎的相关知识,也可以买一本搜索引擎原理方面的书,了解了搜索引擎的工作原理,才能对后期的优化工作有一个明确的方向!

简述搜索引擎工作的原理(seo基本原理)

搜索引擎的工作原理

首先,搜索引擎的工作原理大致可以分为三个阶段:爬行与抓取:搜索引擎蜘蛛()通过跟踪链接发现并访问页面,然后读取HTML代码并存入数据库;预处理:对搜索引擎蜘蛛抓取到的页面数据进行文本提取、中文分词、索引(正向索引)、倒排索引等处理,为后续的排名展示做准备;排名:通过一定的搜索相关度计算,按照一定的格式生成搜索结果页面。

简述搜索引擎工作的原理(seo基本原理)

搜索引擎的工作原理

让我们详细讨论一下搜索引擎在这三个阶段的工作原理:

爬行和抓取

1.跟踪链接:一般有深度优先和广度优先两种跟踪方式,如图:

简述搜索引擎工作的原理(seo基本原理)

深度优先跟踪链接

简述搜索引擎工作的原理(seo基本原理)

广度优先跟踪链接

理论上来说,无论采用哪种跟踪方式,只要给蜘蛛足够的时间,它就能爬取互联网上所有的链接。但事实上,蜘蛛的宽带资源和时间非常有限,不可能爬取所有的链接,最多能爬取和收录一小部分。因此,我们在做SEO工作的时候,需要主动吸引蜘蛛来抓取和收录我们的页面。

2、吸引蜘蛛:哪些页面能吸引蜘蛛呢?满足下面几点就可以了。

预处理

这里说的预处理包括:文本抽取、中文分词、去停用词、去噪、去重、正向索引、倒排索引、链接关系计算、特殊文件处理及质量判断等。由于内容比较多,这里就不详细讲解了,主要讲正向索引和倒排索引两个核心内容。有的书上把预处理阶段定义为建立索引,其实就是把正向索引和倒排索引的重点讲清楚了。先看下面这张图:

简述搜索引擎工作的原理(seo基本原理)

正向索引结构

简述搜索引擎工作的原理(seo基本原理)

倒排索引结构

上图中,文件指的是页面,关键词则是与用户搜索的单词相匹配的关键词。这里的关键词是搜索引擎内部存储的关键词,也是根据用户过去搜索过的单词进行收集和排序的。通过对比两种索引结构可以看出,倒排索引更符合搜索引擎的工作要求。当用户搜索某个关键词时,搜索引擎系统可以一次性直接导出符合该关键词的页面,然后通过链接相关性计算、特殊文件处理、页面质量判断等方式,确定哪些页面可以作为搜索结果页面,最后以排名的方式展示出来。

排行

经过预处理,特别是倒排索引处理后,对用户搜索词进行处理并匹配相应的文件,得到初始文件子集。这里的初始文件子集不能直接用于排名,还需要进行相关性计算、排名筛选和调整,才能最终展示页面的排名结果。这里的相关性计算主要是根据关键词的共性、词频及密度、关键词位置及形式、关键词距离、链接分析、页面权重等来判断页面内容是否与用户搜索的词语高度相关。

好了关于搜索引擎的工作原理我就说这么多了,其实还有很多细节我没详细讲到,因为涉及到的东西太多了,大家可以多了解一些搜索引擎的知识,借助相关书籍来系统地学习这方面的内容!本期SEO分享就到此结束,大家有什么问题或者想法可以在下方评论中留言咨询哦!

SEO搜索的原理是什么,如何做SEO优化

SEO很大程度上就是关键词排名,让关键词上首页是SEO的基本目标,有首页排名才有更好的展示机会,才有更好的转化率。

简述搜索引擎工作的原理(seo基本原理)

1. 搜索原则

如果把互联网比作一张蜘蛛网,那么网络蜘蛛就是一只在网上爬行的蜘蛛。网络蜘蛛通过网页的链接地址来搜索网页,它从网站的某个页面(通常是首页)开始,读取网页内容,找到网页中的其他链接地址,再通过这些链接地址搜索下一个网页,如此循环,直到爬取完网站的所有网页。如果把整个互联网看作一个网站,那么网络蜘蛛可以利用这个原理爬取互联网上所有的网页。

1.爬行

搜索引擎和普通访客一样,会沿着网页上的链接,逐个下载我们的网页,准备进行下一步的预处理。

2.预处理

①.判断是否符合入选规则,若符合入选规则则继续处理

②. 将文章分词

将网页上的文章切分成单个的单词,测量文档间的相关性,为建立倒排索引做准备,并记录单词出现的位置。

③.创建倒排索引

在搜索引擎中,每个文件都对应一个文件ID,文件内容以关键字的集合来表示。

将文档ID到关键词的映射转换为关键词到文档ID的映射。

使用词语来索引网页的优点在于搜索引擎用户也会输入词语,因此可以轻松找到相关的网页。

3. 搜索

①. 对用户查询中的关键词进行分词,并取索引的交集

②. 排序

重要性 - 网页的静态质量得分。搜索引擎将网站的各种性能状况转换成分数,这些分数相加就得到页面的质量得分,也就是所谓的权重。

a. 页面信噪比:

页面信噪比是指页面上主文本与非主文本的比例。页面信噪比至少要大于1。

稀缺性

c.链接控制:

链接控制分为链接数量和链接自然度,一个页面的权重是固定的,链接可以传递权重,链接越多,每个链接传递的权重越低。

d. 页面浏览量

相关性 - 上面的倒排索引只能定性地判断网页和查询是否相关,但无法定量地知道哪一个更相关。百度的做法:

a.记录该词出现的位置,不同位置的关键词权重不同。

b. TF-IDF算法,即某个词在一篇文章中出现的次数越多,这个词的权重就越高;某个词在整个互联网中出现的次数越多(比如“我”、“的”这类词,对文章主题的识别能力很差,几乎在每一篇文章中都会出现),这个词的权重就越小。

4.常用的高级搜索命令:

site:SEO最熟悉的高级搜索命令,用于搜索某个域名下的所有文件。

inurl:指令用于搜索查询词出现在url中的页面。

:该命令返回标题包含关键字的页面。

:其功能是查询该域名下的反向链接(反向链接=外部链接+内部链接)。

简述搜索引擎工作的原理(seo基本原理)

2. 指数排名

1. 收集和索引

已编入索引:已找到并分析网页

索引:经过初步分析,认为有意义,进行数据库建设

收录与被索引的关系是包含关系,收录之后才能被索引,并且收录的量要大于被索引的量。

百度表示,第三方提供的所谓收录查询并不可靠。

1-1. 索引文章的决定因素:

相信;

文章的质量;

更新频率;

网站结构;

熊章浩及站点地图对百度收录有促进作用;

一个网站的年龄和权重影响着百度对该网站的收录效果。

1-2. 加速页面索引的方法:

制作一个好的网站TDK并且不要修改它;

积累高质量的网站内容;

每日定期定量更新;

提交给百度等搜索引擎,包括熊章浩等;

重点关注熊掌号,目前熊掌号提交可实现80%以上的移动端收录;

有针对性、定期地发布高质量外部链接。

2.文章质量判断(百度官方)

① 受众

受众的大小代表着用户搜索需求的大小。

② 稀缺性

稀缺性主要描述互联网上页面的独特性。

③. 品质

不会出现死链接,网站访问速度令人满意。

b.主体内容是否齐全,格式、字体是否方便阅读,是否有过多、种类繁多的广告。

c.信息是否丰富,衍生的次要需求是否得到满足。

④. 期限

3. 原始认定及判定

①. 发布时间——蜘蛛爬行的日期

②. 锚文本链接——网站页面的外部链接数量

③. 信息指纹——文章内容的相似度

4.标题优化方法

从搜索引擎搜索到的内容的标题往往是网页标题的内容,搜索引擎给予标题很高的权重。

①.标题要连贯、吸引人,与文章实际相一致。

②.标题需原创,包含核心关键词及长尾词,与内容关键词一致

③.写作要符合搜索引擎习惯,少用标点符号

④.长度要适当,在22个汉字以内。

5.内容优化方法

主要分为两个部分,一部分是原创/伪原创,一部分是素材库的收集与审核。

至少第一段需要纯原创,最好有可以搜索的内容,整段内容都要根据玩家的搜索需求来写。

正文最好组织成小标题

基于内容价值的伪原创方法

找到有价值的文章,最好是同一天发布的文章,或者利用爬虫爬取到的数据库重写

有价值的文章易于阅读、目标明确、引人注目。

简述搜索引擎工作的原理(seo基本原理)

①.修改文章开头和结尾:

重新概括第一段和最后一段,打乱文序,删除不相关的词语,添加观点。

②拆分重组原文章:找出几篇相关性强的文章,合并成一篇新文章

③ 相关内容的组合

④. 将文章翻译成其他语言

⑤.利用论坛、博客、新媒体等挖掘文章

6. 图像优化方法

搜索引擎已经具备了一定的识别大多数图片原创性的能力。

针对图像的算法主要包括计算哈希值、pHash算法、SIFT算法,以及对目标图像进行编码形成“指纹”并存储。

①.给图片添加水印;

②.改变原图的长宽比,或者直接截取图像的一部分;

③.图片的长宽比尽量接近121*75,接近百度搜索显示的缩略图大小;

④.相对于文字链接,缩略图链接更容易吸引访客点击和关注相关性。

⑤.添加alt 可以增强页面的关键词主题,但注意不要堆砌关键词。

⑥.百度越来越喜欢原创内容,图片其实也是页面的一部分。

7.关键词优化方法

关键词分类:核心关键词;相关关键词;长尾关键词;错误关键词;生僻关键词

①.站在用户的角度考虑,思考用户在搜索的时候会用什么词。

②. 不超过5个,通常3个:主关键词,次要关键词,以及一个潜在的长尾关键词

③.关键词密度不宜超过2%-8%(根据需要而定,不绝对)

简述搜索引擎工作的原理(seo基本原理)

二维码
扫一扫在手机端查看

本文链接:https://by928.com/1537.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线