要做SEO引擎优化,首先要了解搜索引擎是如何工作的。这就像如果你想玩游戏就必须了解游戏规则一样。只有遵循搜索引擎的工作原理,才能得到好的结果。
搜索引擎使用一种称为“蜘蛛”或“爬虫”的自动化程序在整个网络中漫游以收集网站数据。搜索引擎蜘蛛会记录每个网站页面的内容(文字、图片、视频等)。搜索引擎蜘蛛还会跟踪网站每个网页中的超链接,不断跟踪这些链接指向它们所指向的目标网页,然后在这些目标网页上重新执行上述过程,一遍又一遍地爬行和爬行。 。达到阈值后,收集到的数据将被添加到搜索引擎的数据库中,然后会有专门的程序以特定的方式对数据库中的数据进行编译和索引。
当用户发起搜索时,搜索引擎会查询其数据库以查找包含用户提供的术语的网站。这些网站将根据搜索引擎的算法进行排名,然后在结果页面中提供给用户。
举个简单的例子,我们可以把在互联网上的搜索想象成在一本大百科全书中查找一些特定的信息。书中海量的索引会告诉我们各种内容的具体位置。比较理解:搜索引擎是帮助我们检索海量索引的程序。当我们使用搜索引擎搜索信息时,有一个程序(搜索引擎)会高速搜索一个庞大而全面的索引库,根据一些特定的规则确定并返回(提供)相关的搜索结果。
一般来说,搜索引擎的工作流程分为三个主要部分:
分析与爬行:搜索引擎蜘蛛能找到我们的网站吗?蜘蛛能否正常识别并读取我们网站的内容?
索引:搜索引擎是否对我们的网站建立索引?
排名结果:网站是否包含令人兴奋、有用且与用户搜索词相关的内容?
抓取网页并分析超链接
抓取网页是搜索引擎蜘蛛查找不存在的要添加到索引的新网页以及已用新内容更新的旧网页的过程。
搜索引擎使用大量的服务器来漫游和爬行(“爬行”或“提取”)互联网上的大量网页。执行爬行任务的自动化程序称为“()程序”或“爬虫程序”。各大搜索引擎都采用自己独特的算法进行爬行:程序会按照一定的规则自动确定要爬取的网站、爬取网站的频率以及每个网站要爬取的网页数量,基本不需要人工干预。
它从以前的爬行中积累的 URL 列表开始爬行过程,并随着网站管理员提供更多站点地图数据而增长。当访问每个网站时,会检测每个网页上的超链接并将其添加到它想要抓取的网页列表中。新创建的网站、现有网站的更改以及失效的超链接都会被记录并用于更新搜索引擎的索引库。
当然,并不是所有网站的网页内容都会被抓取。
每次抓取特定网站时,都会首先抓取当前网站根目录下的.txt 文件。例如:
此 .txt 文件列出了可以抓取的网页范围以及应忽略的范围。如果您不使用.txt 文件,也可以在网页的头部使用标签。例如:这里使用的 和 属性值表示您希望搜索引擎蜘蛛()不会跟踪网页上的超链接,并且当前网页不会被索引。进去吧。
Ps:标签指定的规则并不是所有搜索引擎都能识别和遵循的。已知存在完全合规性实施(Bing、Yahoo! 等)。
识别内容·处理数据以进行索引
该程序采集的每一个网页内容都会被捕获并收集,并且会有专门的后续程序(该产品没有公开代号╭( ̄m ̄*)╮,一般也包含在程序)进行进一步处理:将网页中可识别内容中的所有单词进行处理(分词、词性标注等),然后将这些单词在网页中的位置/频率编译成索引包含海量标签信息。
当然,网页中特定的关键内容标签和属性中会有对信息进行特殊处理的设置,例如网页的Title标签和Alt属性。该程序可以处理多种类型的网页内容,但并非所有类型的内容都可以处理。例如,无法处理某些富媒体文件 (.swf) 或动态交互 (ajax) 网页的内容。不同的搜索引擎可能使用不同的算法来识别内容并稍微不同地处理数据。这里直接/间接显示的强度。
Ps:如果您对分词和词性识别感兴趣,可以访问:简单在线文本分词和关键词研究辅助工具
倾听用户的声音(搜索请求)·提供结果(排名)
当用户输入查询请求时,搜索引擎会按照特定的规则从自己的(或者租用别人的……)索引库中搜索匹配的网页,并返回我们认为与用户的搜索最相关的结果。相关性由许多因素决定(大约两到三百个)。简单的权重因素之一是:其他相关网站中存在指向我们网站相关网页的超链接(外部链接一般称为外部链接),可以提高该网页在我们网站的相关性得分(权威的外部链接如果达到一定的阈值然后增加就没用了)。
为了让我们的网站在各大搜索结果页面中排名靠前,我们首先要保证各大搜索引擎能够正确抓取并索引我们的网站。如果某个网站在某个关键词搜索中排名较高,那是因为搜索引擎通过算法确定其内容与用户的查询更相关(即与索引中的其他竞争对手页面相比)。该网页在某个关键词的多个相关性因素中得分较高,因此践踏了相关性较低的对手。就是这样(毫无疑问)。
相关权重的简单概念:
搜索引擎使用以下因素对搜索词的每个实例进行加权:
权威性:指其他网站授予的相关性。如果我们的页面对某个术语具有较高的相关性得分,并且其他具有高相关性得分的网站上的页面也有指向您页面的链接,那么我们的页面排名将会更高。
文本位置:指术语出现在网页上的位置。如果特定搜索词位于您网站页面的标签中,搜索引擎通常会认为您的页面与该词非常相关。
出现频率:指某个术语在网页上出现的次数。如果特定搜索词在页面上多次出现,搜索引擎可能会给您的页面更高的相关性得分。
通过结合位置和频率因素(TF-IDF算法分词),搜索引擎可以对与搜索词相关的每个实例(网页)的内容进行加权分析,以确定每个网页的相关性。例如,某个术语在网页中多次出现,但仅在正文中出现。由于该术语不会出现在标记或任何标题标签中,因此搜索引擎可能会认为该术语不是页面的中心焦点,并且可能会降低页面的权重。
权限由该搜索引擎的用户授予。从搜索引擎结果页面选择我们网站的人越多(通常称为“点击”或“点击算法”或相对于点击率),搜索引擎授予我们页面的权限就越大。越高。
SEO引擎优化最难的就是不公开各大搜索引擎所涉及的相关因素以及各自的排名权重算法。面对搜索引擎的黑匣子,除了了解搜索引擎的工作原理、及时阅读各大搜索引擎的最新更新和发布的优化指南之外,还意味着不断的实践和探索。
扫一扫在手机端查看
-
Tags : 搜索引擎的工作原理
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。