【引流增粉】内容页关键词布局优化分析

关键词是SEO的核心概念之一,SEO实践中有很多工作都是围绕关键词展开的。 本文尝试将搜索技术原理与网站优化实践相结合,总结出SEO中内容页面关键词布局的具体实现方法。

1、搜索引擎技术原理简述

搜索引擎的核心底层技术基础是将用户查询词分割成自然语言中有意义的短语,然后从索引库中查找包含这些短语中全部或部分关键词的内容,并返回结果。

正常人的搜索思路是拿一个关键词来查找内容中是否包含该关键词。 假设要从序号为1-10的10个网页中搜索包含“关键字布局”的网页。 搜索这10个网页的全文,看是否包含“关键词布局”一词,然后返回包含该词的网页的序号。 但如果是从几百万、几千万的网页中进行搜索,速度会很慢,所以就发明了倒排索引的概念。 (下图中数据非实际数据,仅供说明)

图片[1]-【引流增粉】内容页关键词布局优化分析-唐朝资源网

如上图所示,是最简单的倒排索引模型(DocID是搜索引擎为抓取到的网页分配的唯一编号)。 搜索引擎爬虫每次抓取网页时,都会将网页分成若干词组,并将这些词与倒排索引表一一进行比较:如果倒排索引表的“关键词”一栏包含该词,则将其添加到倒排索引表中。将当前网页的DocID号添加到其对应的倒排列表中; 如果没有,则添加一行(涉及生词识别,这里不展开),给这个关键字分配一个ID,然后写入当前网页的页码。 这样,当我们查询“关键词1”时,我们很快就可以知道相关的网页是(1,2,3,5)。 如果将比较复杂的查询词分为“关键词1”、“关键词3”、“关键词6”三个词,也可以快速查询到相关网页(1、2、3、5、6、7、 9).

仅此还不足以对搜索结果进行排序。 在不作弊的情况下,某个关键词在网页中出现的次数越多,则该关键词越有代表性。 前提是必须过滤停用词(几乎每个网页中停用词都很多,但不能是表达任何特定含义的词,例如:“的”、“是”、“了”等)。 如果我们能够在倒排索引表中添加关键词在网页中出现的频率(简称:词频——TF)信息,就可以对网页进行排序。 如下图所示:当我们的查询词被分割为“关键词1”和“关键词2”时,相关网页可以排序为(3,5,1,2)。

图片[2]-【引流增粉】内容页关键词布局优化分析-唐朝资源网

假设有两个网页1和2,倒排索引中的信息如下:

图片[3]-【引流增粉】内容页关键词布局优化分析-唐朝资源网

我们搜索“如何布局关键词”,搜索词分为“关键词”、“如何”、“布局”。 在网页1中,“关键词”、“如何”和“布局”分别出现了2、2和2。 次,共6次; “How”和“Layout”在网页2中一共出现了7次。按照前面的逻辑,最终的搜索结果排序为(2,1)。 这显然不是一个理想的排序结果。 网页2的主题显然是关于“如何布局Go”。 这时就需要引入IDF(Inverse DocumentFrequency Index)来解决这个问题。

如果网页集合中包含某个关键词的网页较少,则该关键词具有较好的网页区分能力。 因此,IDF越大,权重越高。 假设上图中“keywords”、“how”、“layout”、“Go”的IDF分别为2.5、0.3、0.8、3。 将每个词的TF乘以IDF再求和,得到网页1和2,相关性分别为:7.2和4.6,所以搜索“关键词如何布局”的排序结果为(1,2),这更现实。

关键词的位置信息也是很重要的一点。 一般认为,出现在标题中的关键词比出现在正文中的相同关键词更能体现网页的主题特征。 这就是H标签的重要性。 搜索引擎还可以根据代码布局和噪声比(例如停用词的频率)来判断哪里是导航、哪里是文本、哪里是侧边栏等。 这些位置信息将被标记在倒排索引列表中并参与排序决策。

此外,还有一些其他常用的技术方法,例如:双词索引/短语索引、“如何布局关键词”不一定分为三个短词,还可能分为“关键词布局”、“如何措辞”、“如何布局”等; 关联词的组合搜索、“关键字”与“关键字”关联、“如何”与“如何”关联等。

当然,现实中,现代大型搜索引擎的倒排索引模型会复杂得多,并且许多其他因素(其中一个重点是超链接分析)将被纳入排序算法中。 由于篇幅和作者水平有限,我们不再继续扩展。

2.如何布局关键词

1、标题中必须有关键词,但不一定是完整的问句。

由于搜索引擎在查询时会将查询词分成N个词、双词、短语,并添加相关词来组合查询词,因此标题中的关键词可能不是一个完整的疑问句。 一个典型的例子就是“做哪家公司最好?” 标题中不一定需要这个完整的词。 即使标题中包含了完整的短句,也无法匹配其他完整的短句。 一个高质量的网页往往可以匹配数百个长尾关键词。 显然,一个标题不可能全部包含在内。 标题的另一个重要功能是吸引点击,点击率也是影响排名的因素,但“XXXX”、“好”、“公司”等核心词一定要出现。

2、文本自然、均匀地分布着一些核心词和分段词。

在搜索引擎发展初期,不少技术人员利用TF*IDF算法权重高的漏洞,堆积大量关键词,从而快速获得较好的搜索排名。 后来,搜索引擎在算法层面修复了漏洞,打击作弊,网络上流行的“理想关键词密度为3%到8%”的观点出现。 首先,这个密度不是针对完整的查询词计算的,而是针对所有切分词计算的。 在实践中,你会发现有的网页的关键词密度略低于3%,也有的网页的关键词密度远高于8%。 可以获得不错的排名。

如果你是一名搜索引擎工程师,你会做什么? 我想我会结合全网的历史访问数据(比如百度统计、手机百度等可以获得更全面的访问数据)和关键词密度信息来划定一个合理的范围和警告范围,超出则给予沉默处理警戒范围内,结合网站的历史数据和警戒范围内第一阶段小流量排名的访问数据反馈,决定是否打压、维持或给予较高排名。

相比关键词密度,我们更应该关注语言的流畅性(盲目地插入关键词显得冗长、别扭)和内容的质量和深度。 毕竟,搜索引擎有数百甚至数千个排名因素,因此您不能忽略其中一个而失去另一个。

3. 正文下方相关内容并在侧边栏推荐合适的布局关键词

虽然搜索引擎可以通过代码和噪音的比例来判断这些不是文本的一部分,从而降低这里一些关键词的权重,但从百度快照缓存的角度来看,还是有一点作用的。

正文下方和侧边栏的相关内容和推荐内容大多是从横向和纵向两个角度选取的。 比如,如果这篇文章的主题是“关键词布局”,那么横向推送一些“网站结构布局”、“关键词挖掘技巧”等关于网站优化的内容,大概率会有很多访问者感兴趣; 垂直推送一些“教学”内容。 诸如“如何建立高质量的外部链接”和“如何提高着陆页的转化率”等内容也是访问者可能暂时压抑的隐藏需求。 在添加关键词布局的同时,还可以提高PV,减少跳出,提高用户体验。 为什么不这样做呢。

© 版权声明
THE END
喜欢就支持一下吧
点赞104赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容