什么是RegEx搜索引擎优化?

正则表达式,或正则表达式,是可用于识别模式的一系列字符。

这些正则表达式作为它们自己的语言,根植于文本、元字符、特殊序列和量词的组合。

一旦掌握了这门语言,您的数据分析效率将提高十倍。

RegEx由美国数学家Stephen Kleene创建,通常用于“查找和替换”文本。它是模式匹配的基础和定义标准,并在编程语言、搜索引擎、文字处理程序和许多其他方面实现。

在搜索引擎优化中,RegEx非常有用,因为它可以用来匹配最基本的部分:关键字和url。本文将探讨RegEx在何处以及如何用于数字营销,特别是搜索经验优化。

RegEx的重要性

手动挑选和选择关键字和URL可能非常麻烦,特别是当关键字或URL集很大的时候。(认为企业网站。)当正确和有效地使用RegEx模式时,可以帮助您大规模和快速地完成选择(以及随后的优化)过程。

使用相同的RegEx模式在分析、搜索控制台、排名和站点审计中比较关键字和页面的性能,可以帮助您标准化SEO方法。

由于正则表达式可以用于基于搜索模式进行匹配,因此它们在从文本中提取信息方面非常有用。

建议阅读:使用XPath提取额外的内容进行SEO

在哪里使用正则表达式

分析中的正则表达式模式

分析被认为是搜索引擎优化的基石之一。分析和了解客户的旅程是非常宝贵的。RegEx可以用来分割最流行的页面,然后分析页面组的流行程度。

例如,与使用传统操作符相比,使用RegEx分割页面允许您基于内容类型分析流量和反弹。

搜索控制台中的正则表达式模式

搜索意图有助于根据用户的潜在意图分割数据,也就是说,有人搜索的原因。它是任何数字营销战略的关键组成部分。这通常用于品牌和非品牌分析。通过使用正则表达式指定要匹配的模式,可以动态分割数据。

RegEx模式可以用来根据受众的想法和他们找到你的网站时想要的东西来划分受众。

它们还可以通过RegEx过滤器来分解url,这样你就可以开始了解流量去了哪里,是什么在驱动它。客户找到站点的意图与他们到达的页面相对应。

排名中的RegEx模式

RegEx可以用于基于页面类型对关键词排名最高的URL进行排名数据分段。与使用GSC数据类似,使用相同的RegEx模式也可以用于分析关键字细分的排名,例如serp如何显示品牌与非品牌关键字的排名。

网站审计中的RegEx模式

RegEx可用于创建有助于字符串/文本匹配的模式。在现场审计,它可以用于:

  • 基于URL模式的分段抓取页面管理企业站点中大量页面的抓取分析。
  • 爬网时从站点搜索文本。

Bot日志分析中的RegEx模式

正则表达式也将它们的技能用于机器人文件分析. Bot文件通常根据搜索引擎Bot的用户代理进行分解和分析。由于大型站点的bot文件可能包含大量页面,因此使用RegEx模式对已爬网的URL进行分段可以简化总体分析,因为它允许您根据复杂的条件进行筛选。

seoClarity如何使用正则表达式

我们的企业搜索引擎优化平台允许用户切片,骰子,和分析数据的规模,只需几次直观的点击。由于正则表达式在信息排序方面用途广泛,我们将其构建到各种平台特性中,使数据分析变得简单。

如果您想了解RegEx的特性,请跳到下面的表

我们平台中的大多数关键字和URL过滤器已经有了支持RegEx模式的选项。但是除了动态过滤器之外,我们还允许您使用RegEx匹配使用多个选项定义和保存数据组。

内容类型

内容类型允许基于您建立的多个标准对页面进行嵌套过滤。标准是使用and/or语句的一组规则。您可以在这里创建的模式列表之一是RegEx模式。

例如,如果您需要为站点上的所有类别页面创建内容类型,并且您知道与类别页面相关的URL符合一些不同的URL模式,那么可以使用正则表达式将它们组合到单个过滤器中,以便于查看。如果每个类别页面都包含/cat/或/category/或/c/文件夹,则可以使用单个内容类型和RegEx模式(如/cat/| category/| c)将它们合并为一个文件夹。

以下是平台中的外观:

在seoClarity平台中创建一个新的内容类型(在seoClarity平台上创建一个新的内容类型。)

内容类型可以在整个平台中找到,包括:

  • 等级情报
  • 机器人透明度
  • 搜索分析
  • 网站分析
  • 链接清晰

搜索意图

根据关键词的搜索意图对关键词进行分类是将数据划分为有意义的组的另一种方法。这与我之前提到的品牌vs.非品牌的例子一致。

可以基于正则表达式创建不同的搜索意图分类。

例如,如果你是服装网站hm.com,你想用RegEx创建一个品牌的内容类型,你可以设置模式列表,包括RegEx: hm|h&m|hennes|mauritz。

在seoClarity平台上创建一个新的搜索意图(在seoClarity平台上创建一个新的搜索意图。)

搜索意图可在以下地方找到:

  • 等级情报
  • 搜索分析
  • 网站分析
  • 链接清晰

动态标签

通过使用RegEx模式,可以轻松地将关键字或页面排序为动态标记,从而更好地理解一组关键字和url。创建动态关键字标记和动态页面标记会自动将关键字/页面添加到标记中,因为它们在添加到平台时匹配RegEx模式。

这减少了手动不断更新标记的需要。

标签可以用于平台内多个位置的过滤器。

类似于上面展示的品牌搜索意图的例子,下面是如何使用RegEx在seoClarity平台中设置品牌动态标签。

创建动态标记

(创建动态标记。)

标签可以帮助你在平台的以下地方过滤信息:

  • 等级情报
  • 页面清晰
  • 搜索分析
  • 网站分析
  • 链接清晰
  • 研究网格

正则表达式基础(学习正则表达式)

正则表达式有一个学习曲线,但一旦你发现它是不可替代的。请记住,RegEx是它自己的语言,因此尽管需要时间来完善它,但最好将此过程视为一项投资。你会从中得到比你投入更多的东西。

在使用RegEx时,重要的是要注意,在它的根,所有东西都是一个字符。编写RegEx模式的目的是匹配这些字符的特定序列。模式基于ASCII,包括字母、数字、标点符号以及其他符号和unicode字符。

建议阅读:寻找额外的内容:缩小特定的网站功能

RegEx小抄:学习角色

字符在RegEx中有两种不同的分类方式:元字符和规则字符。元字符具有特殊意义,而正则字符具有字面意义。元字符是构建RegEx模式的基础。

以下是最常见的元字符及其用途:

元字符 例子 怎样匹配
^(开始) ^万维网 任何以www开头的字符串
$(以结尾) com美元 任何以com结尾的字符串
|(或) 左|右 将匹配左或右两个字符串中的任意一个
.(任何字符) s.o 这个通配符可以匹配任何单个字符。在本例中,它可用于匹配字符串SEO
*(零次或多次重复) xyz * 这将匹配以xy开始,后面0或更多z出现的字符串。这将匹配xy, xyz, xyzz等。
+(一次或多次重复) xyz + 这将匹配以xy开始的字符串,后面有一个或多个z的出现。这将匹配xyz, xyzz, xyzzz等,但不匹配xy
{}(特定重复次数) 5 x {3}, {3} X{3}将恰好匹配X字符3次,而X{3,5}将至少匹配X字符3次但不超过5次
()(集团) (312) 这可以用来将字符组合在一起。所给出的示例将匹配所有以(312)开头的数字。

特殊的序列

一个特殊的序列被写成一个\后面跟着一个字符。以下是最常用的特殊序列:

序列 例子 怎样匹配
\ d 匹配0-9之间的1位数字 文件名\ud\d\d将与文件名\u 123匹配
\ D 匹配1个非数字字符 文件名\ud\D\D将与文件名\u aBc匹配
\ w 匹配1个单词字符(从a到Z的字符,从0到9的数字和下划线字符) \w\w\将匹配xY1_
\ W 匹配1个非单词字符 \W\W\W将匹配,*-
\ s 匹配1个空格字符(包括制表符和换行符) \s\s\s将匹配[\n\r\t\f]
\ S 匹配1个非空格字符 \S\S\S将匹配abc

设置

正则表达式中最常用的特性之一是集合(或字符集)。它们用于查找并匹配置于方括号之间的几个字符中的一个。字符集中字符的顺序无关紧要,它们只匹配单个字符。可以使用连字符指定集合中的字符范围。范围和单个字符的组合也经常用于复杂匹配。

以下是一些字符集的例子:

[美国广播公司] 返回指定字符(a、b或c)之一存在的匹配项
[a - c] 返回a和c之间的任何小写字符的匹配
(^是) 返回除a、b和c之外的任何字符的匹配项
[123] 返回任何指定数字(1、2或3)存在的匹配项
[0 - 9] 返回0到9之间任何数字的匹配
(0 - 3) [0 - 9] 返回从00到39的任意两位数字的匹配
(a-zA-Z) 返回a和z之间(小写或大写)的任何字母匹配

RegEx教程/测试网站

有很多RegEx教程可以帮助您学习这门语言。我已经使用正则表达式1我发现它很有帮助。

通常建议在部署RegEx之前对其进行测试。有许多免费的在线网站可以让你这样做。例如,正则表达式的朋友正则表达式101

结论

正则表达式是一项很有价值的技能,它允许您以一种有效的方式对数据进行排序和分析。尽管学习RegEx可能需要一些时间,但不要忘记这一点强大的搜索引擎优化平台会有办法的段数据轻松使用RegEx模式。