从站点的HTML中收集、分离和提取元素对于各种与SEO相关的活动非常有用。
大多数企业seo可能更喜欢批量分析和提取内容,而不是一次分析和提取一个页面特定子集页面或他们的整个网站。
刮擦或提取通过将XPath与内容提取工具相结合,您可以轻松地从站点获取用于审计、分析、内容更新和问题解决的数据seoClarity的网站履带。
了解XPath的基础知识是一个强大的工具,特别是如果你穿着鞋子。我经常与客户一起使用XPath设置和提取数据。最常见的请求范围从特定div,审计视频或图像链路,检查模式或需要验证的页面上的任何其他SEO相关元素中提取内容。
网页抓取在搜索引擎优化中是如何有用的?
网页或网站的构建从来就没有一刀切的方法。开发人员使用最佳或常见的实践,并编写代码,使美丽的网站呈现到页面,整个世界使用消化内容。
可能需要审核存在的元素特定的部分页面,或在特定模式中检查数据。大多数网站爬网程序遵循标准功能来刮擦最常使用或分析您网站的元素。除非您可以指定如何查询您的网站以获取您的网站以获得自定义或特定请求,它们并非旨在为定制或特定请求工作您需要的数据。
这就是XPath非常有用的地方。它允许您指定如何搜索您的站点,以定位您需要查看的元素xtraction工具或定制场地履带.有些人更喜欢使用正则表达式或正则表达式。如果您想从HTML中提取内容,XPath是首选,因为它是为查询而设计的。在某些情况下,可以使用regex而不是XPath,但也有失败的情况。
XPath是什么?
XPath或XML路径是一种查询语言,可用于查找XML(可扩展标记语言)文档中的节点。
由于HTML和XML都是遵循类似结构和格式规则的标记语言,因此XPath也可用于查询HTML文档。
这意味着在纯粹的术语中,我们可以使用XPath通过使用特定语法来搜索和处理HTML文档中的项目来遵循页面的结构或层次结构。
类型的XPath.
有两种类型的XPath:绝对和相对。
绝对XPath.:
它使用从根HTML标记中的完整XPath到特定元素。这是不推荐的,因为它会失败有任何变化在元素的路径中制作。
绝对XPath的一个关键特性是它从单个向前斜杠(/)开始,它表示根节点。
例如:
我有文字“技术SEO“在一个超链接的页面上。
这是它的绝对XPath:
/ HTML div[1] /身体[1]/ [5]/ div [1] / div [3] / div [1] / div [1] / div [1] / div [1] / div[2] /跨度[1]/ div [4] / div [1] / div [1] / div [1] / div [1] / div [2] / p [2] / [1]
相对XPath:
一个亲戚XPath.从您选择的节点开始,该节点不必是根节点。
它以双向斜杠(//)始于双向斜杠(//),使用它的优势是您无需提及LONG XPath。
对于上面的相同例子,相对XPath.是:
/ /(包含(文本(),“SEO”)]
正如您所见,通过相对XPath而不是绝对XPath,它是一个较短和更简单的查询。
基本语法XPath.
这是一个快速的xpath骗子表达式:
表达 |
这是什么意思 |
/ |
这选择根节点。 |
// |
这从当前节点中选择文档中的节点,无论在哪里都符合选择 |
. |
这选择了当前节点。 |
.。 |
这将选择当前节点的父节点。 |
@ |
这个选择属性。 |
这将选择命名的所有属性href或以HTML为例;所有href页面上的链接。 |
谓词
谓词可帮助您根据某些条件限制在节点集中的选定节点。以下是一些基本的:
小路 |
它能做什么 |
//一种[1] |
这选择了孩子的第一个元素 |
//一种[最后的()] |
|
// a [@foo] |
这选择了具有Foo属性的元素 |
/ /一个[@foo = '酒吧'] |
选择具有具有“栏”值的Foo属性的所有元素 |
这是一个完整的清单XPath表达式并谓词参考。
使用XPath提取内容的示例
让我们深入一些例子,在这些例子中我们使用了关于XPath.获得了上面的找到内部特定元素这HTML.的一个页面.
视频或图像链路提取
提取的YouTube链接在一个div中是一个常见的seo请求在那些有需要更新或审核相关性的视频链接。
例如:如果这是您网站上的代码:
< iframeSRC.=“https://www.youtube.com/embed/ABCDEFG " > < / iframe> 你想要提取视频链接包含在这div班级:“视频”.这是XPath.你会使用: // div [课堂= "视频“) / / @ iframeSRC. 另一个常见的请求是提取图像链接在页面上的特定div中。 例如,如果这个HTML.在你的网站上: <IMG.class =“图像”SRC.=“https://www.myimageLocation/ImageFilename.png”Alt =“标题=”“data-compent =”desktop_image“风格=”最大宽度:100%;身高:自动;“> 这是您用来定位的XPathSRC.图像: //IMG.[@class = "图像“] // @SRC. S.电介质越来越重要和相关性SEOS..有特定的元标签被设计为当你的网站页面被共享时,将你的网站的数据传递给社交媒体网站。这些元标签被称为开放图形元标签。这最流行的社交媒体网站是Facebook和LinkedIn。 同理,社交媒体网络推特查看Twitter卡片来收集关于你网站的信息。 大多数现代的网站爬虫喜欢Seoclarity.s自己的履带默认提取并存储此信息。但它也是可能的询问y和废料e相同的数据来自您的网站使用XPath.. 例如,f或者下面的开放图标记和tw.它的标记: 这是XPath.你会习惯于提取的描述和标题OpenGraph和推特标记: //元(@ property =“og.:描述“]/@内容 //元(@ property =“og.:标题“]/@内容 // meta [@ name =“twitter:描述“]/@内容 // meta [@ name =“twitter:标题“]/@内容 刮胡子< h3 > / / h3 刮胡子Hreflang.属性 //关联[@rel.= '交替']/ @Hreflang. 刮胡子Hreflang.URL //关联[@rel.= '交替']/ @href 刮Canonical URL. //关联[@rel.= '标准']/ @href 刮amp. //关联[@rel.='ampHTML'] / @href 刮视口 // meta [@ name ='视口'] @内容 如果您正在寻找更容易获取元素的XPath的方式,则有足够的交钥匙Chrome扩展可帮助您获取Web元素的XPath。 使用的一大优势Seoclarity'S.现场审计技术内置爬虫是它可以用作链路提取和审计工具。一次您可以在爬网中设置提取其他内容,您可以从整个站点刮除所选数据元素。 推荐阅读:寻找额外的内容:缩小特定的网站功能 上面学到的XPath知识可用于插入Clarity审计的附加内容部分,以提取所需的自定义数据。 除了XPath,我们还可以选择收集CSS、DIV_ID和DIV_CLASS。直接在UI中输入以提取内容和链接。 XPath就像是seo袖子上的一个魔术。这类似于学习一门新的语言,可能很难开始。但是,一旦您掌握了它的窍门,它就会非常有用,特别是在处理搜索HTML时。 就像XPath一样有用用于查询,正则表达式或Regex是了解何时何时识别单词和数字。在SEO的世界中,它有许多用途,但它通常用于段分割关键字和URL。在我的下一篇文章中,我将涵盖正则表达式的基础知识以及如何在SEO中有用。刮掉开放图和Twitter标记
XPath.表达式常见的SEO元素的备忘单
使用seoClarity拉内容
最后的想法
评论
目前没有评论。成为第一位发言者!