企业网站可以拥有数千甚至数百万页 - 这并不奇怪,发现从页面中查找特定内容或链接是非常具有挑战性的。

然而,在许多现实环境中,(大规模)定位和提取站点内容的能力被证明是非常宝贵的。

数据提取的挑战

如果没有适当的技术来帮助您,定位内容和链接的过程将完全是一个手动过程:您将不得不手动抽查每个页面,以验证更改是否已经成功实现,并在您的站点上运行。

当然,这不是规模,所需的工作量意味着你总是在落后。

就像是试图在干草堆中找到一个数字针,搜索页面和源代码的毫无毫无终止,了解您正在寻找的内容。

为什么数据提取很重要

您网站上的其他内容爬行允许三个主要结果,您可以:

  1. 确定和审核某些站点元素的存在,
  2. 找到需要改变的东西,或者
  3. 找到一个应该完全从站点中删除的元素。

我想向您展示我们在企业客户中看到的用例,以及他们如何利用清晰的审计- 我们的履带和网站审计技术。

这些企业seo利用大数据进行大规模智能工作。

提取包含特定PDF的内部链接

在某些情况下,在您的网站内容上使用PDF格式有意义:PDFS是一种很好的使用格式,因此用户可以下载内容或表单,或者当您想要确保内容是不可编辑的。

有时候,您需要定位和审核站点上的所有PDF文件,或者查找特定的PDF文件。

你为什么要这么做?就像任何一段内容一样,PDF也不能幸免于腐烂,可能需要审核并完全更新到一个新的PDF链接。

在SeoClarity平台中的清晰度审核和其他内容中,您可以使用此XPath轻松查找站点上的所有PDF:

// a [substring(@href,string-length(@href) - string-length('。pdf')+1)='.pdf'] ///////

这个XPath查找属于PDF的页面的元素中的所有href属性。

如果在设置爬网的同时在其他内容部分中输入此内容,则我们内置爬网程序将在爬网中找到每个页面的PDF的所有实例。

pdf文件在一个爬行

(Clarity审计在网站上发现pdf文件。)

在上面清晰审计的图片中,你可以看到在这次抓取中,我们发现了40页包含PDF。在该表中,您可以看到页面列表和捕获的PDF链接。

推荐阅读:使用XPath提取额外的内容进行SEO

搜索/匹配包含特定链接的页面

其他内容最常见的使用情况之一是在您的网站上查找特定链接。您可能需要替换链接以导致新资源,或查找过时的链接 - 此用例适用于许多方案。

下面是XPath的示例:

//a[contains (@href,'htpps://www.example.com/example.html' )]/ ..

在此示例中,XPath匹配href属性包含“https://www.example.com/example.html”的页面的所有元素。

根据上述逻辑,您可以在站点上找到任何类型的内容。可以替换上面的示例链接以匹配特定的PDF的链接要么视频链接(或者任何你需要定位的链接)。

清晰审计,然后允许你找到所有的页面,包含的实例的特定链接,你开始发现。

从模板包页面的特定部分中提取链接和内容

另一个常见用例是捕获和查看来自div或css内的所有内容和链接。

例如,如果您在电子商务网站上工作并进行了更改了对您的产品项目的描述,则需要在规模中提取和审核这些。在大多数情况下,描述是div的一部分。

使用清晰度审核来输入div ID,div类或css - 然后我们从Div或CSS中提取所有内容和链接,并在易于查看的UI中展示它,以便您可以在比例下审核。

如果你的网站使用模板(Div),你可以无缝地从Div中获取所有信息,所有存在于Div中的原始数据(即内容)将被拉出进行审计。

这允许您确认任何站点更改已成功地进入站点,而不必手动验证更改。

(有许多方法可以在您的网站上搜索内容。)

在爬网中找到单词的实例

清晰审计还有另一个功能,当你对网站上的特定单词进行审计时,这个功能非常有用。

这被称为自定义搜索,这使得可以在页面源中找到一个单词的出现的差异 - 这比实际的页面内容更远。清晰度审核搜索源代码中找到的单词的所有实例。

例如,如果您是一个不再销售某种产品​​的产品供应公司,则需要从您的网站中删除该产品。爬网程序允许您找到显示该单词的所有实例。

(在清晰度审核中设置自定义搜索参数。)

此图像显示爬网设置,突出显示清晰度审核允许在搜索内容时的灵活性。

在单个爬网中,您可以搜索“包含”或“不包含”特定字符串的页面。您甚至可以利用Regex的强大功能为您的搜索增添灵活性。

结果看起来像这样:

(自定义搜索的结果)

在我们平台的此图片中,您可以看到显示与搜索条件匹配的页数的摘要图表,找到的页数与特定条件匹配,然后搜索的一切列表。

该表向您显示匹配搜索的页面的详细信息、状态代码和页面上搜索条件的出现情况。单击出现次数,查看每个搜索条件在页面上显示的实例数。

推荐阅读:不要致舌于:学习SEO的正则表达式模式

概括

清晰审计的灵活性允许您定位各种内容和链接从您的网站,所有在难以置信的规模。

使用XPath和Regex的权力,以及清晰度审核的功能,可以定制爬网以定位和捕获任何特定的内容或元素。