网页源代码与页面内容不一致怎么办？

网页源代码与页面内容不一致怎么办？插图

爬虫时网站源代码与页面内容和 element 不一致解决方法

在爬取网页时，遇到网页源代码与页面内容和 ELEMENT 不一致的情况，可以考虑以下方法解决：

对于本例中的 58 同城工作页面，网页源代码显示申请和浏览人数为 0，而页面数据和 F12 中的 ELEMENT 内容却是一致的。这种情况说明实际数据并不是存储在 HTML 源代码中，而是动态加载的。

要解决此问题，需要找到动态加载数据的接口地址。通过分析页面源码或网络请求，发现以下地址可以获取申请和浏览人数数据：

向此地址发送请求，即可得到 JSON 数据，其中包含申请和浏览人数信息：

{
  deliveryCount: 1141,
  commentCount: 0,
  infoCount: 4,
  resumeReadPercent: 0,
  referUrl: "",
  nextUrl: "null"
}

登录后复制

deliveryCount 即为申请人数，commentCount 为浏览人数。通过这种方式，即使网页源代码和 ELEMENT 中没有直接包含这些数据，也能成功爬取到所需的信息。

以上就是网页源代码与页面内容不一致怎么办？的详细内容，更多请关注米云其它相关文章！

近期文章