页面特效 UI组件库 菜单导航 窗口特效 幻灯片滑动 图像相册 表单 选项卡 表格 评分星级 手风琴 文本链接 布局 日历 颜色选择器 按钮 图表 html5 提示 ExtJS 在线客服 其他特效 地图 树形控件 移动开发 BootStrap 滑动条 文件上传 表单验证 分页 播放器 Angular VUE
官方客服QQ号:3007971137  (一条龙搭建-联系我)
官方客服QQ号:3007947123  (一条龙搭建-联系我)

爬小说时内容被js加密,怎么办?

学了爬虫后爬小说玩,一直比较顺利,可最近遇到了一个用js加密内容的小说,让我很是头疼。这个小说章节是:
https://www.sztjgold.com/chapter.html?1#mybookid=96803&bookid=108841&chapterid=48935289
通过抓包到得真实网址是:https://www.sztjgold.com/files/article/html555/108/108841/48935289.html
结果得到一堆英文数据,经查百度是js数据。 猜测小说内容、解密函数、小说参数等都在数据中,格式化后的js数据表面看起来也很完美,但用js工具运行时却老是提示错误,无法得到结果。猜测js数据中设计有让js运行出错的代码。浏览器能运行它,是因为浏览器在得到这段数据后先对数据进行了处理,去除其中的错误数据。但要找到浏览器是怎么处理的,就应该很熟悉浏览器前端及js知识了。后来看了很多的文章,说selenium可以抓取,试了一下,果然行。但处理速度很慢慢,有些时候还爬取不下来。所以想请教论坛的大牛们几个问题:
1、如何改写这段js数据?思路、方法及有什么工具。
2、除了使用selenium外,还有没有速度更快的方法?

附上我的方法:

相关链接

发表评论