特征:
1.浏览器内存泄漏检测- 使用 puppeteer API 编写测试场景,memlab 自动区分 JS 堆快照,过滤掉内存泄漏,并聚合结果。
2.面向对象的堆遍历 API - 支持自定义内存泄漏检测器并以编程方式分析从基于 Chromium 的浏览器、Node.js、Electron.js 和 Hermes 获取的 JS 堆快照
3.内存 CLI 工具箱- 用于寻找内存优化机会的内置工具箱和 API(不一定是内存泄漏)
4.Node.js 中的内存断言- 启用单元测试或运行 node.js 程序以获取其自身状态的堆快照、进行自内存检查或编写高级内存断言
memlab |官网及演示 | docs | 博文 | #框架
本篇文章会探讨作者写文章时的一些思路和步骤,以及工具推荐和 CI/CD 自动化发布的实现。
一个在 Kubernetes 上运行的弹性网络抓取集群。它提供了通过 REST API 和 Web 界面部署、运行和扩展 Web 抓取蜘蛛的机制。
该项目由三个主要模块组成:
REST API:使用 Django REST 框架工具包构建,它公开了几个端点来管理项目、蜘蛛和作业。它使用 Celery 进行任务处理,并负责部署 Scrapy 项目等。
排队:estela 需要一个高吞吐量、低延迟的平台来控制生产者-消费者架构中的实时数据馈送。在本模块中,您将找到一个 Kafka 消费者,用于收集蜘蛛作业中的信息并将其传输到数据库中。
Web:使用 React 和 Typescript 实现的 Web 界面,可让您管理项目和蜘蛛。
这些模块中的每一个都独立于其余模块工作,并且可以更改。每个模块在其对应的目录中都有更详细的描述。
estela
该项目由三个主要模块组成:
REST API:使用 Django REST 框架工具包构建,它公开了几个端点来管理项目、蜘蛛和作业。它使用 Celery 进行任务处理,并负责部署 Scrapy 项目等。
排队:estela 需要一个高吞吐量、低延迟的平台来控制生产者-消费者架构中的实时数据馈送。在本模块中,您将找到一个 Kafka 消费者,用于收集蜘蛛作业中的信息并将其传输到数据库中。
Web:使用 React 和 Typescript 实现的 Web 界面,可让您管理项目和蜘蛛。
这些模块中的每一个都独立于其余模块工作,并且可以更改。每个模块在其对应的目录中都有更详细的描述。
estela
网页抓取是一种从网站获取数据的方式,数据可以是文本、图片或任何其他可下载的文件等。在本教程中,我们将抓取非CSR即客户端使用 JavaScript (React/角网站)。
在本教程中,将使用网络抓取来获取列出的相关工作Hacker News。每当执行爬虫代码时,我们都会将 JavaScript、react、node 等作业保存到 Excel。此外,我们将使代码可配置以轻松更改过滤器参数。
我们将使用node.js进行网页抓取,为此,我们将使用Axios获取网站的 HTML,然后在Cheerio的帮助下找到我们需要保存的数据。此外,我们将看到如何将抓取的数据保存到node.js中的CSV文件并处理分页
传送门 | #教程