【开源】网页内容提取器
274浏览 • 2025-8-2 •
科技综合
• MA107644
https://github.com/Amoyens1s/web-content-extract
https://www.npmjs.com/package/web-content-extract
分享下我的新开源项目,web-content-extract,基于Mozilla Readability,能提取网页正文内容并转换为Markdown。支持CLI和库两种使用方式,可同时获取SEO元数据,实现网页内容结构化提取,适合做信息聚合、知识管理等场景
技术栈为typescript
#开源
#爬虫
#typescript
35
19
40
所属合集
P1. 困死了
P2. 原创诗,虎门销烟
P3. 新东西(躲)
P4. (2025-12-15更新新方法)一句话让 Gemini Antigravity 吐中文,以及如何设置全局提示词
P5. 被Rust包围了,好幸福!
P6. AI改BUG现状
P7. DBeaver恢复mysql数据库遇到@@GLOBAL.GTID_PURGED错误
P8. 如何使用 docker 在 Ubuntu 22.04 上安装带IK分词器的 Elastic Search 7.10.2
P9. 原创诗,想不到题目了,无所谓了
P10. 原创诗,游龙门石窟和栾川老君山
P11. Kubernetes中通过HTTP代理克隆GitHub SSH仓库的解决方案
P12. pip设置为清华源
P13. RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试
P14. 原创诗《八公山》
P15. 无题
P16. 【开源】网页内容提取器 (当前)
P17. 403或图片视频无法加载的问题
P18. .ssh/config文件添加password?来用密钥对吧
P19. 试了下炼丹,骇人
P20. linux更新docker compose版本
P21. 分布式日志管理:从单体最佳实践到云原生范式演进
