Article Cover

【开源】网页内容提取器

456浏览 • 2025-8-2 • 科技综合 • MA107644

https://github.com/Amoyens1s/web-content-extract

https://www.npmjs.com/package/web-content-extract

分享下我的新开源项目，web-content-extract，基于Mozilla Readability，能提取网页正文内容并转换为Markdown。支持CLI和库两种使用方式，可同时获取SEO元数据，实现网页内容结构化提取，适合做信息聚合、知识管理等场景

技术栈为typescript

#开源 #爬虫 #typescript

36

19

40

所属合集

P1. 在 Debian 上安装 ClickHouse 并开启远程访问

P2. 原创诗，虎门销烟

P3. 新东西（躲）

P4. （2025-12-15更新新方法）一句话让 Gemini Antigravity 吐中文，以及如何设置全局提示词

P5. 被Rust包围了，好幸福！

P6. AI改BUG现状

P7. DBeaver恢复mysql数据库遇到@@GLOBAL.GTID_PURGED错误

P8. 如何使用 docker 在 Ubuntu 22.04 上安装带IK分词器的 Elastic Search 7.10.2

P9. 原创诗，想不到题目了，无所谓了

P10. 原创诗，游龙门石窟和栾川老君山

P11. Kubernetes中通过HTTP代理克隆GitHub SSH仓库的解决方案

P12. pip设置为清华源

P13. RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试

P14. 原创诗《八公山》

P15. 【开源】网页内容提取器 (当前)

P16. 403或图片视频无法加载的问题

P17. .ssh/config文件添加password？来用密钥对吧

P18. 试了下炼丹，骇人

P19. linux更新docker compose版本

P20. 分布式日志管理：从单体最佳实践到云原生范式演进