# 调研笔记:获取国内活跃企业公众号及其更新 ## 一、微信公众号官方接口 ### 1.1 服务号API(需认证) - 获取已发布图文信息: freepublishGetarticle - 获取已发布消息列表: freepublish_batchget - 数据统计接口: 向所有认证公众号开发者开放 - 限制: 只能获取自己公众号的数据,无法获取其他公众号数据 - 第三方平台代调用: 需获得商家授权 ### 1.2 官方接口局限性 - 只能管理自己的公众号,无法批量获取其他公众号信息 - 需要认证(企业/组织认证) - 有接口调用频率限制 - 无法搜索发现新公众号 ## 二、第三方数据平台 ### 2.1 新榜 (NewRank) - 网址: https://api.newrank.cn/ - 收录超过1000万个微信公众号 - 固定监测55万+有影响力的账号 - API接口: - /sync/weixin/account/info: 获取公众号基本信息 (5u/次) - /sync/weixin/account/search: 关键词搜索公众号 (50u/条) - /sync/weixin/account/articles: 获取公众号文章 (1u/条) - /sync/weixin/account/articles_content: 含正文 (2u/条) - /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条) - /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条) - /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条) - 分类: 科技、财经、教育等多个行业分类 - 付费模式,按u(单位)计费 ### 2.2 清博大数据 (GSData) - GitHub: https://github.com/gsdata-qingbo/wechatAPI - 对62万个微信公众号进行每天数据采集 - 提供10个月历史数据 - API接口: - nickname_keyword_search: 关键字搜索公众号 - content_keyword_search: 关键字搜索文章 - content_list: 搜索公众号某段时间内的文章 - wx_content: 实时获取文章正文 - nickname_order_now: 获取公众号最新排名 - 提供Python/Java/PHP/C# SDK ### 2.3 极致了数据 (JZL) - 网址: https://www.dajiala.com/ - 分钟级监测采集历史数据 - 公众号文章内容、发布时间、阅读量、在看数、评论互动 - 账号粉丝增长、历史发文记录 - 最快10分钟内同步新文章数据 - 有免费试用额度 ### 2.4 302.AI - API文档: https://doc.302.ai/ - MP_Article_List: 获取微信公众号文章列表 - MP_Article: 获取微信公众号文章内容 ### 2.5 搜狗微信搜索 - 基于搜狗搜索引擎的微信公众号搜索 - item_get: 获取文章详情 - item_search: 关键词搜索文章列表 - 限制: 只能获取最近10篇文章 ### 2.6 数说聚合 (DataStory) - 互联网大数据获取与分析平台 - 支持微信公众号和视频号数据抓取 ## 三、GitHub开源项目 ### 3.1 WeWe RSS (⭐8.9k) - 已归档 - GitHub: https://github.com/cooderl/wewe-rss - 基于微信读书的公众号RSS订阅 - 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成 - 支持Docker部署、Zeabur一键部署 - 技术栈: NestJS + Prisma + MySQL/SQLite - 状态: 2026年1月归档,不再维护 ### 3.2 wechat_articles_spider (⭐3.4k) - GitHub: https://github.com/wnma3mz/wechat_articles_spider - pip install wechatarticles - 两种思路: 1. 从公众号网页版获取文章URL + PC端获取阅读数据 2. 登录PC端获取所有文章URL + 获取阅读数据 - 支持: 文章URL获取、阅读数、点赞数、评论信息 - 需要手动获取cookie和token ### 3.3 weixin_crawler / wcplusPro (⭐471) - GitHub: https://github.com/wonderfulsuccess/weixin_crawler - 稳定工作4年的公众号爬虫 - 采集: 全部历史文章、阅读量、点赞量、评论量等 - 提供分析报告、全文检索 - 技术栈: Python + Vue + Tornado + SQLite - 已转为付费产品 wcplusPro (¥49.8起) ### 3.4 wechat-spider (striver-ing) - GitHub: https://github.com/striver-ing/wechat-spider - 免安装,支持Mac/Windows - 自动化: 配置公众号列表后每日自动抓取 - 数据存储: MySQL - 支持: 文章、阅读量、点赞量、评论内容 ### 3.5 WechatSogou - GitHub: https://github.com/chyroc/WechatSogou - 基于搜狗微信搜索的爬虫接口 - 功能: 搜索公众号、获取文章列表 ### 3.6 we-mp-rss - GitHub: https://github.com/rachelos/we-mp-rss - 微信公众号转MarkDown/PDF - 定时更新订阅公众号文章 - 生成RSS订阅源 ### 3.7 WeRSS - GitHub: https://github.com/wang-h/werss - 微信公众号热度分析系统 - 前后端分离,支持RSS订阅源 ### 3.8 wechat-gongzhonghao-crawler - GitHub: https://github.com/fancyerii/wechat-gongzhonghao-crawler - 通过pywinauto控制Windows微信PC客户端 - server/client架构 ### 3.9 RSSHub - GitHub: https://github.com/DIYgod/RSSHub (⭐35k+) - 万物皆可RSS - 包含微信公众号路由(但经常404) ## 四、采集技术方案对比 ### 4.1 中间人代理方案 (AnyProxy/MitmProxy) - 原理: 在微信客户端和服务器之间截获数据 - 优点: 可获取完整数据包括阅读量 - 缺点: 需要配置代理、安装证书、手动操作 ### 4.2 微信公众号后台方案 - 原理: 登录公众号后台获取文章列表 - 优点: 官方接口稳定 - 缺点: 只能获取自己公众号数据 ### 4.3 微信读书方案 (WeWe RSS使用) - 原理: 通过微信读书获取公众号文章 - 优点: 接口相对稳定、可批量订阅 - 缺点: 需要微信读书账号、有频率限制 ### 4.4 搜狗微信搜索方案 - 原理: 通过搜狗搜索引擎获取公众号文章 - 优点: 无需登录微信 - 缺点: 只能获取最近10篇、有验证码 ### 4.5 PC端微信Hook方案 - 原理: Hook微信PC端获取数据 - 优点: 可获取实时数据 - 缺点: 技术门槛高、有封号风险 ## 五、电子产品相关行业分类 ### 5.1 行业细分 1. **消费电子**: 手机、平板、笔记本、智能穿戴、智能家居 2. **半导体**: 芯片设计、芯片制造、封装测试、设备材料 3. **显示面板**: LCD、OLED、Mini LED、Micro LED 4. **PCB/电路板**: 多层板、HDI板、FPC、IC载板 5. **LED**: 照明、显示、背光 6. **被动元器件**: 电容、电阻、电感 7. **汽车电子**: 智能驾驶、车载系统 8. **工业电子**: 工控设备、传感器 9. **通信设备**: 5G基站、光通信 10. **智能硬件**: IoT设备、机器人、无人机 ### 5.2 头部企业公众号(示例) - **手机厂商**: 华为、小米、OPPO、vivo、荣耀、一加、realme - **家电巨头**: 海尔、美的、格力、TCL、海信、创维 - **PC/笔记本**: 联想、华硕、戴尔、惠普 - **芯片企业**: 中芯国际、长江存储、紫光展锐、寒武纪、地平线 - **面板企业**: 京东方、TCL华星、维信诺、天马微电子 - **科技媒体**: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑 - **行业自媒体**: 芯智讯、半导体行业观察、电子发烧友 ### 5.3 入库方案建议 1. **数据源选择**: 新榜API(科技分类榜单) + WeWe RSS(实时更新) + 搜狗搜索(发现新号) 2. **入库流程**: - Step 1: 通过新榜API获取科技类TOP2000公众号列表 - Step 2: 按电子产品子行业分类标注 - Step 3: 使用WeWe RSS或自建爬虫订阅监控 - Step 4: 定时采集文章数据入库 - Step 5: 建立更新监控和告警机制 3. **数据库设计**: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表 4. **技术栈推荐**: Python + MySQL + Redis + 定时任务(Celery/APScheduler)