7.2 KiB
7.2 KiB
调研笔记:获取国内活跃企业公众号及其更新
一、微信公众号官方接口
1.1 服务号API(需认证)
- 获取已发布图文信息: freepublishGetarticle
- 获取已发布消息列表: freepublish_batchget
- 数据统计接口: 向所有认证公众号开发者开放
- 限制: 只能获取自己公众号的数据,无法获取其他公众号数据
- 第三方平台代调用: 需获得商家授权
1.2 官方接口局限性
- 只能管理自己的公众号,无法批量获取其他公众号信息
- 需要认证(企业/组织认证)
- 有接口调用频率限制
- 无法搜索发现新公众号
二、第三方数据平台
2.1 新榜 (NewRank)
- 网址: https://api.newrank.cn/
- 收录超过1000万个微信公众号
- 固定监测55万+有影响力的账号
- API接口:
- /sync/weixin/account/info: 获取公众号基本信息 (5u/次)
- /sync/weixin/account/search: 关键词搜索公众号 (50u/条)
- /sync/weixin/account/articles: 获取公众号文章 (1u/条)
- /sync/weixin/account/articles_content: 含正文 (2u/条)
- /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条)
- /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条)
- /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条)
- 分类: 科技、财经、教育等多个行业分类
- 付费模式,按u(单位)计费
2.2 清博大数据 (GSData)
- GitHub: https://github.com/gsdata-qingbo/wechatAPI
- 对62万个微信公众号进行每天数据采集
- 提供10个月历史数据
- API接口:
- nickname_keyword_search: 关键字搜索公众号
- content_keyword_search: 关键字搜索文章
- content_list: 搜索公众号某段时间内的文章
- wx_content: 实时获取文章正文
- nickname_order_now: 获取公众号最新排名
- 提供Python/Java/PHP/C# SDK
2.3 极致了数据 (JZL)
- 网址: https://www.dajiala.com/
- 分钟级监测采集历史数据
- 公众号文章内容、发布时间、阅读量、在看数、评论互动
- 账号粉丝增长、历史发文记录
- 最快10分钟内同步新文章数据
- 有免费试用额度
2.4 302.AI
- API文档: https://doc.302.ai/
- MP_Article_List: 获取微信公众号文章列表
- MP_Article: 获取微信公众号文章内容
2.5 搜狗微信搜索
- 基于搜狗搜索引擎的微信公众号搜索
- item_get: 获取文章详情
- item_search: 关键词搜索文章列表
- 限制: 只能获取最近10篇文章
2.6 数说聚合 (DataStory)
- 互联网大数据获取与分析平台
- 支持微信公众号和视频号数据抓取
三、GitHub开源项目
3.1 WeWe RSS (⭐8.9k) - 已归档
- GitHub: https://github.com/cooderl/wewe-rss
- 基于微信读书的公众号RSS订阅
- 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成
- 支持Docker部署、Zeabur一键部署
- 技术栈: NestJS + Prisma + MySQL/SQLite
- 状态: 2026年1月归档,不再维护
3.2 wechat_articles_spider (⭐3.4k)
- GitHub: https://github.com/wnma3mz/wechat_articles_spider
- pip install wechatarticles
- 两种思路:
- 从公众号网页版获取文章URL + PC端获取阅读数据
- 登录PC端获取所有文章URL + 获取阅读数据
- 支持: 文章URL获取、阅读数、点赞数、评论信息
- 需要手动获取cookie和token
3.3 weixin_crawler / wcplusPro (⭐471)
- GitHub: https://github.com/wonderfulsuccess/weixin_crawler
- 稳定工作4年的公众号爬虫
- 采集: 全部历史文章、阅读量、点赞量、评论量等
- 提供分析报告、全文检索
- 技术栈: Python + Vue + Tornado + SQLite
- 已转为付费产品 wcplusPro (¥49.8起)
3.4 wechat-spider (striver-ing)
- GitHub: https://github.com/striver-ing/wechat-spider
- 免安装,支持Mac/Windows
- 自动化: 配置公众号列表后每日自动抓取
- 数据存储: MySQL
- 支持: 文章、阅读量、点赞量、评论内容
3.5 WechatSogou
- GitHub: https://github.com/chyroc/WechatSogou
- 基于搜狗微信搜索的爬虫接口
- 功能: 搜索公众号、获取文章列表
3.6 we-mp-rss
- GitHub: https://github.com/rachelos/we-mp-rss
- 微信公众号转MarkDown/PDF
- 定时更新订阅公众号文章
- 生成RSS订阅源
3.7 WeRSS
- GitHub: https://github.com/wang-h/werss
- 微信公众号热度分析系统
- 前后端分离,支持RSS订阅源
3.8 wechat-gongzhonghao-crawler
- GitHub: https://github.com/fancyerii/wechat-gongzhonghao-crawler
- 通过pywinauto控制Windows微信PC客户端
- server/client架构
3.9 RSSHub
- GitHub: https://github.com/DIYgod/RSSHub (⭐35k+)
- 万物皆可RSS
- 包含微信公众号路由(但经常404)
四、采集技术方案对比
4.1 中间人代理方案 (AnyProxy/MitmProxy)
- 原理: 在微信客户端和服务器之间截获数据
- 优点: 可获取完整数据包括阅读量
- 缺点: 需要配置代理、安装证书、手动操作
4.2 微信公众号后台方案
- 原理: 登录公众号后台获取文章列表
- 优点: 官方接口稳定
- 缺点: 只能获取自己公众号数据
4.3 微信读书方案 (WeWe RSS使用)
- 原理: 通过微信读书获取公众号文章
- 优点: 接口相对稳定、可批量订阅
- 缺点: 需要微信读书账号、有频率限制
4.4 搜狗微信搜索方案
- 原理: 通过搜狗搜索引擎获取公众号文章
- 优点: 无需登录微信
- 缺点: 只能获取最近10篇、有验证码
4.5 PC端微信Hook方案
- 原理: Hook微信PC端获取数据
- 优点: 可获取实时数据
- 缺点: 技术门槛高、有封号风险
五、电子产品相关行业分类
5.1 行业细分
- 消费电子: 手机、平板、笔记本、智能穿戴、智能家居
- 半导体: 芯片设计、芯片制造、封装测试、设备材料
- 显示面板: LCD、OLED、Mini LED、Micro LED
- PCB/电路板: 多层板、HDI板、FPC、IC载板
- LED: 照明、显示、背光
- 被动元器件: 电容、电阻、电感
- 汽车电子: 智能驾驶、车载系统
- 工业电子: 工控设备、传感器
- 通信设备: 5G基站、光通信
- 智能硬件: IoT设备、机器人、无人机
5.2 头部企业公众号(示例)
- 手机厂商: 华为、小米、OPPO、vivo、荣耀、一加、realme
- 家电巨头: 海尔、美的、格力、TCL、海信、创维
- PC/笔记本: 联想、华硕、戴尔、惠普
- 芯片企业: 中芯国际、长江存储、紫光展锐、寒武纪、地平线
- 面板企业: 京东方、TCL华星、维信诺、天马微电子
- 科技媒体: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑
- 行业自媒体: 芯智讯、半导体行业观察、电子发烧友
5.3 入库方案建议
- 数据源选择: 新榜API(科技分类榜单) + WeWe RSS(实时更新) + 搜狗搜索(发现新号)
- 入库流程:
- Step 1: 通过新榜API获取科技类TOP2000公众号列表
- Step 2: 按电子产品子行业分类标注
- Step 3: 使用WeWe RSS或自建爬虫订阅监控
- Step 4: 定时采集文章数据入库
- Step 5: 建立更新监控和告警机制
- 数据库设计: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表
- 技术栈推荐: Python + MySQL + Redis + 定时任务(Celery/APScheduler)