文件
wechat-mp-research/docs/research_notes.md

7.2 KiB
原始文件 Blame 文件历史

调研笔记:获取国内活跃企业公众号及其更新

一、微信公众号官方接口

1.1 服务号API需认证

  • 获取已发布图文信息: freepublishGetarticle
  • 获取已发布消息列表: freepublish_batchget
  • 数据统计接口: 向所有认证公众号开发者开放
  • 限制: 只能获取自己公众号的数据,无法获取其他公众号数据
  • 第三方平台代调用: 需获得商家授权

1.2 官方接口局限性

  • 只能管理自己的公众号,无法批量获取其他公众号信息
  • 需要认证(企业/组织认证)
  • 有接口调用频率限制
  • 无法搜索发现新公众号

二、第三方数据平台

2.1 新榜 (NewRank)

  • 网址: https://api.newrank.cn/
  • 收录超过1000万个微信公众号
  • 固定监测55万+有影响力的账号
  • API接口:
    • /sync/weixin/account/info: 获取公众号基本信息 (5u/次)
    • /sync/weixin/account/search: 关键词搜索公众号 (50u/条)
    • /sync/weixin/account/articles: 获取公众号文章 (1u/条)
    • /sync/weixin/account/articles_content: 含正文 (2u/条)
    • /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条)
    • /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条)
    • /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条)
  • 分类: 科技、财经、教育等多个行业分类
  • 付费模式,按u单位计费

2.2 清博大数据 (GSData)

  • GitHub: https://github.com/gsdata-qingbo/wechatAPI
  • 对62万个微信公众号进行每天数据采集
  • 提供10个月历史数据
  • API接口:
    • nickname_keyword_search: 关键字搜索公众号
    • content_keyword_search: 关键字搜索文章
    • content_list: 搜索公众号某段时间内的文章
    • wx_content: 实时获取文章正文
    • nickname_order_now: 获取公众号最新排名
  • 提供Python/Java/PHP/C# SDK

2.3 极致了数据 (JZL)

  • 网址: https://www.dajiala.com/
  • 分钟级监测采集历史数据
  • 公众号文章内容、发布时间、阅读量、在看数、评论互动
  • 账号粉丝增长、历史发文记录
  • 最快10分钟内同步新文章数据
  • 有免费试用额度

2.4 302.AI

  • API文档: https://doc.302.ai/
  • MP_Article_List: 获取微信公众号文章列表
  • MP_Article: 获取微信公众号文章内容

2.5 搜狗微信搜索

  • 基于搜狗搜索引擎的微信公众号搜索
  • item_get: 获取文章详情
  • item_search: 关键词搜索文章列表
  • 限制: 只能获取最近10篇文章

2.6 数说聚合 (DataStory)

  • 互联网大数据获取与分析平台
  • 支持微信公众号和视频号数据抓取

三、GitHub开源项目

3.1 WeWe RSS (8.9k) - 已归档

  • GitHub: https://github.com/cooderl/wewe-rss
  • 基于微信读书的公众号RSS订阅
  • 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成
  • 支持Docker部署、Zeabur一键部署
  • 技术栈: NestJS + Prisma + MySQL/SQLite
  • 状态: 2026年1月归档,不再维护

3.2 wechat_articles_spider (3.4k)

  • GitHub: https://github.com/wnma3mz/wechat_articles_spider
  • pip install wechatarticles
  • 两种思路:
    1. 从公众号网页版获取文章URL + PC端获取阅读数据
    2. 登录PC端获取所有文章URL + 获取阅读数据
  • 支持: 文章URL获取、阅读数、点赞数、评论信息
  • 需要手动获取cookie和token

3.3 weixin_crawler / wcplusPro (471)

  • GitHub: https://github.com/wonderfulsuccess/weixin_crawler
  • 稳定工作4年的公众号爬虫
  • 采集: 全部历史文章、阅读量、点赞量、评论量等
  • 提供分析报告、全文检索
  • 技术栈: Python + Vue + Tornado + SQLite
  • 已转为付费产品 wcplusPro (¥49.8起)

3.4 wechat-spider (striver-ing)

3.5 WechatSogou

3.6 we-mp-rss

3.7 WeRSS

3.8 wechat-gongzhonghao-crawler

3.9 RSSHub

四、采集技术方案对比

4.1 中间人代理方案 (AnyProxy/MitmProxy)

  • 原理: 在微信客户端和服务器之间截获数据
  • 优点: 可获取完整数据包括阅读量
  • 缺点: 需要配置代理、安装证书、手动操作

4.2 微信公众号后台方案

  • 原理: 登录公众号后台获取文章列表
  • 优点: 官方接口稳定
  • 缺点: 只能获取自己公众号数据

4.3 微信读书方案 (WeWe RSS使用)

  • 原理: 通过微信读书获取公众号文章
  • 优点: 接口相对稳定、可批量订阅
  • 缺点: 需要微信读书账号、有频率限制

4.4 搜狗微信搜索方案

  • 原理: 通过搜狗搜索引擎获取公众号文章
  • 优点: 无需登录微信
  • 缺点: 只能获取最近10篇、有验证码

4.5 PC端微信Hook方案

  • 原理: Hook微信PC端获取数据
  • 优点: 可获取实时数据
  • 缺点: 技术门槛高、有封号风险

五、电子产品相关行业分类

5.1 行业细分

  1. 消费电子: 手机、平板、笔记本、智能穿戴、智能家居
  2. 半导体: 芯片设计、芯片制造、封装测试、设备材料
  3. 显示面板: LCD、OLED、Mini LED、Micro LED
  4. PCB/电路板: 多层板、HDI板、FPC、IC载板
  5. LED: 照明、显示、背光
  6. 被动元器件: 电容、电阻、电感
  7. 汽车电子: 智能驾驶、车载系统
  8. 工业电子: 工控设备、传感器
  9. 通信设备: 5G基站、光通信
  10. 智能硬件: IoT设备、机器人、无人机

5.2 头部企业公众号(示例)

  • 手机厂商: 华为、小米、OPPO、vivo、荣耀、一加、realme
  • 家电巨头: 海尔、美的、格力、TCL、海信、创维
  • PC/笔记本: 联想、华硕、戴尔、惠普
  • 芯片企业: 中芯国际、长江存储、紫光展锐、寒武纪、地平线
  • 面板企业: 京东方、TCL华星、维信诺、天马微电子
  • 科技媒体: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑
  • 行业自媒体: 芯智讯、半导体行业观察、电子发烧友

5.3 入库方案建议

  1. 数据源选择: 新榜API科技分类榜单 + WeWe RSS实时更新 + 搜狗搜索(发现新号)
  2. 入库流程:
    • Step 1: 通过新榜API获取科技类TOP2000公众号列表
    • Step 2: 按电子产品子行业分类标注
    • Step 3: 使用WeWe RSS或自建爬虫订阅监控
    • Step 4: 定时采集文章数据入库
    • Step 5: 建立更新监控和告警机制
  3. 数据库设计: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表
  4. 技术栈推荐: Python + MySQL + Redis + 定时任务(Celery/APScheduler)