190 行
7.2 KiB
Markdown
190 行
7.2 KiB
Markdown
# 调研笔记:获取国内活跃企业公众号及其更新
|
||
|
||
## 一、微信公众号官方接口
|
||
|
||
### 1.1 服务号API(需认证)
|
||
- 获取已发布图文信息: freepublishGetarticle
|
||
- 获取已发布消息列表: freepublish_batchget
|
||
- 数据统计接口: 向所有认证公众号开发者开放
|
||
- 限制: 只能获取自己公众号的数据,无法获取其他公众号数据
|
||
- 第三方平台代调用: 需获得商家授权
|
||
|
||
### 1.2 官方接口局限性
|
||
- 只能管理自己的公众号,无法批量获取其他公众号信息
|
||
- 需要认证(企业/组织认证)
|
||
- 有接口调用频率限制
|
||
- 无法搜索发现新公众号
|
||
|
||
## 二、第三方数据平台
|
||
|
||
### 2.1 新榜 (NewRank)
|
||
- 网址: https://api.newrank.cn/
|
||
- 收录超过1000万个微信公众号
|
||
- 固定监测55万+有影响力的账号
|
||
- API接口:
|
||
- /sync/weixin/account/info: 获取公众号基本信息 (5u/次)
|
||
- /sync/weixin/account/search: 关键词搜索公众号 (50u/条)
|
||
- /sync/weixin/account/articles: 获取公众号文章 (1u/条)
|
||
- /sync/weixin/account/articles_content: 含正文 (2u/条)
|
||
- /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条)
|
||
- /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条)
|
||
- /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条)
|
||
- 分类: 科技、财经、教育等多个行业分类
|
||
- 付费模式,按u(单位)计费
|
||
|
||
### 2.2 清博大数据 (GSData)
|
||
- GitHub: https://github.com/gsdata-qingbo/wechatAPI
|
||
- 对62万个微信公众号进行每天数据采集
|
||
- 提供10个月历史数据
|
||
- API接口:
|
||
- nickname_keyword_search: 关键字搜索公众号
|
||
- content_keyword_search: 关键字搜索文章
|
||
- content_list: 搜索公众号某段时间内的文章
|
||
- wx_content: 实时获取文章正文
|
||
- nickname_order_now: 获取公众号最新排名
|
||
- 提供Python/Java/PHP/C# SDK
|
||
|
||
### 2.3 极致了数据 (JZL)
|
||
- 网址: https://www.dajiala.com/
|
||
- 分钟级监测采集历史数据
|
||
- 公众号文章内容、发布时间、阅读量、在看数、评论互动
|
||
- 账号粉丝增长、历史发文记录
|
||
- 最快10分钟内同步新文章数据
|
||
- 有免费试用额度
|
||
|
||
### 2.4 302.AI
|
||
- API文档: https://doc.302.ai/
|
||
- MP_Article_List: 获取微信公众号文章列表
|
||
- MP_Article: 获取微信公众号文章内容
|
||
|
||
### 2.5 搜狗微信搜索
|
||
- 基于搜狗搜索引擎的微信公众号搜索
|
||
- item_get: 获取文章详情
|
||
- item_search: 关键词搜索文章列表
|
||
- 限制: 只能获取最近10篇文章
|
||
|
||
### 2.6 数说聚合 (DataStory)
|
||
- 互联网大数据获取与分析平台
|
||
- 支持微信公众号和视频号数据抓取
|
||
|
||
## 三、GitHub开源项目
|
||
|
||
### 3.1 WeWe RSS (⭐8.9k) - 已归档
|
||
- GitHub: https://github.com/cooderl/wewe-rss
|
||
- 基于微信读书的公众号RSS订阅
|
||
- 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成
|
||
- 支持Docker部署、Zeabur一键部署
|
||
- 技术栈: NestJS + Prisma + MySQL/SQLite
|
||
- 状态: 2026年1月归档,不再维护
|
||
|
||
### 3.2 wechat_articles_spider (⭐3.4k)
|
||
- GitHub: https://github.com/wnma3mz/wechat_articles_spider
|
||
- pip install wechatarticles
|
||
- 两种思路:
|
||
1. 从公众号网页版获取文章URL + PC端获取阅读数据
|
||
2. 登录PC端获取所有文章URL + 获取阅读数据
|
||
- 支持: 文章URL获取、阅读数、点赞数、评论信息
|
||
- 需要手动获取cookie和token
|
||
|
||
### 3.3 weixin_crawler / wcplusPro (⭐471)
|
||
- GitHub: https://github.com/wonderfulsuccess/weixin_crawler
|
||
- 稳定工作4年的公众号爬虫
|
||
- 采集: 全部历史文章、阅读量、点赞量、评论量等
|
||
- 提供分析报告、全文检索
|
||
- 技术栈: Python + Vue + Tornado + SQLite
|
||
- 已转为付费产品 wcplusPro (¥49.8起)
|
||
|
||
### 3.4 wechat-spider (striver-ing)
|
||
- GitHub: https://github.com/striver-ing/wechat-spider
|
||
- 免安装,支持Mac/Windows
|
||
- 自动化: 配置公众号列表后每日自动抓取
|
||
- 数据存储: MySQL
|
||
- 支持: 文章、阅读量、点赞量、评论内容
|
||
|
||
### 3.5 WechatSogou
|
||
- GitHub: https://github.com/chyroc/WechatSogou
|
||
- 基于搜狗微信搜索的爬虫接口
|
||
- 功能: 搜索公众号、获取文章列表
|
||
|
||
### 3.6 we-mp-rss
|
||
- GitHub: https://github.com/rachelos/we-mp-rss
|
||
- 微信公众号转MarkDown/PDF
|
||
- 定时更新订阅公众号文章
|
||
- 生成RSS订阅源
|
||
|
||
### 3.7 WeRSS
|
||
- GitHub: https://github.com/wang-h/werss
|
||
- 微信公众号热度分析系统
|
||
- 前后端分离,支持RSS订阅源
|
||
|
||
### 3.8 wechat-gongzhonghao-crawler
|
||
- GitHub: https://github.com/fancyerii/wechat-gongzhonghao-crawler
|
||
- 通过pywinauto控制Windows微信PC客户端
|
||
- server/client架构
|
||
|
||
### 3.9 RSSHub
|
||
- GitHub: https://github.com/DIYgod/RSSHub (⭐35k+)
|
||
- 万物皆可RSS
|
||
- 包含微信公众号路由(但经常404)
|
||
|
||
## 四、采集技术方案对比
|
||
|
||
### 4.1 中间人代理方案 (AnyProxy/MitmProxy)
|
||
- 原理: 在微信客户端和服务器之间截获数据
|
||
- 优点: 可获取完整数据包括阅读量
|
||
- 缺点: 需要配置代理、安装证书、手动操作
|
||
|
||
### 4.2 微信公众号后台方案
|
||
- 原理: 登录公众号后台获取文章列表
|
||
- 优点: 官方接口稳定
|
||
- 缺点: 只能获取自己公众号数据
|
||
|
||
### 4.3 微信读书方案 (WeWe RSS使用)
|
||
- 原理: 通过微信读书获取公众号文章
|
||
- 优点: 接口相对稳定、可批量订阅
|
||
- 缺点: 需要微信读书账号、有频率限制
|
||
|
||
### 4.4 搜狗微信搜索方案
|
||
- 原理: 通过搜狗搜索引擎获取公众号文章
|
||
- 优点: 无需登录微信
|
||
- 缺点: 只能获取最近10篇、有验证码
|
||
|
||
### 4.5 PC端微信Hook方案
|
||
- 原理: Hook微信PC端获取数据
|
||
- 优点: 可获取实时数据
|
||
- 缺点: 技术门槛高、有封号风险
|
||
|
||
## 五、电子产品相关行业分类
|
||
|
||
### 5.1 行业细分
|
||
1. **消费电子**: 手机、平板、笔记本、智能穿戴、智能家居
|
||
2. **半导体**: 芯片设计、芯片制造、封装测试、设备材料
|
||
3. **显示面板**: LCD、OLED、Mini LED、Micro LED
|
||
4. **PCB/电路板**: 多层板、HDI板、FPC、IC载板
|
||
5. **LED**: 照明、显示、背光
|
||
6. **被动元器件**: 电容、电阻、电感
|
||
7. **汽车电子**: 智能驾驶、车载系统
|
||
8. **工业电子**: 工控设备、传感器
|
||
9. **通信设备**: 5G基站、光通信
|
||
10. **智能硬件**: IoT设备、机器人、无人机
|
||
|
||
### 5.2 头部企业公众号(示例)
|
||
- **手机厂商**: 华为、小米、OPPO、vivo、荣耀、一加、realme
|
||
- **家电巨头**: 海尔、美的、格力、TCL、海信、创维
|
||
- **PC/笔记本**: 联想、华硕、戴尔、惠普
|
||
- **芯片企业**: 中芯国际、长江存储、紫光展锐、寒武纪、地平线
|
||
- **面板企业**: 京东方、TCL华星、维信诺、天马微电子
|
||
- **科技媒体**: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑
|
||
- **行业自媒体**: 芯智讯、半导体行业观察、电子发烧友
|
||
|
||
### 5.3 入库方案建议
|
||
1. **数据源选择**: 新榜API(科技分类榜单) + WeWe RSS(实时更新) + 搜狗搜索(发现新号)
|
||
2. **入库流程**:
|
||
- Step 1: 通过新榜API获取科技类TOP2000公众号列表
|
||
- Step 2: 按电子产品子行业分类标注
|
||
- Step 3: 使用WeWe RSS或自建爬虫订阅监控
|
||
- Step 4: 定时采集文章数据入库
|
||
- Step 5: 建立更新监控和告警机制
|
||
3. **数据库设计**: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表
|
||
4. **技术栈推荐**: Python + MySQL + Redis + 定时任务(Celery/APScheduler)
|