添加调研报告文档:完整调研报告与调研笔记

这个提交包含在:
hao
2026-03-12 20:47:07 -04:00
父节点 2ce3bd63a6
当前提交 5291e6cfa1
修改 2 个文件,包含 303 行新增0 行删除

189
docs/research_notes.md 普通文件
查看文件

@@ -0,0 +1,189 @@
# 调研笔记:获取国内活跃企业公众号及其更新
## 一、微信公众号官方接口
### 1.1 服务号API需认证
- 获取已发布图文信息: freepublishGetarticle
- 获取已发布消息列表: freepublish_batchget
- 数据统计接口: 向所有认证公众号开发者开放
- 限制: 只能获取自己公众号的数据,无法获取其他公众号数据
- 第三方平台代调用: 需获得商家授权
### 1.2 官方接口局限性
- 只能管理自己的公众号,无法批量获取其他公众号信息
- 需要认证(企业/组织认证)
- 有接口调用频率限制
- 无法搜索发现新公众号
## 二、第三方数据平台
### 2.1 新榜 (NewRank)
- 网址: https://api.newrank.cn/
- 收录超过1000万个微信公众号
- 固定监测55万+有影响力的账号
- API接口:
- /sync/weixin/account/info: 获取公众号基本信息 (5u/次)
- /sync/weixin/account/search: 关键词搜索公众号 (50u/条)
- /sync/weixin/account/articles: 获取公众号文章 (1u/条)
- /sync/weixin/account/articles_content: 含正文 (2u/条)
- /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条)
- /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条)
- /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条)
- 分类: 科技、财经、教育等多个行业分类
- 付费模式,按u单位计费
### 2.2 清博大数据 (GSData)
- GitHub: https://github.com/gsdata-qingbo/wechatAPI
- 对62万个微信公众号进行每天数据采集
- 提供10个月历史数据
- API接口:
- nickname_keyword_search: 关键字搜索公众号
- content_keyword_search: 关键字搜索文章
- content_list: 搜索公众号某段时间内的文章
- wx_content: 实时获取文章正文
- nickname_order_now: 获取公众号最新排名
- 提供Python/Java/PHP/C# SDK
### 2.3 极致了数据 (JZL)
- 网址: https://www.dajiala.com/
- 分钟级监测采集历史数据
- 公众号文章内容、发布时间、阅读量、在看数、评论互动
- 账号粉丝增长、历史发文记录
- 最快10分钟内同步新文章数据
- 有免费试用额度
### 2.4 302.AI
- API文档: https://doc.302.ai/
- MP_Article_List: 获取微信公众号文章列表
- MP_Article: 获取微信公众号文章内容
### 2.5 搜狗微信搜索
- 基于搜狗搜索引擎的微信公众号搜索
- item_get: 获取文章详情
- item_search: 关键词搜索文章列表
- 限制: 只能获取最近10篇文章
### 2.6 数说聚合 (DataStory)
- 互联网大数据获取与分析平台
- 支持微信公众号和视频号数据抓取
## 三、GitHub开源项目
### 3.1 WeWe RSS (⭐8.9k) - 已归档
- GitHub: https://github.com/cooderl/wewe-rss
- 基于微信读书的公众号RSS订阅
- 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成
- 支持Docker部署、Zeabur一键部署
- 技术栈: NestJS + Prisma + MySQL/SQLite
- 状态: 2026年1月归档,不再维护
### 3.2 wechat_articles_spider (⭐3.4k)
- GitHub: https://github.com/wnma3mz/wechat_articles_spider
- pip install wechatarticles
- 两种思路:
1. 从公众号网页版获取文章URL + PC端获取阅读数据
2. 登录PC端获取所有文章URL + 获取阅读数据
- 支持: 文章URL获取、阅读数、点赞数、评论信息
- 需要手动获取cookie和token
### 3.3 weixin_crawler / wcplusPro (⭐471)
- GitHub: https://github.com/wonderfulsuccess/weixin_crawler
- 稳定工作4年的公众号爬虫
- 采集: 全部历史文章、阅读量、点赞量、评论量等
- 提供分析报告、全文检索
- 技术栈: Python + Vue + Tornado + SQLite
- 已转为付费产品 wcplusPro (¥49.8起)
### 3.4 wechat-spider (striver-ing)
- GitHub: https://github.com/striver-ing/wechat-spider
- 免安装,支持Mac/Windows
- 自动化: 配置公众号列表后每日自动抓取
- 数据存储: MySQL
- 支持: 文章、阅读量、点赞量、评论内容
### 3.5 WechatSogou
- GitHub: https://github.com/chyroc/WechatSogou
- 基于搜狗微信搜索的爬虫接口
- 功能: 搜索公众号、获取文章列表
### 3.6 we-mp-rss
- GitHub: https://github.com/rachelos/we-mp-rss
- 微信公众号转MarkDown/PDF
- 定时更新订阅公众号文章
- 生成RSS订阅源
### 3.7 WeRSS
- GitHub: https://github.com/wang-h/werss
- 微信公众号热度分析系统
- 前后端分离,支持RSS订阅源
### 3.8 wechat-gongzhonghao-crawler
- GitHub: https://github.com/fancyerii/wechat-gongzhonghao-crawler
- 通过pywinauto控制Windows微信PC客户端
- server/client架构
### 3.9 RSSHub
- GitHub: https://github.com/DIYgod/RSSHub (⭐35k+)
- 万物皆可RSS
- 包含微信公众号路由但经常404
## 四、采集技术方案对比
### 4.1 中间人代理方案 (AnyProxy/MitmProxy)
- 原理: 在微信客户端和服务器之间截获数据
- 优点: 可获取完整数据包括阅读量
- 缺点: 需要配置代理、安装证书、手动操作
### 4.2 微信公众号后台方案
- 原理: 登录公众号后台获取文章列表
- 优点: 官方接口稳定
- 缺点: 只能获取自己公众号数据
### 4.3 微信读书方案 (WeWe RSS使用)
- 原理: 通过微信读书获取公众号文章
- 优点: 接口相对稳定、可批量订阅
- 缺点: 需要微信读书账号、有频率限制
### 4.4 搜狗微信搜索方案
- 原理: 通过搜狗搜索引擎获取公众号文章
- 优点: 无需登录微信
- 缺点: 只能获取最近10篇、有验证码
### 4.5 PC端微信Hook方案
- 原理: Hook微信PC端获取数据
- 优点: 可获取实时数据
- 缺点: 技术门槛高、有封号风险
## 五、电子产品相关行业分类
### 5.1 行业细分
1. **消费电子**: 手机、平板、笔记本、智能穿戴、智能家居
2. **半导体**: 芯片设计、芯片制造、封装测试、设备材料
3. **显示面板**: LCD、OLED、Mini LED、Micro LED
4. **PCB/电路板**: 多层板、HDI板、FPC、IC载板
5. **LED**: 照明、显示、背光
6. **被动元器件**: 电容、电阻、电感
7. **汽车电子**: 智能驾驶、车载系统
8. **工业电子**: 工控设备、传感器
9. **通信设备**: 5G基站、光通信
10. **智能硬件**: IoT设备、机器人、无人机
### 5.2 头部企业公众号(示例)
- **手机厂商**: 华为、小米、OPPO、vivo、荣耀、一加、realme
- **家电巨头**: 海尔、美的、格力、TCL、海信、创维
- **PC/笔记本**: 联想、华硕、戴尔、惠普
- **芯片企业**: 中芯国际、长江存储、紫光展锐、寒武纪、地平线
- **面板企业**: 京东方、TCL华星、维信诺、天马微电子
- **科技媒体**: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑
- **行业自媒体**: 芯智讯、半导体行业观察、电子发烧友
### 5.3 入库方案建议
1. **数据源选择**: 新榜API科技分类榜单 + WeWe RSS实时更新 + 搜狗搜索(发现新号)
2. **入库流程**:
- Step 1: 通过新榜API获取科技类TOP2000公众号列表
- Step 2: 按电子产品子行业分类标注
- Step 3: 使用WeWe RSS或自建爬虫订阅监控
- Step 4: 定时采集文章数据入库
- Step 5: 建立更新监控和告警机制
3. **数据库设计**: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表
4. **技术栈推荐**: Python + MySQL + Redis + 定时任务(Celery/APScheduler)