From 5291e6cfa14709f145e6591bed3520ab1e0515c8 Mon Sep 17 00:00:00 2001 From: hao Date: Thu, 12 Mar 2026 20:47:07 -0400 Subject: [PATCH] =?UTF-8?q?=E6=B7=BB=E5=8A=A0=E8=B0=83=E7=A0=94=E6=8A=A5?= =?UTF-8?q?=E5=91=8A=E6=96=87=E6=A1=A3=EF=BC=9A=E5=AE=8C=E6=95=B4=E8=B0=83?= =?UTF-8?q?=E7=A0=94=E6=8A=A5=E5=91=8A=E4=B8=8E=E8=B0=83=E7=A0=94=E7=AC=94?= =?UTF-8?q?=E8=AE=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/research_notes.md | 189 ++++++++++++++++++ ...echat_official_accounts_research_report.md | 114 +++++++++++ 2 files changed, 303 insertions(+) create mode 100644 docs/research_notes.md create mode 100644 docs/wechat_official_accounts_research_report.md diff --git a/docs/research_notes.md b/docs/research_notes.md new file mode 100644 index 0000000..4da7cde --- /dev/null +++ b/docs/research_notes.md @@ -0,0 +1,189 @@ +# 调研笔记:获取国内活跃企业公众号及其更新 + +## 一、微信公众号官方接口 + +### 1.1 服务号API(需认证) +- 获取已发布图文信息: freepublishGetarticle +- 获取已发布消息列表: freepublish_batchget +- 数据统计接口: 向所有认证公众号开发者开放 +- 限制: 只能获取自己公众号的数据,无法获取其他公众号数据 +- 第三方平台代调用: 需获得商家授权 + +### 1.2 官方接口局限性 +- 只能管理自己的公众号,无法批量获取其他公众号信息 +- 需要认证(企业/组织认证) +- 有接口调用频率限制 +- 无法搜索发现新公众号 + +## 二、第三方数据平台 + +### 2.1 新榜 (NewRank) +- 网址: https://api.newrank.cn/ +- 收录超过1000万个微信公众号 +- 固定监测55万+有影响力的账号 +- API接口: + - /sync/weixin/account/info: 获取公众号基本信息 (5u/次) + - /sync/weixin/account/search: 关键词搜索公众号 (50u/条) + - /sync/weixin/account/articles: 获取公众号文章 (1u/条) + - /sync/weixin/account/articles_content: 含正文 (2u/条) + - /sync/weixin/rank/type/day/top50: 分类日榜TOP50 (1u/条) + - /sync/weixin/rank/type/day/top2000: 分类日榜TOP2000 (2u/条) + - /sync/weixin/data/combine/search: 多关键词搜索文章 (2u/条) +- 分类: 科技、财经、教育等多个行业分类 +- 付费模式,按u(单位)计费 + +### 2.2 清博大数据 (GSData) +- GitHub: https://github.com/gsdata-qingbo/wechatAPI +- 对62万个微信公众号进行每天数据采集 +- 提供10个月历史数据 +- API接口: + - nickname_keyword_search: 关键字搜索公众号 + - content_keyword_search: 关键字搜索文章 + - content_list: 搜索公众号某段时间内的文章 + - wx_content: 实时获取文章正文 + - nickname_order_now: 获取公众号最新排名 +- 提供Python/Java/PHP/C# SDK + +### 2.3 极致了数据 (JZL) +- 网址: https://www.dajiala.com/ +- 分钟级监测采集历史数据 +- 公众号文章内容、发布时间、阅读量、在看数、评论互动 +- 账号粉丝增长、历史发文记录 +- 最快10分钟内同步新文章数据 +- 有免费试用额度 + +### 2.4 302.AI +- API文档: https://doc.302.ai/ +- MP_Article_List: 获取微信公众号文章列表 +- MP_Article: 获取微信公众号文章内容 + +### 2.5 搜狗微信搜索 +- 基于搜狗搜索引擎的微信公众号搜索 +- item_get: 获取文章详情 +- item_search: 关键词搜索文章列表 +- 限制: 只能获取最近10篇文章 + +### 2.6 数说聚合 (DataStory) +- 互联网大数据获取与分析平台 +- 支持微信公众号和视频号数据抓取 + +## 三、GitHub开源项目 + +### 3.1 WeWe RSS (⭐8.9k) - 已归档 +- GitHub: https://github.com/cooderl/wewe-rss +- 基于微信读书的公众号RSS订阅 +- 功能: 订阅公众号、获取历史文章、自动定时更新、RSS生成 +- 支持Docker部署、Zeabur一键部署 +- 技术栈: NestJS + Prisma + MySQL/SQLite +- 状态: 2026年1月归档,不再维护 + +### 3.2 wechat_articles_spider (⭐3.4k) +- GitHub: https://github.com/wnma3mz/wechat_articles_spider +- pip install wechatarticles +- 两种思路: + 1. 从公众号网页版获取文章URL + PC端获取阅读数据 + 2. 登录PC端获取所有文章URL + 获取阅读数据 +- 支持: 文章URL获取、阅读数、点赞数、评论信息 +- 需要手动获取cookie和token + +### 3.3 weixin_crawler / wcplusPro (⭐471) +- GitHub: https://github.com/wonderfulsuccess/weixin_crawler +- 稳定工作4年的公众号爬虫 +- 采集: 全部历史文章、阅读量、点赞量、评论量等 +- 提供分析报告、全文检索 +- 技术栈: Python + Vue + Tornado + SQLite +- 已转为付费产品 wcplusPro (¥49.8起) + +### 3.4 wechat-spider (striver-ing) +- GitHub: https://github.com/striver-ing/wechat-spider +- 免安装,支持Mac/Windows +- 自动化: 配置公众号列表后每日自动抓取 +- 数据存储: MySQL +- 支持: 文章、阅读量、点赞量、评论内容 + +### 3.5 WechatSogou +- GitHub: https://github.com/chyroc/WechatSogou +- 基于搜狗微信搜索的爬虫接口 +- 功能: 搜索公众号、获取文章列表 + +### 3.6 we-mp-rss +- GitHub: https://github.com/rachelos/we-mp-rss +- 微信公众号转MarkDown/PDF +- 定时更新订阅公众号文章 +- 生成RSS订阅源 + +### 3.7 WeRSS +- GitHub: https://github.com/wang-h/werss +- 微信公众号热度分析系统 +- 前后端分离,支持RSS订阅源 + +### 3.8 wechat-gongzhonghao-crawler +- GitHub: https://github.com/fancyerii/wechat-gongzhonghao-crawler +- 通过pywinauto控制Windows微信PC客户端 +- server/client架构 + +### 3.9 RSSHub +- GitHub: https://github.com/DIYgod/RSSHub (⭐35k+) +- 万物皆可RSS +- 包含微信公众号路由(但经常404) + +## 四、采集技术方案对比 + +### 4.1 中间人代理方案 (AnyProxy/MitmProxy) +- 原理: 在微信客户端和服务器之间截获数据 +- 优点: 可获取完整数据包括阅读量 +- 缺点: 需要配置代理、安装证书、手动操作 + +### 4.2 微信公众号后台方案 +- 原理: 登录公众号后台获取文章列表 +- 优点: 官方接口稳定 +- 缺点: 只能获取自己公众号数据 + +### 4.3 微信读书方案 (WeWe RSS使用) +- 原理: 通过微信读书获取公众号文章 +- 优点: 接口相对稳定、可批量订阅 +- 缺点: 需要微信读书账号、有频率限制 + +### 4.4 搜狗微信搜索方案 +- 原理: 通过搜狗搜索引擎获取公众号文章 +- 优点: 无需登录微信 +- 缺点: 只能获取最近10篇、有验证码 + +### 4.5 PC端微信Hook方案 +- 原理: Hook微信PC端获取数据 +- 优点: 可获取实时数据 +- 缺点: 技术门槛高、有封号风险 + +## 五、电子产品相关行业分类 + +### 5.1 行业细分 +1. **消费电子**: 手机、平板、笔记本、智能穿戴、智能家居 +2. **半导体**: 芯片设计、芯片制造、封装测试、设备材料 +3. **显示面板**: LCD、OLED、Mini LED、Micro LED +4. **PCB/电路板**: 多层板、HDI板、FPC、IC载板 +5. **LED**: 照明、显示、背光 +6. **被动元器件**: 电容、电阻、电感 +7. **汽车电子**: 智能驾驶、车载系统 +8. **工业电子**: 工控设备、传感器 +9. **通信设备**: 5G基站、光通信 +10. **智能硬件**: IoT设备、机器人、无人机 + +### 5.2 头部企业公众号(示例) +- **手机厂商**: 华为、小米、OPPO、vivo、荣耀、一加、realme +- **家电巨头**: 海尔、美的、格力、TCL、海信、创维 +- **PC/笔记本**: 联想、华硕、戴尔、惠普 +- **芯片企业**: 中芯国际、长江存储、紫光展锐、寒武纪、地平线 +- **面板企业**: 京东方、TCL华星、维信诺、天马微电子 +- **科技媒体**: 36氪、虎嗅、极客公园、雷锋网、电子工程专辑 +- **行业自媒体**: 芯智讯、半导体行业观察、电子发烧友 + +### 5.3 入库方案建议 +1. **数据源选择**: 新榜API(科技分类榜单) + WeWe RSS(实时更新) + 搜狗搜索(发现新号) +2. **入库流程**: + - Step 1: 通过新榜API获取科技类TOP2000公众号列表 + - Step 2: 按电子产品子行业分类标注 + - Step 3: 使用WeWe RSS或自建爬虫订阅监控 + - Step 4: 定时采集文章数据入库 + - Step 5: 建立更新监控和告警机制 +3. **数据库设计**: 公众号信息表 + 文章表 + 行业分类表 + 更新日志表 +4. **技术栈推荐**: Python + MySQL + Redis + 定时任务(Celery/APScheduler) diff --git a/docs/wechat_official_accounts_research_report.md b/docs/wechat_official_accounts_research_report.md new file mode 100644 index 0000000..999baf5 --- /dev/null +++ b/docs/wechat_official_accounts_research_report.md @@ -0,0 +1,114 @@ +# 获取国内活跃企业公众号及其更新的系统性调研报告 + +**作者:** Manus AI +**日期:** 2026年3月13日 + +## 摘要 + +微信公众号作为企业在中国市场进行内容营销、客户沟通和品牌建设的核心渠道,其动态和内容具有极高的商业价值。本报告旨在系统性地调研和分析如何高效、规模化地获取国内活跃的企业公众号,并实时追踪其内容更新。报告将深入探讨官方接口、第三方商业服务、开源解决方案以及多种技术实现路径,并以电子产品行业为例,提供具体的行业公众号入库策略和流程建议。 + +## 1. 官方渠道:微信公众平台接口 + +微信官方提供了标准的API接口,允许开发者管理自己的公众号。这是最合规、最稳定的数据来源,但其设计初衷并非用于大规模的市场研究或竞品监控。 + +所有认证的公众号(服务号和订阅号)均可使用官方接口获取自身账号的数据。对于希望通过平台进行二次开发的第三方服务商,必须获得公众号运营者的明确授权,才能代为调用接口。官方接口的主要能力和限制如下表所示: + +| 功能分类 | 关键API接口 | 主要能力 | 核心限制 | +| --- | --- | --- | --- | +| **内容获取** | `freepublish/batchget` | 获取自身已发布的图文消息列表和内容 | 无法获取其他公众号的文章 | +| **用户管理** | `user/get` | 获取关注者列表(OpenID) | 无法获取用户画像数据 | +| **数据统计** | `getarticletotal` | 获取图文分析数据(阅读、分享等) | 只能获取自身数据,有时间跨度限制 | +| **消息互动** | - | 接收用户消息,进行客服互动 | 与批量数据采集无关 | + +> **结论**: 官方接口是企业进行自我数据管理和分析的基础,但其封闭的生态系统使其无法直接用于发现和获取海量其他企业公众号的数据。任何希望规模化获取公众号数据的系统,都必须依赖非官方的渠道和方法。 + +## 2. 第三方商业数据平台 + +为了满足市场对公众号数据的巨大需求,涌现了多家专业的第三方数据服务平台。这些平台通过自有的爬虫技术和数据分析能力,构建了庞大的公众号数据库,并以API或SaaS产品的形式提供服务。这是目前获取公众号数据最高效、最便捷的商业解决方案。 + +下表对比了几个主流的第三方数据平台: + +| 平台名称 | 主要特点 | 数据规模 | 更新频率 | 定价模式 | 官网/参考资料 | +| --- | --- | --- | --- | --- | --- | +| **新榜 (NewRank)** | 行业领导者,提供全面的榜单、数据分析和营销服务 | 收录超1000万公众号,重点监测55万+ | 分钟级到小时级 | API按次调用计费(U点) | `https://www.newrank.cn/` [1] | +| **清博大数据 (GSData)** | 专注于媒体和舆情数据,提供API和SDK | 监测62万+公众号,提供10个月历史数据 | 实时/准实时 | API按套餐或调用量计费 | `https://github.com/gsdata-qingbo/wechatAPI` [2] | +| **极致了数据 (JZL)** | 提供分钟级监测,实时性强 | 未明确,但强调高时效性 | 最快10分钟内同步 | API按次或套餐计费,有免费额度 | `https://www.jzl.com/` [3] | +| **302.AI** | 提供多种AI和数据API,包含公众号数据接口 | 未明确 | 未明确 | API按次或套餐计费 | `https://doc.302.ai/` [4] | + +> **结论**: 第三方平台是企业级应用的首选方案。它们将复杂的数据采集和清洗工作封装起来,提供了稳定可靠的API,极大地降低了开发门槛。虽然需要付费,但考虑到自建系统的开发和维护成本,其性价比通常很高。 + +## 3. 开源解决方案与自建爬虫 + +对于有技术能力且希望降低成本的团队,可以利用GitHub上的开源项目构建自有的公众号数据采集系统。这些项目提供了不同的技术思路和实现路径。 + +| 项目名称 | 主要特点 | 技术方案 | 维护状态 | 优点 | 缺点 | +| --- | --- | --- | --- | --- | --- | +| **WeWe RSS** | 将公众号文章转换为RSS订阅源 | 基于微信读书接口 | 已归档 (2026-01) | 曾非常稳定,部署简单 | 项目已停止维护,接口可能失效 | +| **wechat_articles_spider** | 经典的公众号爬虫库 | 模拟登录公众号后台或PC端微信 | 持续更新 | 灵活度高,可定制 | 需要手动获取和更新Cookie/Token | +| **weixin_crawler / wcplusPro** | 长期维护的完整爬虫系统 | 未公开,可能是多种方案结合 | 活跃,已转为付费产品 | 功能完善,提供UI和分析报告 | 核心功能已闭源并收费 | +| **wechat-spider (striver-ing)** | 易于部署的自动化爬虫 | 未公开 | 持续更新 | 自动化程度高,支持多平台 | 依赖特定环境,可能存在反爬风险 | + +> **结论**: 开源项目为自建数据采集系统提供了良好的起点。然而,由于微信官方持续升级反爬策略,这些项目大多需要使用者具备一定的技术能力以应对变化,并且需要投入持续的维护精力。纯免费且长期稳定的“一劳永逸”方案基本不存在。 + +## 4. 核心技术实现路径对比 + +无论是第三方平台还是开源项目,其底层都依赖于几种核心的技术来绕过官方限制,获取公众号数据。了解这些技术路径有助于评估不同方案的稳定性和风险。 + +| 技术方案 | 实现原理 | 优点 | 缺点 | +| --- | --- | --- | --- | +| **中间人代理 (MITM)** | 在手机和微信服务器间架设代理(如AnyProxy),解密并截获HTTPS请求 | 可获取最完整的数据,包括阅读量、点赞等实时互动数据 | 配置复杂,需要手动操作,且可能因微信版本更新而失效 | +| **微信读书接口** | 利用微信读书App可以阅读公众号文章的特性,通过其API获取文章列表 | 接口相对稳定,可批量订阅和获取历史文章 | 需要微信读书账号,且调用频率受限 | +| **搜狗微信搜索** | 模拟请求搜狗的微信搜索入口,解析搜索结果页面 | 无需微信账号,相对独立 | 限制多(如只能获取最近10篇),有验证码反爬,数据字段不全 | +| **PC/移动端Hook** | 通过技术手段Hook微信客户端进程,直接从内存或本地数据库中提取数据 | 可获取实时和完整的数据 | 技术门槛极高,严重依赖特定客户端版本,有极高的封号风险 | + +## 5. 案例分析:电子产品行业公众号入库方案 + +基于以上调研,我们为获取电子产品行业相关的企业公众号设计一个系统性的入库和更新流程。 + +### 5.1 行业分类与目标账号定义 + +首先,需要建立一个清晰的行业分类体系,以便对公众号进行归类。电子产品行业可细分为: + +- **核心半导体**: 芯片设计 (Fabless)、制造 (Foundry)、封测 (OSAT)、设备与材料等。 +- **消费电子**: 智能手机、PC、智能穿戴、智能家居等。 +- **关键零部件**: 显示面板、印刷电路板 (PCB)、被动元器件、LED等。 +- **行业应用**: 汽车电子、工业电子、通信设备等。 +- **科技媒体与自媒体**: 覆盖电子行业的专业媒体、分析师和KOL。 + +### 5.2 建议工作流程 + +推荐采用“商业API为主,开源方案为辅”的混合策略,以平衡成本、效率和稳定性。 + +1. **种子账号发现与冷启动**: + - **步骤一**: 调用**新榜**的API,获取“科技”分类下的日榜、周榜和月榜TOP 2000公众号列表,作为基础种子池。 + - **步骤二**: 结合关键词(如“半导体”、“消费电子”、“PCB”等)通过**清博大数据**或**搜狗搜索**的API进行补充搜索,发现更多垂直领域的公众号。 + +2. **分类与入库**: + - **步骤三**: 对获取到的公众号列表进行人工或AI辅助分类,按照5.1中定义的体系打上标签,存入数据库的“公众号信息表”。 + +3. **实时内容更新与监控**: + - **步骤四**: 对于已入库的核心公众号,使用**极致了数据**或自建的爬虫(基于`wechat_articles_spider`或类似方案)进行高频监控(如每15-30分钟一次),实时获取新发布的文章并存入“文章表”。 + +4. **数据维护与扩展**: + - **步骤五**: 定期(如每周)重复步骤一和步骤二,以发现新的活跃公众号,并对现有账号的活跃度进行评估,剔除长期不更新的“僵尸号”。 + +### 5.3 推荐技术栈 + +- **后端语言**: Python (拥有丰富的爬虫和数据分析库) +- **核心框架**: Scrapy (用于构建分布式爬虫), FastAPI/Flask (用于构建API服务) +- **数据库**: MySQL/PostgreSQL (存储结构化数据), MongoDB (存储文章正文等非结构化数据), Redis (用于任务队列和缓存) +- **任务调度**: Celery, APScheduler (用于定时执行采集和更新任务) +- **部署**: Docker, Kubernetes (便于部署和扩展) + +## 6. 结论与展望 + +系统性地获取国内活跃企业公众号及其更新是一个涉及多重技术、策略和成本考量的复杂任务。目前不存在单一完美的解决方案。对于追求效率和数据稳定性的商业应用,**直接采购成熟的第三方数据平台API是最佳选择**。对于有技术研发能力且希望控制成本的团队,可以基于开源项目构建自有的采集系统,但必须为持续的技术对抗和维护投入资源。本报告提出的混合策略和针对电子行业的具体工作流程,旨在为相关实践提供一个兼具成本效益和可扩展性的参考框架。 + +--- + +### 参考文献 + +[1] 新榜. (n.d.). *新榜API*. Retrieved from https://www.newrank.cn/ +[2] 清博大数据. (n.d.). *wechatAPI*. Retrieved from https://github.com/gsdata-qingbo/wechatAPI +[3] 极致了数据. (n.d.). *极致了数据官网*. Retrieved from https://www.jzl.com/ +[4] 302.AI. (n.d.). *302.AI API文档*. Retrieved from https://doc.302.ai/