01项目定位POSITIONING
Signal Pipeline 是一个给独立创作者的开源模板:单人维护的内容信号管道。它解决的问题很具体——一个人做内容,既要每天知道领域里发生了什么(数据是易腐品),又不能被采集和整理吃掉创作时间(维护成本是第一红线)。
本站的私有信号流程按同一结构搭建(私有实例不公开,此句不作可核验声称);这个公开模板是它的通用化版本,个人配置全部换成占位符,不含任何私有数据。
02结构与纪律STRUCTURE
结构是一条四段流水线:采集(公开源,逐日 JSON 台账)→ 模板化预筛(LLM 按 prompt 模板生成候选)→ 人工审核(唯一的发布关口)→ 四个出口(选题日报、信号周报、模式漏斗、样本监控)。
纪律做进了结构里:所有产出都是候选,不存在自动发布路径;每次运行写台账(ledger.jsonl),系统自身可追问;单个数据源失败不拖垮全局;采集幂等,重跑无副作用。这与 N-008 的"建议→审核→动作→反馈"闭环是同一个形状。
03已实现能力IMPLEMENTED
- 三路公开源采集:GitHub trending、GitHub Search API、HN Algolia 提及监控。
- 编排器七个命令:采集 / 四出口生成 / 一键日常 / 台账查询。
- 逐日原始数据留档 + 运行台账(时间、步骤、成败、产物路径)。
- GitHub Actions 每日云端采集工作流(机器可关)。
- 四个出口的 prompt 模板,含筛选标准与硬性规则。
- 零第三方依赖,Python 标准库实现。
04不声称什么NOT CLAIMED
不声称采集完备:trending 无官方 API,HTML 解析会随页面改版失效;未认证 API 有限流;HN 对企业向产品天然低频——这些已知盲区写在 README 的边界一节。不声称内容质量:预筛质量取决于使用者填入的定位与模板。生成环节依赖本机 LLM CLI,模板本身不含模型。
05可验证方式HOW TO VERIFY
- 克隆后直接采集。`python3 pipeline.py collect`——不需要任何 key,产出当日 JSON。
- 查台账。`python3 pipeline.py status`,每次运行的成败与产物路径都在。
- 读 prompt 模板。prompts/ 下四个文件就是预筛逻辑本身,无隐藏环节。
- 核对工作流。.github/workflows/collect.yml 的每日采集逻辑一屏可读。
06边界声明BOUNDARY
模板只采集公开 API 与公开页面,不涉及任何非公开数据源。本站私有实例的数据、产出与频道配置不在公开仓库中。发布关口设计为人工——这是原则,不是未完成的功能。