Files
ai-proj-helper/skills/ops-tools-plugin/incidents.md
John Qiu 99881e268a refactor: 合并 claude-marketplace,重构目录结构为单一仓库
- 重命名 plugins/ → skills/,个人插件迁移到 skills-personal/(gitignore)
- 更新 generate-marketplace.py 支持 config 读取和 skills-personal 扫描
- 新增 claude-config.yaml(技能启用/禁用 + MCP 配置)
- 新增 init.sh(交互式 MCP 初始化,支持 stdio/SSE 模式)
- 新增 CLAUDE.md 项目说明
- 重写 README.md 反映新结构
- 删除过时脚本:PUSH.sh、generate-marketplace.sh、convert-skills.sh

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-14 11:11:59 +10:30

77 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 重大事件记录
**创建时间**: 2026-01-29 11:50:00 CST
**父技能**: ops-tools
---
## 2026-01-17: Melbourne 服务器 VNC 配置失误导致系统崩溃
**事件时间**: 2026-01-17 08:49:00 - 09:02:00+ ACDT
**事件**: 执行 `sudo pkill -9 -u coolbuy-dev` 导致 Melbourne 服务器崩溃失联
**后果**:
- macOS 图形系统崩溃
- Tailscale VPN 中断
- SSH 完全无法连接
**根本原因**: macOS 图形系统依赖用户会话,强制终止会导致 WindowServer 崩溃
**教训**:
```bash
# 永远不要在远程 macOS 上执行
sudo pkill -9 -u <username>
sudo killall -9 -u <username>
```
**解决方案**: 需要物理访问恢复
---
## 2026-01-16: AI-Proj Webhook 自动部署重新启用
**事件时间**: 2026-01-16 11:06:01 CST
**事件**: Gitea webhook 重新启用,恢复 main 分支自动部署
**验证结果**:
- Jenkins build #64 自动触发成功
- 数据库数据完整保留664条需求记录验证通过
- External volumes 配置有效
**部署流程**: `开发者 merge PR → Gitea webhook → Jenkins → 生产自动部署`
---
## 2026-01-15: AI-Proj 生产数据库丢失与恢复
**事件时间**: 2026-01-15 00:00:00 - 00:46:00 CST
**事件**: Jenkins 部署时 `docker compose down` 删除了非 external volumes
**影响**: 生产数据库完全清空,所有用户无法登录
**恢复过程**:
1. 从本地开发环境恢复完整数据41 用户、54 项目、4,722 任务)
2. 使用新加坡跳板机优化传输
3. 完全重建数据库
**恢复完成**: 2026-01-15 00:46:00 CST
**预防措施**:
1. 所有数据卷标记为 `external: true`
2. Jenkinsfile 添加自动数据库迁移
3. 配置自动备份策略(本地 + 阿里云 OSS
---
## 事件记录规范
记录重大事件时必须包含:
- **事件时间**: 完整的开始和结束时间
- **事件描述**: 清晰简洁的事件说明
- **影响范围**: 受影响的系统和用户
- **恢复过程**: 详细的恢复步骤
- **预防措施**: 包含完成时间