DEMEGO · Hạ tầng QLTN · Thuyết trình nội bộ · 1/6 – 30/9/2026
Một hệ thống tách riêng, tự phục hồi, có giám sát, có sao lưu đã diễn tập — triển khai trong 4 tháng, khách không gián đoạn, và không bị khóa vào một nhà cung cấp.
1 · Vì sao phải làm
Hôm nay: cả hệ thống khách đặt trên một máy duy nhất — không có lưới an toàn.
Prod chạy chung máy vật lý với dev + sandbox. Máy hỏng, hoặc một bản dev lỗi → kéo sập hệ thống đang phục vụ khách.
Chưa diễn tập khôi phục thật — "có file backup" không bằng "rút ra dùng được". Mất dữ liệu = khôi phục chậm hoặc không khôi phục được.
Service chết nằm im tới khi có người phát hiện. Không cảnh báo. Đêm hôm sự cố phải có người thức dậy sửa tay.
Vận hành nằm trong tay/đầu một người. Dữ liệu là thông tin cư dân — dữ liệu cá nhân, mất/lộ là hậu quả nghiêm trọng về uy tín và trách nhiệm.
2 · Giá trị
Bốn kết quả kinh doanh — không phải bốn thứ kỹ thuật.
Service chết tự khởi động lại trong vài giây; có chỗ dự phòng gánh thay. Ít downtime khách thấy, ít cuộc gọi 2 giờ sáng.
Mọi cấu hình nằm trong Git + tài liệu, không trong đầu một người. Ai biết Kubernetes đều tiếp quản được → dễ tuyển, dễ thuê.
Sao lưu liên tục, để kho độc lập, và diễn tập khôi phục thật trước khi đụng dữ liệu. Bảo vệ thứ quý nhất: dữ liệu cư dân.
Chuẩn hóa cho phép bán bản tự-host cho khách lớn và mở rộng theo số khách mà không đập đi xây lại.
3 · Chất lượng khi chuyển
Chuyển từng viên gạch khi người vẫn ở trong nhà — không đập đi xây lại.
4 · Lộ trình
Lên prod trong ~4 tuần. Ba tháng còn lại để vận hành thật, căn chỉnh và bàn giao.
| Thời gian | Giai đoạn |
|---|---|
| 1/6 – 14/6 | GĐ1 · Khảo sát & hợp đồng — nghiên cứu hệ hiện tại, chốt cấu hình + giá, đàm phán CMC, bật backup an toàn ngay tuần đầu. |
| ★ 14/6 | Mốc: Sao lưu khôi phục thành công — cửa ải bắt buộc trước khi đụng dữ liệu. |
| 8/6 – 28/6 | GĐ2 · Khung hạ tầng & backup/restore — dựng cluster, lưu trữ, GitOps, giám sát lõi; thiết kế không khóa nhà cung cấp. |
| ★ 28/6 | GĐ3 · Ứng dụng QLTN chạy production — đồng bộ dữ liệu an toàn, deploy, cutover có kiểm soát. |
| 29/6 – 26/7 | GĐ4 · Vận hành prod & giám sát đầy đủ — log tập trung, dashboard, cảnh báo, runbook; tắt dần hệ cũ. |
| 27/7 – 23/8 | GĐ5 · Hypercare & căn chỉnh — theo dõi sát, right-size cấu hình. Thoát khi: ổn định, không sự cố nghiêm trọng. |
| 24/8 – 30/9 | GĐ6 · Tối ưu, diễn tập chuyển đổi & bàn giao — tối ưu chi phí, diễn tập chuyển môi trường độc lập, báo cáo + lộ trình. |
Mốc 28/6 với điều kiện hợp đồng CMC hoàn tất trước 14/6. Track song song: chuyển dev/sandbox lên K8s trên server hiện có — không ảnh hưởng cam kết prod.
5 · Tình huống sự cố
Ba tầng phòng thủ — tự động, phát hiện sớm, con người + quy trình.
| Tầng | Tên | Chi tiết |
|---|---|---|
| 1 · Tự động | Tự phục hồi | Phần lớn sự cố nhỏ (một service chết) → hệ tự khởi động lại, có chỗ dự phòng gánh thay, không cần người. |
| 2 · Phát hiện sớm | Giám sát + cảnh báo | Log tập trung + dashboard; bất thường bắn cảnh báo về Telegram ngay — biết trước khi khách kêu. |
| 3 · Con người | Quy trình + đường lui | Phân loại sự cố rõ + sổ tay xử lý (runbook) + nút lùi < 5 phút + leo thang sang CMC khi cần. |
| Mức | Nghĩa (ngôn ngữ kinh doanh) | Ví dụ trong hệ này | Cam kết phản hồi * |
|---|---|---|---|
| P1 · Nghiêm trọng | Khách không dùng được hệ thống, hoặc nguy cơ mất dữ liệu | Cả cụm sập · CSDL chính chết · mất lối vào hệ thống | Vào việc ngay ≤ 30', ưu tiên tuyệt đối |
| P2 · Cao | Hệ vẫn chạy nhưng một chức năng quan trọng hỏng / chậm bất thường | Không gửi được thông báo đẩy · một dịch vụ yếu · phản hồi chậm | Phản hồi trong vài giờ làm việc |
| P3 · Thấp | Lỗi nhỏ, có cách né, không ảnh hưởng vận hành | Lỗi hiển thị · cảnh báo log · một tác vụ nền chạy trễ | Đưa vào kế hoạch xử lý |
* Con số phản hồi là đề xuất nội bộ. SLA chính thức với khách phụ thuộc nền tảng CMC cam kết + năng lực trực của mình. · Khôi phục dữ liệu: sao lưu liên tục (về đúng thời điểm) + đã diễn tập, thời gian tính bằng phút–giờ, đo chính xác ở mốc 14/6.
6 · Phụ thuộc CMC
CMC giữ hạ tầng sống. Mình giữ ứng dụng chạy. Đừng lẫn hai thứ.
7 · Yêu cầu tương lai
Thiết kế cho cái sắp tới, không chỉ cái hôm nay.
| Chủ đề | Khả năng | Chi tiết |
|---|---|---|
| Mở rộng theo khách | Lớn lên không phải xây lại | Lộ trình tăng quy mô online, không downtime: <5k → 10k → 30k+ user chỉ cần thêm máy / tăng cỡ, giữ nguyên kiến trúc. |
| Bán bản tự-host | Khách tự chạy trên server riêng | Đóng gói chuẩn → giao trọn gói cho khách lớn / khắt khe bảo mật. Trước đây Docker thủ công khó làm; giờ làm được. |
| Không khóa nhà cung cấp | Chuyển được sang chỗ khác | Chuẩn K8s + cấu hình trong Git + sao lưu kho trung lập → tự vận hành hoặc đổi nhà cung cấp. Diễn tập thật ở GĐ6. |
| Onboard khách mới | Không giới hạn số khách | Có pipeline dựng môi trường mới nhanh, lặp lại được — vượt mức CMC chỉ hỗ trợ 3 khách mới / năm. |
8 · Ranh giới giá trị
Thuê CMC = có tòa nhà + điện nước. Còn lại — chuyển nhà, bài trí, bảo vệ, mở chi nhánh — là việc của mình.
| Đầu việc | CMC (thuê ngoài) | Mình (trong nhà) |
|---|---|---|
| Cấp hạ tầng: máy, control plane, mạng, lưu trữ | ✓ Có | — |
| Giữ phần cứng / hạ tầng sống 24/7 | ✓ Có (SLA hạ tầng) | — |
| Di chuyển hệ thống: migrate, đồng bộ data, cutover an toàn | ✗ Không làm | ✓ Làm |
| Giám sát + cảnh báo + cứu sự cố ứng dụng | ✗ "Chỉ dựng, không check sự cố" | ✓ Làm |
| Tối ưu / đặt đúng cỡ chi phí | ✗ Báo giá mặc định bị thừa | ✓ Cắt ~một nửa hóa đơn |
| GitOps + chống khóa nhà cung cấp + bàn giao tài liệu | ✗ Không | ✓ Làm |
| Onboard khách mới (mở rộng kinh doanh) | ✗ Chỉ 3 khách / năm | ✓ Không giới hạn |
| Backup diễn tập khôi phục, runbook, vận hành liên tục | ✗ Không | ✓ Làm |
9 · Chi phí
Cùng nhà cung cấp CMC — nhưng đặt đúng cỡ → hóa đơn giảm khoảng một nửa.
| Số dự án (tòa nhà) | Cư dân dùng app | Tổng/tháng (sau VAT) | Chi phí / cư dân / tháng |
|---|---|---|---|
| 10 | 12.000 | ~17,1 triệu | ~1.420đ |
| 30 | 36.000 | ~23,3 triệu | ~650đ |
| 50 | 60.000 | ~29,5 triệu | ~490đ |
| 100 | 120.000 | ~47 triệu | ~390đ |
Lưu ý trung thực: ở tầng hạ tầng thô, Kubernetes không rẻ hơn Docker-một-máy. Cái rẻ hơn là TỔNG chi phí (gồm công người vận hành + tổn thất khi sự cố) và việc đặt đúng cỡ.
10 · Cam kết
Năm mốc kiểm chứng được — mỗi mốc báo cáo, mỗi bước lùi được.
| Ngày | Mốc |
|---|---|
| 14/6 | Sao lưu khôi phục thành công |
| ★ 28/6 | Ứng dụng chạy production |
| 26/7 | Giám sát hoàn chỉnh |
| 23/8 | Hệ thống ổn định (hết hypercare) |
| 30/9 | Bàn giao báo cáo & lộ trình |
Tóm lại
Từ một máy, không backup, một người → một hệ thống tự phục hồi, có giám sát, sao lưu đã diễn tập, không khóa nhà cung cấp — trong 4 tháng, khách không gián đoạn, và hóa đơn hạ tầng giảm khoảng một nửa so với báo giá mặc định.