Blog
Ghi chép kỹ thuật — song ngữ VI/EN. Bốn chủ đề: Data Science, Data Engineering, Gen AI, Banking Domain.
BeGuru / Gen AI: Technical Docs — kiến trúc tổng quan (runtime, disk artifacts, memory).
Tìm bài: ⌘K / Ctrl+K
Data Science
Mô hình, đánh giá ngoài mẫu & độ ổn định dữ liệu.
- 2026-04-01→
OOT và Stability: 'Phanh an toàn' của mô hình rủi ro
Đừng để mô hình của bạn 'đẹp trên giấy, gãy ngoài đời'. Tìm hiểu OOT window selection, công thức PSI, CSI, Calibration drift, và cách xây dựng Monitoring pipeline thực chiến.
- 2026-03-18→
WOE và IV: Nghệ thuật 'gạn đục khơi trong' cho dữ liệu tín dụng
Làm sao để tìm ra những 'viên ngọc quý' trong đống dữ liệu thô? Công thức WOE, ngưỡng IV cụ thể, optimal binning, missing value treatment và cách kiểm tra stability của WOE bins theo thời gian.
Data Engineering
Pipeline, warehouse, chất lượng DAG & contract dữ liệu.
- 2026-03-28→
Chất lượng DAG Airflow: Đừng để Pipeline thành 'mớ bòng bong'
Vận hành Airflow trong production không chỉ là nối các mắt xích lại với nhau. Hãy học cách xây dựng những Pipeline bền bỉ với Idempotency, SLA và hệ thống cảnh báo thông minh.
- 2026-03-22→
dbt Testing & Docs: Bản hợp đồng của dữ liệu sạch
dbt biến SQL thành những sản phẩm có kiểm soát chất lượng. Hãy học cách dùng Test và Docs như một bản hợp đồng cam kết sự chính xác giữa kỹ sư dữ liệu và doanh nghiệp.
Gen AI
RAG, agent, đánh giá grounding & ranh giới công cụ.
- 2026-04-15→
BeGuru AI — Technical Docs: Mem0, cross-session memory & lộ trình tích hợp
Plan tích hợp mem0 vào beguru-ai: Qdrant + AsyncMemory, search/add quanh POST /api/freetext/chat, so sánh Agno Memory vs mem0; ContextCompressor giữ nguyên trong phiên.
- 2026-04-13→
BeGuru AI — Technical Docs: Memory, nén history & tầng context
RawHistory, ContextCompressor, PinnedLayer, context pack Engineer; artifact đĩa; SQLite AgentMemory; biến FREETEXT_* và ADR-0002 (chưa triển khai).
- 2026-04-12→
BeGuru AI — Technical Narrative: mental model, runtime & state (không phải README)
Tài liệu kiến trúc nội bộ chuyển thành blog: hành vi runtime, state nằm đâu, luồng dữ liệu, trade-off, hạn chế và North Star — bám SSOT repo beguru-ai/docs.
- 2026-04-12→
BeGuru AI — Technical Docs: Runtime FastAPI, AgentOS, routers
FastAPI app, AgentOS Agno, nhóm route freetext/workflows/interview/agents, agents PM/Engineer, OpenRouter, và luồng generate-code / backend Go.
- 2026-04-12→
BeGuru AI — Technical Docs: Tổng quan kiến trúc (runtime, agent, đĩa)
Hiện trạng beguru-ai (FastAPI, Agno, OpenRouter) và kiến trúc đề xuất: MemoryPlane, mem0+Qdrant, LangGraph (+ Temporal khi cần durable), sandbox E2B/Docker, Langfuse+OTel — đồng bộ product plan North Star.
- 2026-04-12→
BeGuru AI — AIO Sandbox: component thực thi cô lập (lộ trình)
Tài liệu kiến trúc trên blog: vì sao baseline chạy test/build trên host, AIO Sandbox (shell, file, MCP Hub, preview), SandboxExecutor, điểm tích hợp — SSOT trong repo beguru-ai/docs/AIO_SANDBOX_INTEGRATION.md.
- 2026-04-11→
BeGuru AI — Technical Docs: Design system & artifact trên đĩa
design-system/ (MASTER, BUILD_STATE, PRODUCT_PLAN, beguru_chat_context.json), quy ước output_path frontend_/backend_, và .guru/rules cho Engineer Next.js.
- 2026-04-05→
Đừng để AI nói dối: Câu chuyện về một 'Biên tập viên' RAG khó tính
Hallucination (ảo giác) là kẻ thù số một của RAG. Hãy học cách xây dựng một hệ thống đánh giá khắt khe để đảm bảo AI luôn nói có sách, mách có chứng.
- 2026-03-30→
Routing multi-agent: Người điều phối thông minh trong tòa nhà văn phòng
Đừng để một Agent đơn độc làm hết mọi việc. Hãy học cách xây dựng một 'người điều phối' thông minh để dẫn dắt yêu cầu đến đúng chuyên gia và công cụ cần thiết.
Banking Domain
Vòng đời tín dụng, scorecard & giám sát quyết định (góc kỹ thuật).
- 2026-04-25→
Champion-Challenger: Cách prove model mới mà không cần đặt cược toàn bộ
Model mới backtest AUC cao hơn 3%. Risk committee hỏi: 'Trên production thật thì sao?' Champion-Challenger là cách trả lời câu hỏi đó mà không cần gamble.
- 2026-04-24→
Gini, KS, PSI: Ba câu hỏi mà mọi model credit risk cần trả lời
AUC tháng trước 0.72, tháng này vẫn 0.72. Nhưng khách hàng đã thay đổi, policy đã thay đổi. Model có còn hoạt động không? Ba metrics này sẽ trả lời.
- 2026-04-23→
Reject Inference: Mô hình của bạn chưa bao giờ nhìn thấy người bị từ chối
Model học từ người được duyệt. Người bị từ chối? Model không biết họ sẽ trả nợ ra sao. Đây là bias có hệ thống — và hầu hết team không thừa nhận nó.
- 2026-04-22→
Scorecard tín dụng: Tại sao ngân hàng vẫn dùng mô hình từ thập niên 80?
XGBoost chính xác hơn, nhưng regulator hỏi 'tại sao từ chối khách này?' — scorecard là câu trả lời duy nhất mà ngân hàng có thể đưa ra.
- 2026-04-17→
XGBoost cho newbie: 1 input đi qua tree như thế nào?
Giải thích XGBoost theo kiểu 'UI step-by-step': một hồ sơ khách hàng đi qua node (Yes/No/Missing), rơi vào leaf, rồi được cộng dồn qua nhiều cây để ra score/probability.
- 2026-04-09→
Từ con số đến quyết định: Khi dữ liệu bắt đầu 'nói chuyện' với tiền
Scorecard hay Boosting chỉ là khởi đầu. Khám phá cách những con số biến thành quyết định duyệt vay thực tế qua lớp Policy, Champion-Challenger, và hệ thống giám sát chặt chẽ.
- 2026-04-07→
Hành trình của một khoản vay: Khi dữ liệu kể chuyện về lòng tin
Từ lúc tiếp cận đến khi thu hồi: Khám phá bức tranh kỹ thuật đằng sau vòng đời tín dụng — NTB vs ETB, Feature Store, Vintage Analysis, Roll Rate và cách ML len lỏi vào từng nhịp đập của ngân hàng số.