Chúng ta hãy phân tích bảng dữ liệu trên:
- Customer_name, Product_name, Transaction_service là dữ liệu về các thực thể tham gia vào giao dịch. Không có các thực thể này thì không có giao dịch. Những dữ liệu này được gọi là dữ liệu chủ.
- Transaction_ID, Amount, Time là các dữ liệu sinh ra khi thực hiện giao dịch. Các dữ liệu này là dữ liệu giao dịch.
- Các đại lượng như tổng số tiền giao dịch, tổng số lần giao dịch của từng khách hàng được tính từ dữ liệu giao dịch được gọi là dữ liệu phân tích.
Như vậy chúng ta định nghĩa:
Dữ liệu chủ là dữ liệu cốt lõi được sử dụng để hỗ trợ các quy trình kinh doanh quan trọng trên toàn doanh nghiệp. Đó là thông tin về các thực thể kinh doanh để thực hiện hoạt động giao dịch và kinh doanh, ví dụ như dữ liệu về khách hàng, sản phẩm, hợp đồng, vv.
Dữ liệu chủ chỉ là một tập hợp nhỏ của tất cả dữ liệu của doanh nghiệp, nhưng quan trọng và được toàn doanh nghiệp sử dụng chung. Đó cũng là lý do vì sao dữ liệu chủ cần được quản lý để đảm bảo chất lượng dữ liệu chính xác, thống nhất trong tổ chức.
Các doanh nghiệp đối mặt với các vấn đề về dữ liệu chủ như:
- Thông tin nằm rải rác trong doanh nghiệp.
- Thông tin không giống nhau trên các hệ thống.
- Khó xác định được thông tin nào là chính xác.
- Thông tin có trùng lặp không, thông tin có mối quan hệ với nhau không?
Kết quả kéo theo có thể là:
- Mâu thuẫn thông tin giữa các báo cáo, giữa các ứng dụng.
- Tăng rủi ro
- Tăng chi phí
Vì vậy quản lý dữ liệu chủ để toàn doanh nghiệp có một nguồn dữ liệu vận hành chất lượng cao, tránh các rủi ro do sai lệch dữ liệu và giảm các chi phí do phải duy trì và vận hành nhiều nguồn dữ liệu phân tán.
Theo Gartner thì 60% tất cả các sáng kiến chuyển đổi kỹ thuật số đều phụ thuộc vào nền tảng dữ liệu khách hàng.
Master Data Management (MDM)
Quản lý dữ liệu chủ là một giải pháp hợp nhất bao gồm công nghệ, công cụ và quy trình cần thiết để thống nhất và điều phối dữ liệu chủ từ nhiều nguồn khác nhau trong toàn bộ doanh nghiệp. Dữ liệu sau khi được thống nhất thì đáng tin cậy và được chia sẻ để sử dụng thống nhất trong toàn doanh nghiệp.
Dữ liệu từ các nguồn khác nhau sẽ được thu thập và sau đó được xử lý (làm sạch, chuyển đổi, sửa chữa, tổng hợp, chuẩn hóa) để tạo ra một phiên bản dữ liệu chính xác nhất, gọi là Golden Record. Golden Record sau đó được chia sẻ để sử dụng cho các ứng dụng, các quá trình kinh doanh, phân tích, vv. Việc này đảm bảo tính nhất quán, đầy đủ, chính xác của dữ liệu.
Hình bên minh họa cho chúng ta thấy thông tin về bốn tài khoản khách hàng xuất hiện trên bốn hệ thống kinh doanh khác nhau và không thống nhất. Vậy bốn tài khoản trên có phải cùng một khách hàng không và các thông tin về khách hàng này trên hệ thống nào là chính xác?
MDM sẽ thực hiện việc xử lý để thống nhất dữ liệu từ 4 nguồn này và trả ra một phiên bản dữ liệu tin cậy duy nhất, gọi là Golden Record.
MDM hoạt động dựa trên bốn bước cơ bản và theo trình tự như sau:
Profiling
Bước này khám phá dữ liệu để hiểu hiện trạng dữ liệu:
- Tỉ lệ lấp đầy của dữ liệu.
- Các dữ liệu có liên quan như thế nào?
- Dữ liệu có chuẩn không?
- Dữ liệu bị trùng lặp không?
- Dữ liệu tuân theo các quy tắc như thế nào?
Standardization
Bước này thực hiện chuyển đổi và làm sạch dữ liệu để đảm bảo dữ liệu nhất quán, cùng một loại nội dung và định dạng, đồng thời áp dụng các bộ quy tắc xác định dữ liệu chủ.
Matching
Dữ liệu sau khi được chuẩn hóa thì sẽ được áp dụng các thuật toán matching để tìm ra các phiên bản dữ liệu có khả năng trùng lặp và thiết lập các ngưỡng điểm để xác định Golden record.
Mỗi công cụ có các thuật toán được phát triển riêng để thực hiện việc matching. Các thuật toán matching là chìa khóa thành công của một công cụ MDM.
Thuật toán matching được sử dụng như:
Deterministic matching
Deterministic matching là kỹ thuật được sử dụng để tìm kết quả khớp chính xác giữa các bản ghi. Kỹ thuật này lý tưởng nếu dữ liệu chứa thông tin nhận dạng duy nhất, ví dụ như các số Căn cước công dân, Mã số thuế, vv. Khi không thể xác định số nhận dạng duy nhất, các phần thông tin khác của một cá nhân như địa chỉ, số điện thoại, email, ngày sinh, giới tính, vv sẽ được so sánh riêng và các kết quả sẽ được tổng hợp để đưa ra một điểm so sánh chung cuối cùng.
Probabilistic matching
Probabilistic matching thực hiện việc khớp các bản ghi dựa trên mức độ giống nhau giữa hai hoặc nhiều tập dữ liệu. Giá trị của một số trường dữ liệu được so sánh giữa hai bản ghi và mỗi trường được gán một trọng số cho biết hai giá trị trường khớp nhau đến mức nào. Điểm số cuối cùng (score) là tổng trọng số của từng trường riêng lẻ sẽ cho biết khả năng khớp giữa hai bản ghi.
Hình bên cạnh biểu diễn dải điểm mà thuật toán trả ra.
- Các bản ghi có điểm so sánh thuộc vùng dưới ngưỡng Task threshold là các bản ghi không khớp với nhau, tức là không có liên quan đến nhau.
- Vùng trên ngưỡng Auto Link threshold là các bản ghi chắc chắn trùng hợp. Có thể thiết lập chế độ tự kết nối (autolink) các bản ghi để tạo golden record cho các bản ghi này.
- Các bản ghi có điểm thuộc khoảng từ Task threshold và Auto Link threshold là các bản ghi có thể có sự trùng hợp hoặc không trung hợp, do đó cần con người xem xét và quyết định.
Điểm quan trọng là khi triển khai MDM thì cần có các tập dữ liệu mẫu để giúp xác định được các ngưỡng Task threshold và Auto Link threshold là bao nhiêu đối với hiện trạng chất lượng dữ liệu của doanh nghiệp.
Survivorship
Dữ liệu được xem xét và hợp nhất để tạo ra Golden Record.
Có 4 phương pháp triển khai MDM. Tùy thuộc vào hiện trạng và mong muốn của doanh nghiệp để lựa chọn phương pháp phù hợp nhất.
Consolidation
Dữ liệu chủ từ nhiều nguồn thường được đưa về MDM Hub.
Khớp (matching) và lưu trữ dạng vật lý phiên bản hợp nhất của dữ liệu chủ.
Không xâm phạm các nguồn dữ liệu.
Đầu ra thích hợp sử dụng nó cho việc tham chiếu, phân tích và báo cáo, các ứng dụng không đòi hỏi tính realtime.
Registry (Virtual)
Là phương pháp sử dụng index chỉ đến master data ở các nguồn. Khớp, làm sạch, sau đó thiết lập ‘golden record’. Lưu các index của golden record.
Golden record thường được cung cấp cho các ứng dụng ở chế độ “read-only” và thông qua các thông tin index của master data.
Thích hợp nếu số lượng các hệ thống nguồn lớn, và khó có thể thiết lập một nguồn có thẩm quyền.
Dữ liệu tránh được nguy cơ ghi đè thông tin trong các hệ thống nguồn.
Centralized (Physical)
Master data chỉ được lưu trữ và có thể được tiếp cận từ MDM Hub.
Dễ quản trị, bảo mật và duy trì tính nhất quán của master data.
Các nguồn có khả năng đăng kí để cập nhật dữ liệu từ MDM hub, nhưng khi đó sẽ xâm lấn đến nguồn.
Coexistence (Hybrid)
Khớp (matching) và lưu trữ dạng vật lý phiên bản hợp nhất của dữ liệu chủ.
Cập nhật dữ liệu trở lại cho các hệ thống nguồn.
Dữ liệu được làm sạch cả ở nguồn và MDM, có thể được truy cập nhanh hơn.
Triển khai có thể phức tạp hơn.
Hãy liên hệ với BigBangData để có được sự tư vấn và giải pháp dữ liệu tốt nhất cho doanh nghiệp của quý khách hàng!