Chúng ta đang sống trong một thế giới mà các mối quan hệ ngày càng phức tạp. Sự hiểu biết về các mối quan hệ này cũng quan trọng như hiểu biết về các chủ thể.
Graph database là công nghệ dữ liệu tiên tiến lưu trữ dữ liệu dưới dạng các nodes (các chủ thể) và các relationships (các mối quan hệ), thay vì lưu trữ dữ liệu ở dạng bảng hay các file văn bản. Công nghệ này không chỉ giúp chúng ta phân tích được các chủ thể, mà còn dễ dàng khai thác được các mối quan hệ giữa chúng, những sự tiềm ẩn trong những mối quan hệ.
Relational Model phù hợp với dữ liệu có đặc điểm:
- Cấu trúc dữ liệu được hiểu rõ, không thay đổi quá thường xuyên.
- Các sự kiện liên quan đến các bộ phận rời rạc của dữ liệu, hoặc ít liên quan.
Graph Model phù hợp với dữ liệu có đặc điểm:
- Hệ thống động: nơi dữ liệu cấu trúc liên kết rất khó dự đoán.
- Yêu cầu động với sự phát triển với doanh nghiệp.
- Các mối quan hệ trong dữ liệu có đóng góp ý nghĩa và giá trị.
Graph là dạng dữ liệu được kết nối với nhau
Các thành phần của graph:
Nodes:
- Biểu diễn các chủ thể trong graph
- Có thể dán nhãn (label)
Relationships:
- Liên kết nodes theo type và direction
Properties:
- Là các cặp name-value có thể được gán cho nodes và relationships
Một số ưu điểm của graph database khiến công nghệ này trở nên tiềm năng:
- Nhanh hơn nhiều lần so với relational database khi dữ liệu có mối liên kết phức tạp.
- Dễ dàng mở rộng
- Độ tin cậy cao
- Dễ dàng khám phá insight
- Triển khai on-prem và on cloud
Là ngôn ngữ truy vấn trên cơ sở dữ liệu graph. Đặc điểm nổi bật của Cypher là:
- Dễ học và sử dụng
- Trực quan và logic
- Giảm tải truy vấn nhiều lần vào database
- Truy vấn đơn giản và tinh gọn
Graph Data Science là thư viện cung cấp các thuật toán để tính toán các chỉ số mạng của các nodes như:
- Centrality: bao gồm các thuật toán được sử dụng để xác định tầm quan trọng của mỗi node trong mạng lưới.
- Community detection: bao gồm các thuật toán được sử dụng để đánh giá cách các nhóm nodes được nhóm lại hoặc phân vùng, cũng như xu hướng tăng cường hoặc phá vỡ của chúng.
- Similarity: bao gồm các thuật toán tính toán sự giống nhau của các cặp nodes dựa trên các vùng lân cận hoặc thuộc tính của chúng.
- Path finding: bao gồm các thuật toán tìm đường dẫn giữa hai hoặc nhiều nodes hoặc đánh giá tính khả dụng và chất lượng của đường dẫn.
- Node embedding: bao gồm các thuật toán để tính toán các đặc điểm của các nodes trong graph, các đặc điểm này có thể được sử dụng cho máy học.
- Link prediction: bao gồm các thuật toán xác định mức độ gần gũi của một cặp nodes bằng cách sử dụng cấu trúc liên kết của graph. Điểm số được tính toán sau đó có thể được sử dụng để dự đoán mối quan hệ mới giữa chúng.
Các chỉ số mạng không những được dùng để phân tích về mối quan hệ của các nodes, mà còn là một nguồn features rất có ý nghĩa cho các mô hình học máy khi kết hợp với các features đặc trưng về hành vi của nodes.
Gartner đánh giá graph data sẽ là công nghệ được ứng dụng trong những đổi mới về dữ liệu và phân tích dữ liệu. Graph data đang được ứng dụng trong hầu hết các lĩnh vực, tuy nhiên vẫn còn rất mới tại Việt Nam.
Dưới đây, chúng tôi liệt kê một số bài toán mà công nghệ graph cho phép thực hiện một cách hiệu quả.
360 Customer
Real time recommendations
Next best offer
Segmentation
Churn prediction
Fraud detection
Anti-money laundering
Risk portfolio
Influencer identification
Community detection
Churn prediction
Network optimization
Drug discovery
Cancer analysis
Inventory management
Risk identification
Fraud detection
Criminal invest
Fraud detection
Community detection
Hãy liên hệ với BigBangData để có được tư vấn và giải pháp dữ liệu tốt nhất cho doanh nghiệp của quý khách hàng!