Phân tích dữ liệu được chia làm hai chủ đề lớn: Business Intelligence và Advanced Analytics.
Business Intelligence (BI) là chiến lược và công nghệ được doanh nghiệp sử dụng để phân tích dữ liệu để quản lý thông tin kinh doanh, vận hành dựa trên các reports, dashboards.
Advanced Analytics là quá trình phân tích dữ liệu bằng cách sử dụng các kỹ thuật và công cụ tinh vi, thường vượt ra ngoài các kỹ thuật và công cụ kinh doanh truyền thống (BI), để khám phá thông tin chi tiết hơn, sâu hơn, đưa ra dự đoán hoặc đưa ra các đề xuất.
Dựa trên mục tiêu, phân tích dữ liệu được chia thành năm cấp độ phân tích như hình bên.
Phân tích mô tả nhằm mục đích trả lời câu hỏi: Hiện trạng đã và đang diễn ra như thế nào?
Phân tích chuẩn đoán nhằm mục đích trả lời câu hỏi: Tại sao vấn đề đã xảy ra?
Phân tích dự đoán nhằm mục đích trả lời câu hỏi: Sự kiện gì có thể xảy ra trong tương lai?
Phân tích đề xuất nhằm mục đích trả lời câu hỏi: Phương án hành động nào tối ưu nhất mà chúng ta nên làm?
Phân tích nhận thức mô phỏng não người để đưa ra các kết quả như con người suy nghĩ.
Hai phân tích đầu thuộc về phạm trù của BI, các phân tích sau được xếp vào nhóm Advanced Analytics.
Phân tích mô tả là loại hình phân tích đơn giản nhất và là cơ sở để phát triển các loại phân tích khác. Phân tích mô tả sử dụng dữ liệu quá khứ để thống kê, tính toán các chỉ số, đại lượng quan trọng trong quản lý, kinh doanh; từ đó đưa ra các thông tin có ý nghĩa (insights) về tình hình hoạt động quản lý, kinh doanh đã và đang diễn ra như thế nào.
Phân tích này thường sử dụng các phương pháp thống kê như tính: sum, mean, median, mode, standard deviation,...; và sử dụng các phương pháp truyền đạt thông tin thông qua trực quan hóa dữ liệu như biểu đồ, đồ thị và bản đồ để hiển thị các xu hướng trong dữ liệu một cách rõ ràng, dễ hiểu.
Với sự phát triển của công nghệ, hiện nay các kết quả của phân tích mô tả có thể được cập nhật tự động hóa và tức thời (realtime) hoặc gần tức thời (near realtime) mà chúng ta gọi là Báo cáo thông minh.
Kiến trúc của hệ thống Báo cáo thông minh như sau. (Sử dụng con trỏ để xem chi tiết.)
Các dữ liệu cần thiết để thực hiện xây dựng báo cáo sẽ được thu thập từ các nguồn dữ liệu về một nơi lưu trữ dạng cơ sở dữ liệu quan hệ (SQL database ), gọi là data warehouse.
Dữ liệu trên data warehouse được tổng hợp và tổ chức theo các lĩnh vực như nhân sự, tài chính, bán hàng, khách hàng, vv, gọi là các datamarts. Các datamarts sẵn sàng cho việc tạo ra các báo cáo.
Các công cụ được tích hợp và sử dụng dữ liệu để xây dựng báo cáo thông minh. Hiện nay có rất nhiều công cụ báo cáo thông minh như PowerBI, Tableau, Qlick, Metasabe, Superset, vv.
Toàn bộ hệ thống này sẽ hoạt động tự động và liên tục cập nhật dữ liệu theo nhu cầu quản lý của doanh nghiệp.
Nếu như phân tích mô tả cho chúng ta cái nhìn về các xu hướng và sự kiện gì đang diễn ra thì phân tích chuẩn đoán sẽ tập trung phân tích để xác định nguyên nhân gốc rễ của các xu hướng và sự kiện đó; ví dụ như các sự việc bất thường như doanh thu giảm đột ngột, tăng chi phí quá nhiều hay sự thay đổi mạnh mẽ trong hành vi tiêu dùng của khách hàng. Kết quả của phân tích dự đoán giúp các doanh nghiệp hiểu rõ được bản chất của vấn đề để từ đó đưa ra những quyết định sáng suốt hơn về cách giải quyết vấn đề và đạt được thành công lớn hơn trong kinh doanh.
Để truy tìm ra được các nguyên nhân, phân tích chuẩn đoán sử dụng nhiều kĩ thuật đa dạng để thực hiện các phân tích sâu và phức tạp với dữ liệu, thậm chí các dữ liệu mới có thể phải đưa vào để phân tích thêm nhằm tìm ra nguyên nhân thật sự.
Các kĩ thuật chính thường sử dụng trong phân tích chuẩn đoán như: data drilling, data mining và correlation analysis.
Phân tích dự đoán là loại hình phân tích dữ liệu nâng cao cố gắng trả lời câu hỏi: Điều gì có thể xảy ra trong tương lai?
Ngày nay, sự phát triển của dữ liệu lớn (Big Data) cho phép chúng ta khai thác đồng thời nhiều nguồn dữ liệu phong phú và phức tạp, do đó cho phép tăng cường các hoạt động khai thác, khám phá dữ liệu để cung cấp những hiểu biết mang tính dự đoán tốt hơn. Bên cạnh dữ liệu lớn, những tiến bộ trong học máy cũng đã giúp mở rộng khả năng phân tích dự đoán ngày càng chính xác hơn.
Kết quả của phân tích dự đoán rất cần thiết và quan trọng trong tất cả các lĩnh vực đời sống. Ví dụ, ngành bán lẻ cần dự đoán khách hàng sẽ có xu hướng mua sản phẩm gì tiếp theo, ngành y tế có thể phân loại bệnh từ hình ảnh chụp của bệnh nhân, các hoạt động giám sát gian lận, rủi ro có thể được dự đoán tức thời và đưa ra cảnh báo kịp thời cho người giám sát, vv.
Phân tích dự đoán được thực hiện với các bước lần lượt như sau:
Tìm hiểu yêu cầu (Business Understanding)
Tìm hiểu dữ liệu (Data Understanding)
Chuẩn bị dữ liệu (Data Preparation)
Xây dựng mô hình (Modeling)
Đánh giá mô hình (Evaluation)
Triển khai mô hình (Deployment)
CRoss Industry Standard Process for Data Mining (CRISP-DM)
Chi tiết các bước được mô tả dưới đây. (Sử dụng dấu trỏ để xem chi tiết.)
Business Understanding
Trước hết nhà khoa học dữ liệu cần trao đổi với người làm quản lý, kinh doanh, nghiệp vụ để hiểu được yêu cầu của bài toán. Ví dụ có thể dự đoán được sản phẩm nào khách hàng đang/sắp mong muốn để chủ động, tập trung chào bán cho khách hàng không? Có thể dự đoán được các hành vi gian lận, rửa tiền trong hệ thống chuyển tiền không? Việc xác định rõ yêu cầu dự đoán và hiểu rõ nghiệp vụ sẽ giúp các nhà khoa học xác định được phương pháp phân tích dự đoán nào nên được sử dụng.
Data Understanding
Doanh nghiệp có thể có rất nhiều dữ liệu lịch sử khác nhau, lưu trữ trong các nguồn khác nhau. Các kĩ sư dữ liệu, nhà khoa học dữ liệu cần phải hiểu các nguồn dữ liệu và ý nghĩa của dữ liệu, sau đó thu thập dữ liệu về một nơi tập trung, ví dụ data warehouse, datalake, vv) để chuẩn bị sẵn sàng khai phá, phân tích xem dữ liệu có ý nghĩa như thế nào, chất lượng có đáp ứng xây dựng mô hình không.
Data Preparation
Dữ liệu thô mà chúng ta thu thập ít khi có ý nghĩa về mặt dự đoán, mà cần tổng hợp để xây dựng thành các đại lượng có ý nghĩa làm đầu vào cho các thuật toán và về mặt chuyên môn thường gọi là features.
Trước khi các thuật toán sử dụng các features này, các features cần được tiền xử lý; ví dụ như thay thế các giá trị thiếu (missing values), chuẩn hóa các giá trị bất thường (outliers), số hóa các features có giá trị là danh mục (categories), chuẩn hóa features, vv. Quá trình tiền xử lý đảm bảo tránh được các lỗi khi xây dựng mô hình, tối ưu khả năng tính toán, cũng như nâng cao khả năng chính xác của mô hình.
Modeling
Đây là bước áp dụng các thuật toán (algorithms) lên các dữ liệu đã được chuẩn bị (features) để tìm ra mô hình tốt nhất. Có rất nhiều kĩ thuật khác nhau như machine learning, regression models, decision trees, vv. để xây dựng mô hình. Các nhà khoa học dữ liệu có thể thử nghiệm với các kĩ thuật khác nhau để tìm ra mô hình tốt nhất đối với bản chất của tập dữ liệu mà họ nghiên cứu và phù hợp nhất cho bài toán của họ.
Evaluation
Bước này kiểm tra độ chính xác của mô hình; điều chỉnh cho phù hợp và giải thích với đơn vị kinh doanh.
Deployment
Nếu kết quả của mô hình được chấp nhận, mô hình sẽ được triển khai lên hệ thống để có thể thực hiện các hoạt động dự đoán cho các dữ liệu mới và kết quả của mô hình được truyền tải đến các ứng dụng cần sử dụng kết quả dự đoán đó.
Phân tích dự đoán sử dụng các kĩ thuật như: statistical modelling, machine learning, data mining hay game theory.
Các kĩ thuật được chia thành các nhóm cơ bản như sau.
Regression models
Classification models
Clustering models
Time-series models
Các kĩ thuật được giải thích chi tiết dưới đây. (Sử dụng dấu trỏ để xem chi tiết.)
Regression Models
Các mô hình hồi quy ước tính mức độ ảnh hưởng của các yếu tố (tức biến độc lập) tác động đến giá trị của một đại lượng nào đó (biến phụ thuộc). Như vậy, chúng ta có thể sử dụng phương pháp này để dự đoán giá trị của đại lượng phụ thuộc trong tương lai khi biết thông tin về các yếu tố ảnh hưởng.
Ví dụ, chúng ta có thể dự đoán được lượng kem bán ra phụ thuộc vào nhiệt độ, giá bán, vv.
Classification Models
Mô hình phân loại nhằm mục đích phân loại dữ liệu. Việc xây dựng mô hình phân loại bắt đầu với một tập dữ liệu huấn luyện, trong đó dữ liệu đã được gắn nhãn. Các thuật toán sẽ tìm và học sự khác biệt của dữ liệu của các loại nhãn khác nhau, nhằm tạo ra cơ sở để phân biệt chúng. Mô hình sau đó được sử dụng để phân loại các dữ liệu mới.
Các thuật toán học máy như Random Forest, Suppor Vector Machine, vv. thực hiện các mô hình phân loại này và được xếp vào nhóm Học máy có giám sát (Supervised Machine Learning).
Ví dụ, phân loại tức thời giữa các cuộc tấn công mạng thật và các cuộc tấn công giả để đưa ra cảnh báo cho người giám sát an ninh.
Clustering models
Các thuật toán của mô hình phân cụm sẽ gán dữ liệu vào các nhóm, mà mỗi nhóm có các thuộc tính tương tự. Đối với các thuật toán phân cụm này, dữ liệu không cần gán nhãn; thuật toán sẽ tự động nhóm dữ liệu vào các nhóm có đặc điểm giống nhau một cách tối ưu nhất. Các thuật toán này được gọi là Học máy không giám sát (Unsupervised Machine Learning).
Các doanh nghiệp, nhất là doanh nghiệp bán lẻ thường thực hiện phân cụm khách hàng dựa trên hành vi và đặc điểm của khách hàng nhằm hiểu được chân dung các tập khách hàng doanh nghiệp đang có, từ đó xác định được tập khách hàng nào là mục tiêu của của doanh nghiệp. Phân cụm để tìm ra các tập khách hàng tiềm năng nhằm thực hiện các chiến dịch bán hàng.
Time-series models
Dự báo chuỗi thời gian là một kỹ thuật dự đoán các sự kiện theo trình tự thời gian. Các sự kiện trong tương lai được dự đoán bằng cách phân tích các xu hướng trong quá khứ, với giả định rằng các xu hướng trong tương lai sẽ tương tự như các xu hướng lịch sử.
Kĩ thuật này sử dụng dữ liệu lịch sử theo chuỗi thời gian và phân rã dữ liệu theo thời gian, chẳng hạn như xu hướng, mô hình theo mùa vụ, mô hình tuần hoàn, tính đều đặn,...; và có thể đưa thêm vào các yếu tố ngoại vi để xây dựng mô hình.
Kĩ thuật này được sử dụng nhiều trong các lĩnh vực kinh tế vĩ mô, tài chính và bán hàng; ví dụ, dự báo tăng trưởng kinh tế, xu hướng tiêu dùng, vv.
Phân tích đề xuất dựa vào kết quả của các loại phân tích trên và xem xét tất cả các yếu tố liên quan để đưa ra khuyến nghị về giải pháp hành động tốt nhất. Do đó, loại phân tích này có thể đặc biệt hữu ích khi đưa ra quyết định dựa trên dữ liệu.
Một số kĩ thuật thường được sử dụng trong Phân tích đề xuất:
Optimization techniques
Các kỹ thuật tối ưu hóa đóng một vai trò quan trọng trong phân tích đề xuất, vì chúng cho phép đưa ra một tập hợp các quyết định theo cách tối ưu. Những kỹ thuật này được áp dụng cho một mô hình thể hiện các quyết định được đưa ra, các ràng buộc đối với các quyết định và mục tiêu để so sánh các quyết định.
Rules-based techniques
Các kỹ thuật dựa trên quy tắc bao gồm inference engines, score cards, decision trees được sử dụng để đưa ra quyết định.
Monte Carlo simulation
Mô phỏng Monte Carlo là một kỹ thuật được sử dụng để thực hiện phân tích độ nhạy, nghĩa là nghiên cứu cách một mô hình phản ứng với các đầu vào được tạo ngẫu nhiên.
Là loại phân tích kết hợp một số công nghệ thông minh, bao gồm deep learning models, machine learning algorithms, và artificial intelligence để mô phỏng bộ não con người và cung cấp kết quả tương tự như cách con người suy nghĩ. Phân tích nhận thức phân tích và xử lý một lượng lớn dữ liệu và các dữ liệu đa dạng như văn bản, âm thanh, hình ảnh, video.
Năng lực của phân tích nhận thức được đánh giá là rất mạnh, có thể cung cấp câu trả lời theo thời gian thực với khả năng tìm kiếm thông qua lượng thông tin khổng lồ và hiểu được bối cảnh cũng như tính toán câu trả lời có khả năng xảy ra nhất. Vì vậy mà lợi ích của phân tích này rất đáng kể, mở ra cơ hội khai thác các nguồn dữ liệu chưa được khai thác; cung cấp các dịch vụ mang tính cá nhân hóa cao; cải thiện tính nhất quán và chất lượng dịch vụ; và tăng cường và mở rộng việc chia sẻ kiến thức. Chính vì vậy, phân tích này có thể tạo ra lợi thế cạnh tranh cho doanh nghiệp.
Hiểu rõ sự khác nhau giữa các loại phân tích sẽ giúp chúng ta dễ dàng xác định được các bài toán của doanh nghiệp mình sẽ được giải quyết bằng phương pháp nào.
Hãy liên hệ với BigBangData để có được sự tư vấn và giải pháp dữ liệu tốt nhất cho doanh nghiệp của quý khách hàng!