EDA là gì? Mục đích của việc sử dụng Exploratory Data Analyst

Các nhà phân tích dữ liệu thường sử dụng nhiều loại kỹ thuật trong EDA, trong đó, các loại kỹ thuật được phân thành 3 nhóm chính gồm: Phân tích đơn biến, phân tích hai biến và phân tích đa biến.

1. Phân tích đơn biến

Phân tích đơn biến được thực hiện với mục đích là hiểu được sự phân bổ của các giá trị cho một biến duy nhất. Dữ liệu đơn biến không theo loại dữ liệu cụ thể mà được phân theo mục đích sử dụng hoặc bản chất riêng. Để phân tích một tập dữ liệu, các loại kỹ thuật phân tích đơn biến sẽ được sử dụng tùy thuộc vào các loại biến đề cập. Một số dạng biểu đồ được sử dụng nhiều trong phân tích đơn biến như:

Các kỹ thuật phân tích chủ yếu được dùng trong EDA

2. Phân tích hai biến

Phân tích hai biến là phương pháp kiểm tra sự liên quan giữa hai dữ liệu khác nhau, cách thức để xác định xem có mối liên hệ nào giữa hai biến hay không, nếu có thì mối liên hệ đó mạnh đến mức nào và thể hiện theo hướng nào. Đây là một kỹ thuật phân tích giúp xác định cách kết nối giữa hai biến và tìm ra xu hướng trong dữ liệu. Các dạng biểu đồ phổ biến được sử dụng cho phân tích hai biến như:

3. Phân tích đa biến

Phân tích đa biến kỹ thuật phân tích ở cấp độ phức tạp hơn, được sử dụng khi có nhiều hơn hai biến trong tập dữ liệu. Phân tích đa biến giúp giảm thiểu và đơn giản hóa dữ liệu mà không làm mất bất kỳ chi tiết quan trọng nào trong tập dữ liệu. Điều quan trọng nhất trong phương pháp này là phải hiểu mối quan hệ giữa các biến dự đoán hành vi của các biến dựa trên quan sát. Phân tích đa biến thường sử dụng các dạng biểu đồ như sau:

Phân tích đa biến

Link nội dung: https://khoaqhqt.edu.vn/eda-la-gi-a60513.html