Các nhà phân tích dữ liệu thường sử dụng nhiều loại kỹ thuật trong EDA, trong đó, các loại kỹ thuật được phân thành 3 nhóm chính gồm: Phân tích đơn biến, phân tích hai biến và phân tích đa biến.
1. Phân tích đơn biến
Phân tích đơn biến được thực hiện với mục đích là hiểu được sự phân bổ của các giá trị cho một biến duy nhất. Dữ liệu đơn biến không theo loại dữ liệu cụ thể mà được phân theo mục đích sử dụng hoặc bản chất riêng. Để phân tích một tập dữ liệu, các loại kỹ thuật phân tích đơn biến sẽ được sử dụng tùy thuộc vào các loại biến đề cập. Một số dạng biểu đồ được sử dụng nhiều trong phân tích đơn biến như:
- Histograms (Biểu đồ phân phối): Histogram hiển thị tần suất của từng giá trị hoặc nhóm giá trị trong dữ liệu số, xác định đỉnh, đuôi và các thông số thống kê liên quan.
- Boxplot (Biểu đồ hộp): Một Boxplot sẽ cung cấp một số thông tin quan trọng như phần tối thiểu, giá trị tối đa, giá trị trung vị,... Boxplot còn được sử dụng để xác định các dữ liệu ngoại lệ.
- Bar Chart (Biểu đồ cột): Chủ yếu là biểu đồ thanh tần số, được sử dụng để so sánh giá trị của các biến rời rạc và tìm tần suất của các phân loại dữ liệu khác nhau.
- Pie Chart (Biểu đồ tròn): Biểu đồ tròn truyền tải thông tin như biểu đồ cột, khác biệt nằm ở cách thể hiện, với mỗi phần trong hình tròn là biểu thị tỷ lệ của từng danh mục trong dữ liệu.
2. Phân tích hai biến
Phân tích hai biến là phương pháp kiểm tra sự liên quan giữa hai dữ liệu khác nhau, cách thức để xác định xem có mối liên hệ nào giữa hai biến hay không, nếu có thì mối liên hệ đó mạnh đến mức nào và thể hiện theo hướng nào. Đây là một kỹ thuật phân tích giúp xác định cách kết nối giữa hai biến và tìm ra xu hướng trong dữ liệu. Các dạng biểu đồ phổ biến được sử dụng cho phân tích hai biến như:
- Scatterplots (Biểu đồ phân tán): Biểu đồ phân tán cho biết hai biến có liên quan như thế nào. Thể hiện các giá trị của một biến trên trục X và các giá trị khác của biến trên trục Y.
- Correlation (Biểu đồ tương quan): Hệ số tương quan là phép đo thể hiện mức độ mạnh và định hướng của hai biến được liên kết. Mối tương quan tích cực là khi một biến tăng lên, biến còn lại cũng tăng theo. Mối tương quan tiêu cực là khi một biến tăng lên, biến còn lại sẽ giảm.
- Regression (Biểu đồ phân tích hồi quy): Trong biểu đồ hồi quy, trục X đại diện cho biến độc lập và trục Y đại diện cho biến phụ thuộc. Khi các điểm được thể hiện trên biểu đồ, một đường hồi quy sẽ được vẽ để ước lượng mối quan hệ tuyến tính giữa hai biến.
3. Phân tích đa biến
Phân tích đa biến kỹ thuật phân tích ở cấp độ phức tạp hơn, được sử dụng khi có nhiều hơn hai biến trong tập dữ liệu. Phân tích đa biến giúp giảm thiểu và đơn giản hóa dữ liệu mà không làm mất bất kỳ chi tiết quan trọng nào trong tập dữ liệu. Điều quan trọng nhất trong phương pháp này là phải hiểu mối quan hệ giữa các biến dự đoán hành vi của các biến dựa trên quan sát. Phân tích đa biến thường sử dụng các dạng biểu đồ như sau:
- Multivariate distribution plot (Biểu đồ phân phối đa biến): Biểu đồ này cho phép xem kết quả phân phối của nhiều biến đồng thời, được hiển thị dưới dạng 2D hoặc 3D về mật độ phân phối và sự mối liên hệ giữa các biến.
- Scatterplot matrix (Biểu đồ phân tán ma trận): Biểu đồ thể hiện được sự phân phối và mối quan hệ giữa các biến do các cặp tương quan giữa các biến đã được hiển thị đầy đủ.
- Boxplot matrix (Biểu đồ hộp đa biến): Biểu đồ thể hiện sự phân bổ đặc trưng của các biến đồng thời để so sánh và tìm ra điểm khác biệt giữa các dữ liệu.