top of page

HÃY THẬN TRỌNG TƯƠNG QUAN GIẢ

(Tác giả: Amy Gallo)

Tất cả chúng ta đều biết sự thật “Tương quan không ngụ ý quan hệ nhân quả”, nhưng khi chúng ta thấy các đường thẳng dốc với nhau, các thanh tăng cùng nhau hoặc các điểm trên một cụm biểu đồ phân tán, dữ liệu thực tế yêu cầu chúng ta chỉ định một lý do. Chúng ta muốn tin rằng có một cái gì đó đang tồn tại.

Tuy nhiên, theo thống kê, chúng ta không thể thực hiện bước nhảy vọt đó. Các biểu đồ cho thấy mối tương quan chặt chẽ thường dựa vào trên thủ thuật trực quan để chỉ ra một mối quan hệ. Tyler Vigen, một sinh viên JD tại Trường Luật Harvard và là tác giả của Những mối tương quan giả mạo - Spurious Correlations, đã biến điều này thành trò cười trên trang web của anh ấy, nơi lập biểu đồ các mối tương quan kỳ lạ — ví dụ, giữa mức tiêu thụ bơ thực vật bình quân đầu người của Hoa Kỳ và tỷ lệ ly hôn ở Maine.

Vigen đã lập trình trang web của mình để bất kỳ ai cũng có thể tìm và lập biểu đồ các mối tương quan vô lý trong các tập dữ liệu lớn. Chúng tôi đã thử một vài thứ của riêng mình và nghĩ ra được một số thứ thú vị ở bên dưới:

ree

hoặc

ree

Mặc dù rất dễ phát hiện và giải thích những ví dụ ngớ ngẩn như thế này, nhưng bạn có thể gặp phải những biểu đồ gian lận nhưng hợp lý trong công việc hàng ngày của mình. Dưới đây là ba loại cần chú ý:


Táo và Cam so sánh các biến khác nhau

Thang đo trục Y đo các giá trị khác nhau có thể hiển thị các đường cong tương tự không nên được ghép chung. Điều này trở thành nguy hiểm khi các giá trị dường như có liên quan nhưng không phải vậy

ree

Tốt nhất là nên chia ra làm 2 biểu đồ cho chúng

ree

Tỷ lệ sai lệch : Thao túng phạm vi (range) để tương thích với dữ liệu

Ngay cả khi các trục Y đo cùng một loại (cùng đơn vị), việc thay đổi tỷ lệ có thể làm thay đổi các đường để gợi ý mối tương quan. Hai trục y với chênh lệch doanh thu hàng tháng khác nhau trong phạm vi và mức tăng theo tỷ lệ

ree

Loại bỏ đi cột đo y thứ 2 này, chúng ta sẽ thấy mức độ sai lệch của 2 chart này như thế nào

ree

Nếu và sau đó : Ám chỉ nguyên nhân và hệ quả

Vẽ sơ đồ các tập dữ liệu không liên quan với nhau có thể làm cho nó có vẻ như những thay đổi trong một biến đang gây ra những thay đổi trong biến khác.

ree

Chúng tôi cố gắng tạo ra một câu chuyện—nếu Pandora mất tiền ít hơn, sau đó sẽ có nhiều âm nhạc có bản quyền hơn – điều này có lẽ là một sự trùng hợp ngẫu nhiên

ree


















Comments


VR Goggles

Practice makes perfect

Sign up for our newsletter

Thanks for subscribing!

Contact Us

Thu Duc, HCM city

  • Slack
  • Twitter
  • Linkedin
  • Facebook

© 2023 by Finclvr. Powered and secured by Microsoft

bottom of page