Hiểu về phân tích hồi quy
- AutoReport
- Jul 15, 2023
- 10 min read
(Tác giả: Amy Gallo)
Một trong những loại phân tích dữ liệu quan trọng nhất là hồi quy. Đó là một cách tiếp cận phổ biến được sử dụng để rút ra kết luận và đưa ra dự đoán dựa trên dữ liệu, nhưng đối với những người không có nền tảng thống kê hoặc phân tích, nó cũng có thể phức tạp và khó hiểu.
Để hiểu rõ hơn về phương pháp này và cách các công ty sử dụng nó, tôi đã nói chuyện với Thomas Redman, tác giả của Data Driven: Profiting from Your Most Important Business Asset. Ông cũng tư vấn cho các tổ chức về dữ liệu của họ và các chương trình về chất lượng dữ liệu.
Phân tích hồi quy là gì?
Redman đưa ra kịch bản này: Giả sử bạn là một giám đốc bán hàng đang cố gắng dự đoán doanh số của tháng tới. Bạn biết rằng có hàng chục, thậm chí hàng trăm yếu tố từ thời tiết đến các chương trình khuyến mại của đối thủ cạnh tranh đến tin đồn và cải tiến mô hình có thể tác động đến các con số. Có lẽ những người trong tổ chức của bạn thậm chí có một nhận định nào đó về những gì sẽ có ảnh hưởng lớn nhất đến doanh số. “Hãy tin tôi. Càng có nhiều mưa, chúng ta càng bán được hàng". “Sáu tuần sau khi đối thủ đưa ra khuyến mãi cạnh tranh, doanh số sẽ nhảy vọt’’.
Phân tích hồi quy là một cách sắp xếp toán học xem biến nào trong số đó thực sự có tác động. Nó trả lời các câu hỏi: Yếu tố nào quan trọng nhất? Cái nào chúng ta có thể bỏ qua? Các yếu tố đó tương tác như thế nào với nhau? Và, có lẽ quan trọng nhất, làm thế nào chúng ta có chắc chắn về tất cả những yếu tố này không?
Trong phân tích hồi quy, những yếu tố đó được gọi là biến. Bạn có biến phụ thuộc—yếu tố chính mà bạn đang cố gắng hiểu hoặc dự đoán. Trong ví dụ của Redman ở trên, biến phụ thuộc là doanh số hàng tháng. Và sau đó bạn có các biến độc lập của mình— các yếu tố bạn nghi ngờ có tác động đến biến phụ thuộc của bạn.
Làm thế nào nó hoạt động?
Để tiến hành phân tích hồi quy, bạn thu thập dữ liệu của các biến trong câu hỏi. Bạn lấy tất các doanh số bán hàng hàng tháng của bạn trong ba năm qua và bất kỳ dữ liệu nào trên các biến độc lập mà bạn quan tâm. Trong tình huống này, giả sử bạn cũng tìm ra lượng mưa trung bình hàng tháng trong ba năm qua. Sau đó, bạn vẽ tất cả thông tin đó trên một biểu đồ giống như hình 10-1.
Trục y là doanh số bán hàng (biến phụ thuộc, thứ bạn quan tâm, luôn nằm trên trục y) và trục x là tổng lượng mưa. Mỗi dấu chấm đại diện cho dữ liệu của một tháng—lượng mưa trong tháng đó và bạn đã bán được bao nhiêu trong tháng đó.
Nhìn lướt qua dữ liệu này, bạn có thể nhận thấy rằng doanh số cao hơn vào những ngày trời mưa nhiều. Thật thú vị để biết, nhưng bao nhiêu? Nếu trời mưa 3 inches, bạn có biết bạn sẽ bán bao nhiêu? Nếu mưa 4 inches thì sao?


Bây giờ hãy tưởng tượng vẽ một đường thẳng qua biểu đồ, đại khái là nó chạy ở giữa tất cả các điểm dữ liệu, như thể hiện trong hình 10-2. Đường này sẽ giúp bạn trả lời, với một mức độ chắc chắn, doanh số sẽ đạt bao nhiêu khi trời mưa ở một lượng nhất định.
Đây được gọi là đường hồi quy và nó được vẽ (sử dụng một chương trình thống kê như SPSS hoặc STATA hoặc thậm chí Excel) để hiển thị đường phù hợp nhất với dữ liệu. Nói cách khác, Redman giải thích, “Đường này là lời giải thích tốt nhất về mối quan hệ giữa biến độc lập và biến phụ thuộc.”
Ngoài việc vẽ đường thẳng, chương trình thống kê của bạn còn đưa ra một công thức giải thích độ dốc của đường này và trông giống như thế này:
y = 200 + 5x + sai số
Bây giờ, bỏ qua sai số (thuật ngữ đề cập đến thực tế hồi quy đó không hoàn toàn chính xác). Chỉ cần tập trung vào biểu thức : y = 200 + 5x
Điều mà công thức này muốn nói với bạn là nếu không có x thì y = 200. Vì vậy, trong lịch sử, khi trời không mưa, doanh số trung bình đã thực hiện là 200 đơn vị và bạn có thể mong đợi có thể đạt được tương tự trong tương lai giả sử các biến khác giữ nguyên. Và trong quá khứ, cứ mỗi inch mưa tăng thêm, bạn đã bán được trung bình thêm 5 đơn vị nữa. “Cứ mỗi lần x tăng lên 1 thì y tăng lên 5” Red nói.
Bây giờ hãy quay lại sai số. Bạn có thể là muốn nói rằng mưa có ảnh hưởng lớn đến doanh số bán hàng nếu cứ mỗi inch bạn có thêm 5 đơn vị doanh số, nhưng liệu biến số này có đáng để bạn chú ý hay không sẽ phụ thuộc vào sai số. Một đường hồi quy luôn có một sai số bởi vì, trong cuộc sống thực, các biến độc lập không bao giờ là yếu tố dự đoán hoàn hảo cho các biến phụ thuộc. Hơn thế nữa, đường thẳng đó là một ước tính dựa trên các dữ liệu có sẵn. Vì vậy sai số cho bạn biết mức độ chắc chắn của bạn về công thức. Hệ số này càng lớn, đường hồi quy càng ít chắc chắn.
Ví dụ này chỉ sử dụng một biến để dự đoán yếu tố quan tâm—trong trường hợp này là mưa để dự đoán doanh số. Thông thường, bạn phân tích hồi quy để muốn hiểu tác động của nhiều hơn một biến độc lập. Vì thế bạn có thể bao gồm không chỉ mưa mà cả dữ liệu về khuyến mãi của đối thủ cạnh tranh. “Bạn tiếp tục làm điều này cho đến khi sai số là rất nhỏ,” Redman nói. ‘’Bạn cố gắng làm điều này cho đến khi đường này là phù hợp nhất với dữ liệu của bạn’’. Tuy nhiên, có thể có nguy hiểm khi cố gắng đưa quá nhiều biến vào trong một phân tích hồi quy. Các nhà phân tích lành nghề có thể giảm thiểu những rủi ro này bằng cách xem xét tác động của nhiều biến với nhau và đó là một trong những lợi thế lớn nhất của hồi quy.
Các công ty sử dụng nó như thế nào?
Phân tích hồi quy là “phương pháp để tiếp cận trong phân tích,” Redman nói. Và các công ty thông minh sử dụng nó để đưa ra quyết định về tất cả các loại vấn đề kinh doanh. “Là nhà quản lý, chúng tôi muốn tìm hiểu làm thế nào chúng ta có thể tác động đến doanh số bán hàng hoặc giữ chân nhân viên hoặc tuyển dụng những người giỏi nhất. Nó giúp chúng ta hình dung ra những gì chúng ta có thể làm.”
Hầu hết các công ty sử dụng phân tích hồi quy để giải thích một hiện tượng mà họ muốn hiểu (tại sao các cuộc gọi dịch vụ khách hàng lại giảm vào tháng trước?); để dự đoán những điều về tương lai (việc bán hàng sẽ như thế nào trong thời gian sáu tháng tới?); hoặc để quyết định phải làm gì (chúng ta nên đi với chương trình khuyến mãi này hay một chương trình khuyến mãi khác?).
Liệu mối tương quan ngụ ý nhân quả?
Bất cứ khi nào bạn làm việc với phân tích hồi quy hoặc bất kỳ phân tích cố gắng giải thích tác động của một yếu tố lên yếu tố khác, bạn cần nhớ câu ngạn ngữ quan trọng: Tương quan không phải là nhân quả. Điều này rất quan trọng và đây là lý do tại sao: Thật dễ dàng để nói rằng có một mối tương quan giữa mưa và doanh thu hàng tháng. Hồi quy cho thấy rằng chúng thực sự có liên quan. Nhưng đó là một điều hoàn toàn khác với việc nói rằng mưa gây ra doanh số bán hàng. Trừ khi bạn đang bán ô (dù), thật khó để chứng minh rằng chúng có tính nhân quả.
Đôi khi các yếu tố có mối tương quan, và rõ ràng không được kết nối bởi nguyên nhân và hệ quả, nhưng trong kinh doanh thì nó thường xuyên không quá rõ ràng. Khi bạn thấy mối tương quan từ phân tích hồi quy, bạn không thể đưa ra các giả định, Redman nói. Thay vào đó, “Bạn phải đi ra ngoài và xem những gì đang xảy ra trong thế giới thực. Cơ chế vật lý nào đã gây ra mối quan hệ này?” Đi ra ngoài và quan sát người tiêu dùng mua sản phẩm của bạn khi trời mưa, nói chuyện với họ và tìm hiểu điều gì thực sự khiến họ mua hàng. “Rất nhiều người bỏ qua điều này và tôi nghĩ đó là vì họ lười biếng. Mục tiêu không phải là để tìm ra những gì đang xảy ra trong dữ liệu mà để tìm ra những gì đang xảy ra trên thế giới này. Bạn phải đi ra ngoài và đạp vào vỉa hè, anh ấy nói.
Redman đã từng thực hiện thí nghiệm và phân tích của riêng mình trong để hiểu rõ hơn về mối liên hệ giữa du lịch và tăng cân. Anh ấy nhận thấy rằng khi đi du lịch, anh ấy ăn nhiều hơn và tập thể dục ít hơn. Vậy tăng cân của mình là do du lịch gây ra? Không cần thiết. “Thật tuyệt khi định lượng được những gì đang xảy ra nhưng du lịch không phải là nguyên nhân. Nó có thể có liên quan với nhau” anh ấy nói, nhưng nó không giống như anh ấy đang đi trên đường cân nặng anh ta tăng thêm. Anh ta cần phải hiểu thêm về những gì đã xảy ra trong các chuyến đi của mình. “Trong môi trường mới tôi thường ăn nhiều hơn vì tôi lo lắng". Anh cần xem xét kỹ hơn về mối tương quan. Và đây là lời khuyên của ông dành cho các nhà quản lý. Sử dụng dữ liệu để làm rõ hơn thí nghiệm, không đưa ra kết luận về nhân quả.
Mọi người mắc lỗi gì khi làm việc với Phân tích hồi quy?
Là người sử dụng phân tích hồi quy, có một số những điều bạn cần lưu ý.
Đầu tiên, đừng nói với nhà phân tích dữ liệu của bạn hãy tìm hiểu những gì đang ảnh hưởng đến doanh số bán hàng. “Cách mà hầu hết các phân tích trở nên rối rắm là người quản lý đã không thu hẹp trọng tâm vào những gì anh ta hoặc cô ấy đang tìm kiếm,” Redman nói. Công việc của bạn là xác định các yếu tố mà bạn nghi ngờ đang có tác động và yêu cầu nhà phân tích của bạn xem xét chúng. “Nếu bạn bảo một nhà khoa học dữ liệu đi thám hiểm câu cá, hoặc nói với bạn điều gì đó bạn không biết, thì bạn xứng đáng với những gì bạn nhận được, đó là một phân tích tồi," ông nói. Nói cách khác, đừng hỏi các nhà phân tích xem xét mọi biến số mà họ có thể có tất cả trong cùng một lúc. Nếu bạn làm như vậy, bạn có khả năng tìm thấy những mối quan hệ không thực sự tồn tại.
Ngoài ra, hãy ghi nhớ bạn không thể tác động đến biến độc lập mà bạn đang xem xét. Bạn không thể thay đổi lượng mưa, vì vậy điều quan trọng cần phải hiểu là “Chúng ta không thể làm bất cứ điều gì về thời tiết hoặc khuyến mãi của đối thủ cạnh tranh nhưng chúng ta có thể ảnh hưởng đến chính mình ví dụ như làm khuyến mãi hoặc add thêm các tính năng,” Redman nói. Luôn tự hỏi mình sẽ làm gì với dữ liệu. Hành động gì bạn sẽ thực hiện? Bạn sẽ đưa ra quyết định gì?
Thứ hai, ‘’các phân tích rất nhạy cảm với dữ liệu xấu’’ vì vậy hãy cẩn thận với dữ liệu mà bạn đang thu thập và cách mà bạn đang thu thập nó và liệu là có đáng tin cậy không. “Tất cả dữ liệu không nhất thiết phải chính xác hoặc hoàn hảo,” Redman giải thích, nhưng hãy cân nhắc xem những gì mà bạn phải làm làm với phân tích này. Nếu các quyết định bạn sẽ đưa ra với một kết quả không có tác động lớn đến doanh nghiệp của bạn, thì nó sẽ không sao nếu dữ liệu "bị rò rỉ". Nhưng, “nếu bạn đang cố gắng quyết định nên xây dựng 8 hay 10 thứ gì đó và mỗi cái tốn 1 triệu đô la để xây dựng, thì đó là vấn đề lớn hơn, ” anh ta nói. Redman cũng nói rằng một số nhà quản lý mới tìm hiểu về phân tích hồi quy phạm sai lầm của việc bỏ qua sai số. Điều này là nguy hiểm bởi vì họ đang tạo ra mối quan hệ giữa hai biến mà chắc chắn hơn chính chúng. “Thường thì sau khi có kết quả các nhà quản lý nghĩ, 'Thật tuyệt, hãy tiếp tục sử dụng những điều này ‘’. Nhưng hãy nhớ rằng kết quả là luôn luôn không chắc chắn. Như Redman đã chỉ ra, “Nếu hồi quy giải thích được 90% mối quan hệ, thì điều đó thật tuyệt. Nhưng nếu nó chỉ giải thích 10% và bạn hành động như thể nó là 90%, thì đó không phải là Tốt." Quan trọng của phân tích là định lượng chắc chắn rằng một cái gì đó sẽ xảy ra. “Nó không nói với bạn mưa sẽ ảnh hưởng đến doanh số bán hàng của bạn như thế nào, nhưng nó cho bạn biết khả năng / xác suất mưa có thể ảnh hưởng đến doanh số bán hàng của bạn.
Sai lầm cuối cùng, mà Redman cảnh báo là để dữ liệu thay thế trực giác của bạn. “Bạn luôn phải đặt trực giác trên đầu trang của dữ liệu’’ anh ấy giải thích. Tự hỏi bản thân minh liệu kết quả có phù hợp với sự hiểu biết của bạn về tình huống đó. Và nếu bạn thấy một cái gì đó vô lý, hãy hỏi xem dữ liệu có đúng hay không hay có một sai số lớn. Redman đề nghị đưa cho các quản lý có nhiều kinh nghiệm hơn hoặc so sánh các phân tích khác nếu bạn thấy nó vô lý. Và, anh ấy nói, đừng bao giờ quên nhìn xa hơn những con số để biết những gì đang xảy ra bên ngoài văn phòng của bạn: “Bạn cần kết hợp bất kỳ phân tích nào với nghiên cứu về thế giới thực. Các nhà khoa học giỏi nhất và các nhà quản lý - hãy nhìn vào cả hai.”
Comments