如何計算協方差

協方差是統計學中使用的一種數值,用於描述兩個變量間的線性關係。兩個變量的協方差越大,它們在一系列數據點範圍內的取值所呈現出的趨勢就越相近(換句話說,兩個變量的曲線距離彼此較近)。一般來說,兩組數值x和y的協方差可以用這個公式計算:1/(n -1)Σ(x- x)(y- y)。其中n爲樣本量,x是每個x點的取值,x爲x的平均值,y和y也類似。

使用標準方差公式

(01)把你的數據整理成一系列(x,y)取值點。你只需要兩個變量x和y的一系列取值就可以計算出方差。如果你使用的是一個圖上的數據點,你的數據應該來自圖上的一系列(x,y)交點。或者,則需要通過數學方法找出兩個變量的一一對應值。記下相對應的x/y數據對的數量。這就是“n”,即樣本大小,計算方差時需要用到。舉個例子,假設我們開了一家熟食店,需要確定所發出的優惠券是否會對銷量產生影響。我們可以將x定義爲“在優惠日發放出去的優惠券數量”,將y定義爲“當日銷量”。爲了方便起見,我們使用上圖中的表格作爲參考,即,第一天我們發放出x=1優惠券,賣出y=8,第二天發放x=3優惠券,賣出y=6,等等。

如何計算協方差

(02)計算x的平均值。在得到一系列x/y取值之後,剩下的工作就不多了。首先計算x的平均值,將所有的x值相加再除以樣本量(進一步參考我們關於計算平均值的文章)。在我們的例子中,我們需要將上表中“x”欄中的數值相加,再除以數值的個數。計算1+3+2+5…,最終得到44。再除以9,得到44/9 =4.89就是x的平均值。見下:1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 4444/9 =4.89

如何計算協方差 第2張

(03)計算y的平均值。下一步是計算y的平均值,和計算x的平均值方法一樣:把y的值相加,除以樣本量。在我們的例子中,應該計算8+6+9+4...得到49。除以樣本量,得到49/9 =5.44即爲y的平均值。見下:8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 4949/9 =5.44

如何計算協方差 第3張

(04)將計算出的值代入公式中:1/(n-1)Σ(x- x)(y- y)。注意公式中的sigma(Σ)符號,意思是每個x值都要減去平均值,再加起來(y也一樣)。計算量比較大,所以需要非常仔細,避免出錯。在我們的例子中,需要如下計算:1/(n -1)Σ(x- x)(y- y)(1/8)(((1 - 4.89)+(3 - 4.89)+(2 - 4.89)+(5 - 4.89)+(8 - 4.89)+(7 - 4.89)+(12 - 4.89)+(2 - 4.89)+(4 - 4.89))((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))(1/8)((-0.01)((8 - 5.44)+(6 - 5.44)+(9 - 5.44)+(4 - 5.44)+(3 - 5.44)+(3 - 5.44)+(2 - 5.44)+(7 - 5.44)+(7 - 5.44))(1/8)(-0.01)(0.04) =0.00005下文會提到,我們的答案0.00005非常接近0,意味着發放出的優惠券數量對熟食店的銷量在實質上沒有影響。

如何計算協方差 第4張

使用協方差值

(01)協方差值等於1意味着完全正相關。協方差值永遠介於1和-1之間。在這個範圍外的值說明計算出錯了。根據協方差值接近1或-1的程度得出結論。例如,如果協方差值正好等於1,則兩個變量完全正相關。也就是說,一個變量會隨着另一個變量的增加而增加(減少而減少)。這種關係是完全線性的——無論變量取值多大或多小,兩個變量之間的關係都一樣。舉個例子,考慮出售檸檬水這一簡單的生意。每杯檸檬水賣3元。如果x代表賣出的檸檬水杯數,y代表收入,則y永遠會隨着x的增加而增加。見下:賣出10杯檸檬水:x = 10, y = ¥30賣出100杯檸檬水:x = 100, y = ¥300賣出一百萬杯檸檬水:x = 1,000,000, y = ¥3,000,000無論x值多大,y永遠等於3(x)。因此,可以說x和y完全正相關,也就是相關係數等於1。

如何計算協方差 第5張

(02)協方差值等於-1意味着完全負相關。另一方面,如果協方差值爲-1,則兩個變量完全負相關。換句話說,一個變量的增加會導致另一個變量減小,反之亦然。跟上文一樣,這個關係也是線性的。兩個變量分離的比率不隨時間變化。舉個例子,假設我們正在管理一個油井,總共能鑽出一萬桶油。x等於已經鑽出的桶數,y等於還在油井裏的桶數,那麼只要x增加,y就減小。換句話說,已經鑽出來的油絕對不可能回到井內。見下:鑽出一桶油: x = 1, y = 9,999已鑽出2000桶油:x = 2,000, y = 8,000。已鑽出10000桶油:x = 10,000, y = 0。只要x增加,y就以相同的速率減少。這個關係是線性的——每鑽出一桶油就意味着地下的油少了一桶。因此我們說x和y完全負相關,也就是說相關係數爲-1。

(03)要知道協方差爲0意味着不相關。如果協方差爲0,說明兩個變量不相關。換句話說,我們不會預測一個變量增加或減少將導致另一個變量的增加或減少。兩個變量間沒有線性關係,但仍然可能存在非線性關係。舉個例子,假設一個人正在接受針對一種病毒性疾病的順勢療法。如果x表示用藥劑量(以茶匙計),y表示病人血管中的病毒載量(以每毫升國際單位(IU/mL)計),我們沒法預測y會隨着x的增加而增加或減少。y的波動與x完全獨立。見下:攝入一茶匙:x = 1, y = 615。攝入10茶匙:x = 10 y = 700。攝入20茶匙:x = 20, y = 455。x增加,無法預測y會增加還是減少。兩者之間的關係不明——有時候攝入藥量多,會使得病毒載量減少,但有時候會使得病毒載量增加。因此,我們可以認爲x和y幾乎不相關。

如何計算協方差 第6張

(04)要知道介於-1和1之間的值意味着不完全相關。大部分協方差值都不會嚴格等於1,-1或0,通常會介於它們之間。根據一個協方差值接近某一個基準值的程度,可以判斷其是正相關還是負相關。例如,協方差值0.8意味着高度正相關,儘管不是完全相關。也就是說,如果x增加,y通常會增加,x減小,y通常會減小,儘管這個關係不是完全穩定的。

如何計算協方差 第7張

特別提示

閱讀關於散點圖的文章和計算相關係數的文章,可以得到相關信息。

協方差方程往往用於對比股票——投資者希望知道某兩隻股票會不會隨着彼此波動。要回答這個問題,你只需要一張對比兩隻股票在一段時間內每日走勢的表,見下:<br/><br/>A公司(x): (1.6 + 1.9 + 2.1 + 3.2 + 0.5 + 0.4 + 0.6)/7 = 1.47<br/>B公司(y): (2.0 + 2.4 + 2.6 + 3.6 + 0.9 + 0.8 + 1.0)/7 = 1.9<br/><br/>(1/n-1)(Σ(x- x)(y- y)<br/><br/>(1/6)(((1.6 - 1.47)+(1.9 - 1.47)+(2.1 - 1.47)+(3.2 - 1.47)+(0.5 - 1.47)+(0.4 - 1.47)+(0.6 - 1.47))((2.0 - 1.78)+(2.4 - 1.78)+(2.6 - 1.78)+(3.6 - 1.78)+(0.9 - 1.78)+(0.8 - 1.78)+(1.0 - 1.78))<br/><br/>(1/6)((0.01)(0.84))<br/><br/>(1/6)(0.084) =0.14。