Multipel logistisk regression spss

Strunta för ett ögonblick i vad koefficienten faktiskt är, utan notera bara om det står ett minustecken framför den. Det gör det i det här fallet. Det innebär, precis på samma sätt som i linjär regression, att den oberoende variabeln har en negativ effekt på den beroende variabeln. Signifikansen tolkas på samma sätt som i linjär regression. Vi har nu kommit ganska långt i vår frågeställning.

Vi kan nu säga att ju mer demokratiskt ett land är, desto mindre sannolikhet är det att man i landet tar politiska fångar. Men hur stor är effekten? För att få reda på det behöver vi göra lite ytterligare beräkningar. Det första vi kan göra är att undersöka den förväntade sannolikheten grafiskt. Vi har nu sagt till SPSS att vi vill ha ut varje analysenhets förväntade sannolikhet att ha värdet 1 på den beroende variabeln, givet vad analysenheten har för värde på den oberoende variabeln.

Länder som är mer demokratiska ska alltså ha en lägre sannolikhet. Bild 6. Hur man sparar förväntade sannolikheter. Vi ska nu göra en scatterplot , där vi sätter de förväntade sannolikheterna på Y-axeln, och den oberoende variabeln på X-axeln. Den kommer se ut som i Bild 7. Bild 7. Graf över förväntade sannolikheter vid olika värden på den oberoende variabeln.

Som förväntat ser vi en kurva som sluttar nedåt. De länder som har värdet 0 på den oberoende variabeln, alltså de minst demokratiska länderna, har en förväntad sannolikhet på över 0,9. Det är alltså mer än 90 procents sannolikhet att de tar politiska fångar, enligt vår modell. Vi ser också att det är en väldigt liten sannolikhet att de mest demokratiska länderna ska ta politiska fångar, ungefär 10 procent.

Multipel regressionsanalys

Grafen kommer aldrig att gå över 1, och aldrig under 0. Man kan också se att grafen inte är helt rak, utan kurvig. Varför då? Jo, det är logiskt eftersom vi har att göra med sannolikheter. En ökning på 10 procentenheter betyder ju olika mycket beroende på vart på skalan vi befinner oss. Om vi går från att det är 1 procents sannolikhet att ett land ska ta politiska fångar till 11 procents sannolikhet så har ju risken ökat dramatiskt, den är nästan 10 gånger så stor.

Om vi däremot går från att det är 50 procents sannolikhet att land tar politiska fångar till 60 procent sannolikhet så har ju inte risken ökat alls lika mycket jämfört med vad den var innan. Det är därför rimligt att effekten av den oberoende variabeln, uttryckt i procentenheter, är olika stor vid olika värden på den oberoende variabeln.

Effekten yttryckt i procent är dock densamma hela tiden. Vi kommer se samma sak när vi ska tolka koefficienterna. Det är lite mer komplicerat, och jag kommer försöka förklara hur de olika koefficienterna hänger ihop matematiskt. Jag börjar därför med att visa hur man beräknar predicerade sannolikheter för olika värden på den oberoende variabeln, och den som inte är intresserad av en mer djupare förståelse kan sluta läsa efter det.

Men den som verkligen vill förstå vad koefficienterna betyder kan fortsätta läsa efter det. Formeln för att räkna ut förväntad sannolikhet För dig som inte är intresserad av att förstå matematiken kommer här formeln för att utifrån koefficienterna räkna ut en predicerad sannolikhet, kallad p. Om man har fler oberoende variabler adderar man bara dem i formeln. Ett pedagogiskt sätt att presentera resultaten från logistiska regressionsanalyser är att predicera sannolikheter för olika konfigurationer av de oberoende variblerna.

Hur man tolkar koefficienterna: B-koefficienten Ett odds är sannolikheten att någonting ska inträffa, delat med sannolikheten att det inte ska inträffa. Om det till exmpel är 0,67 sannolikhet att något ska inträffa, så är det altså 0,33 sannolikhet att det inte ska inträffa. B-koefficienten i tabellen i regressionsoutputen för en logistisk regression visar förändringen i den naturliga logaritmen av oddset för att den beroende variabeln ska ha värdet 1, rätt abstrakt alltså.

En förändring i en logaritm, är som man kan läsa i guiden om naturliga logaritmer, att betrakta som en procentuell förändring. I vårt fall är B-koefficienten -0, Det innebär att om den oberoende variabeln ökar med 1 så minskar den naturliga logaritmen av oddset för att ett land ska ta politiska fångar med 0, Vad innebär det i procent?

Ganska nära kommer man om man multiplicerar koefficienten med hundra, vilket ger ,7. Det innebär att oddset för att den beroende variabeln ska vara 1 minskar med 49,7 procent inte procentenheter om den oberoende variabeln ökar med 1. Ännu närmare sanningen kommer vi om vi istället för att minska oddset med 49,7 procent minskar den med en procent 49,7 gånger.

Multipel regressionsanalys

Oddset blir då något högre, eftersom en procent blir mindre och mindre ju mer vi minskar. Logit kan därför betraktas som en länkfunktion link function. I logistisk regression är alltså logaritmen av odds en linjär funktion av prediktorerna. Vid logistisk regression är det alltså logaritmen av odds för händelsen som ändras. Odds ratio oddskvot Sannolikhet probabilitet är ett svårgreppat koncept.

Att tolka logaritmerade sannolikheter är ännu svårare. Därför transformerar vi regressionskoefficienten genom att exponentiera den och därmed skapa en oddskvot odds ratio, OR. Odds ratio är betydligt enklare att tolka. Man kan alltså omvandla en oddskvot till procent! En odds ratio oddskvot på 1. Om odds ratio är större än 1.

Odds ratio på 1. Exempel på logistisk regression Vi skapar en logistisk regression med data från PimaIndiansDiabetes, som finns i paketet mlbench. Installera paketet med kommandot install. I data är variabeln diabetes kodad som pos positive eller neg negative. Den logistiska regressionen skapas med hjälp av funktionen glm som finns i grundinstallationen av R.

GLM står för generalized linear model, vilken estimerar linjära modeller med hjälp av en länkfunktion link function. I logistisk regression är log odds logit länkfunktionen. För att göra detta använder vi funktionen tidy från paketet broom. Du ska nu få ut resultaten i SPSS output-fönster. De anger andelen förklarad varians mellan 0 och 1 och kan utläsas som procent — ju högre värde, desto bättre förklaringskraft.

Bild 3. Hur man tolkar resultaten — förklarad varians. Vi behöver bry oss om två siffror. Den första står direkt till höger om den oberoende variabeln och är den oberoende variabelns koefficient, eller B-koefficient. I exempelfallet hittar vi talet -, till höger om vår oberoende variabel medianinkomst. Den visar vilken effekt ett steg uppåt på den oberoende variabeln — i vårt fall kronor mer i medianinkomst — påverkar den beroende variabeln — i vårt fall skattesats i procent.

Koefficienten visar att om en kommun skulle öka sin medianinkomst med kronor skulle skattesatsen, enligt regressionsanalysen, minska med 0, procent. Detta är regressionsanalysens huvudresultat, och oftast är det intressantaste huruvida effekten är positiv eller negativ. Leder en ökning i den oberoende variabeln till en ökning eller minskning i den beroende variabeln?

Bild 4. Hur man tolkar resultaten — koefficienten. Vi måste dock veta om den här koefficienten är signifikant, det vill säga om vi med säkerhet kan säga att koefficienten inte är 0. En koefficient som är 0 visar ju att den oberoende variabeln inte har någon effekt på den beroende variabeln. Vi kan få reda på detta genom att se på signifikansnivån som vi hittar längst ut till höger, i det här fallet , Ju lägre tal, desto säkrare kan vi vara på att koefficienten är signifikant, dvs tillförlitlig.

Standardgränsvärdet är , Om talet är under detta tal kan vi med 95 procents säkerhet slå fast att koefficienten inte är noll. Är talet över , ska man inte dra för stora växlar på koefficienten — vi kan lika gärna tänka att den är noll.