Multipel logistisk regression spss

Om modellen inbegriper flera prediktorer så tolkas koefficienten för varje enskild prediktor som dennes "effekt" när övriga prediktorer hålls konstanta. Maximum Likelihood Estimation MLE : Beräkning av regressionskoefficienter i logistisk regression Erinra att den linjära modellen har en enkel formel för att hitta modellens parametrar intercept och regressionskoefficienter.

Ekvationen är den regressionslinje som bäst beskriver data. Detta görs genom att minimera summan av alla errors se Linjär Regression. För logistisk regression finns ingen enkel ekvation att lösa. Istället måste mjukvaran hitta parametrarna med hjälp av optimeringsfunktioner optimizer functions. Den vanligaste funktionen för att göra detta är MLE maximum likelihood estimation.

Maximum likelihood estimation MLE, maximimetoden används generellt för att beräkna parametrarna i en sannolikhetsfördelning. Metoden väljer de parametrar som maximerar sannolikheten för att erhålla de observerade utfallen. Givet denna fördelning kan en likelihood funktion beräknas för observerad i data. Funktionen kan sedan optimeras för att hitta parametrarna som bäst beskriver data.

Den exakta beräkningen av dessa parametrar ligger utanför ramen för denna kurs. Linjär regression bör dock inte användas för att studerar binära utfall, dvs utfall med två kategorier. Det finns flera anledningar till att linjär regression inte bör användas för att studera varken binära utfall eller kategoriska utfall med fler än 2 kategorier.

Den första anledningen är konceptuell och kan demonstreras med ett kategoriskt utfall med tre nivåer. För att använda linjär regression kodar vi dessa diagnoser med siffrorna 1 till 3. Först och främst hävdar detta att det finns en inneboende ordning mellan diagnoserna, vilket det inte gör i detta fall. Dessutom innebär det att vi hävdar att skillnaden mellan stroke och epilepsi numerisk skillnad på 1 är lika stor som skillnaden mellan epilepsi och Parkinsons sjukdom numerisk skillnad på 1 , vilket är en irrationell jämförelse.

Den visar vilken effekt ett steg uppåt på den oberoende variabeln — i vårt fall kronor mer i medianinkomst — påverkar den beroende variabeln — i vårt fall skattesats i procent. Koefficienten visar att om en kommun skulle öka sin medianinkomst med kronor skulle skattesatsen, enligt regressionsanalysen, minska med 0, procent.

Detta är regressionsanalysens huvudresultat, och oftast är det intressantaste huruvida effekten är positiv eller negativ. Leder en ökning i den oberoende variabeln till en ökning eller minskning i den beroende variabeln? Bild 4. Hur man tolkar resultaten — koefficienten. Vi måste dock veta om den här koefficienten är signifikant, det vill säga om vi med säkerhet kan säga att koefficienten inte är 0.

Prediktionsintervall spss

En koefficient som är 0 visar ju att den oberoende variabeln inte har någon effekt på den beroende variabeln. Vi kan få reda på detta genom att se på signifikansnivån som vi hittar längst ut till höger, i det här fallet , Ju lägre tal, desto säkrare kan vi vara på att koefficienten är signifikant, dvs tillförlitlig. Standardgränsvärdet är , Om talet är under detta tal kan vi med 95 procents säkerhet slå fast att koefficienten inte är noll.

Är talet över , ska man inte dra för stora växlar på koefficienten — vi kan lika gärna tänka att den är noll. Man ska dock iaktta en viss försiktighet när det gäller signfikanstest på icke slumpmässiga urval, som i det här fallet. När det är ett slumpmässigt urval kan signifikansen tolkas som ett mått på hur sannolikt det är att det finns en effekt av den oberoende variabeln på den beroende som inte är noll i den större populationen, inte bara i urvalet.

Det behöver inte betyda att signfikans är helt ointressant när man använder ett icke slumpmässigt urval. Men signifikanstesten är utvecklade för att generalisera från slumpmässiga urval till större populationer. Bild 5. Hur man tolkar resultaten — signifikans. Man utläser sedan resultaten på samma sätt. Grafen kommer aldrig att gå över 1, och aldrig under 0.

Man kan också se att grafen inte är helt rak, utan kurvig. Varför då? Jo, det är logiskt eftersom vi har att göra med sannolikheter. En ökning på 10 procentenheter betyder ju olika mycket beroende på vart på skalan vi befinner oss. Om vi går från att det är 1 procents sannolikhet att ett land ska ta politiska fångar till 11 procents sannolikhet så har ju risken ökat dramatiskt, den är nästan 10 gånger så stor.

Om vi däremot går från att det är 50 procents sannolikhet att land tar politiska fångar till 60 procent sannolikhet så har ju inte risken ökat alls lika mycket jämfört med vad den var innan. Det är därför rimligt att effekten av den oberoende variabeln, uttryckt i procentenheter, är olika stor vid olika värden på den oberoende variabeln.

Effekten yttryckt i procent är dock densamma hela tiden. Vi kommer se samma sak när vi ska tolka koefficienterna. Det är lite mer komplicerat, och jag kommer försöka förklara hur de olika koefficienterna hänger ihop matematiskt. Jag börjar därför med att visa hur man beräknar predicerade sannolikheter för olika värden på den oberoende variabeln, och den som inte är intresserad av en mer djupare förståelse kan sluta läsa efter det.

Men den som verkligen vill förstå vad koefficienterna betyder kan fortsätta läsa efter det. Formeln för att räkna ut förväntad sannolikhet För dig som inte är intresserad av att förstå matematiken kommer här formeln för att utifrån koefficienterna räkna ut en predicerad sannolikhet, kallad p. Om man har fler oberoende variabler adderar man bara dem i formeln.

Ett pedagogiskt sätt att presentera resultaten från logistiska regressionsanalyser är att predicera sannolikheter för olika konfigurationer av de oberoende variblerna. Hur man tolkar koefficienterna: B-koefficienten Ett odds är sannolikheten att någonting ska inträffa, delat med sannolikheten att det inte ska inträffa. Om det till exmpel är 0,67 sannolikhet att något ska inträffa, så är det altså 0,33 sannolikhet att det inte ska inträffa.

B-koefficienten i tabellen i regressionsoutputen för en logistisk regression visar förändringen i den naturliga logaritmen av oddset för att den beroende variabeln ska ha värdet 1, rätt abstrakt alltså. En förändring i en logaritm, är som man kan läsa i guiden om naturliga logaritmer, att betrakta som en procentuell förändring. I vårt fall är B-koefficienten -0, Det innebär att om den oberoende variabeln ökar med 1 så minskar den naturliga logaritmen av oddset för att ett land ska ta politiska fångar med 0, Vad innebär det i procent?

Ganska nära kommer man om man multiplicerar koefficienten med hundra, vilket ger ,7. Det innebär att oddset för att den beroende variabeln ska vara 1 minskar med 49,7 procent inte procentenheter om den oberoende variabeln ökar med 1. Ännu närmare sanningen kommer vi om vi istället för att minska oddset med 49,7 procent minskar den med en procent 49,7 gånger. Oddset blir då något högre, eftersom en procent blir mindre och mindre ju mer vi minskar.

Vi kan testa om det verkar stämma. Länder som har värdet 2 på den oberoende variabeln har en predicerad sannolikhet på 0, Det innebär att sannolikheten för att de inte ska ta politiska fångar är 0, Sannolikheten att ett land som har värdet 3 på den oberoende variabeln ska ta politiska fångar är 0, Om vi minskar 6,14 med 49,7 procent får vi värdet 3,1, alltså ett något för lågt odds.

Om vi istället minskar 6,14 med en procent i taget 50 gånger får vi värdet 3,7, alltså närmare det sanna värdet. Ännu bättre hade det blivit om jag inte avrundat, och istället för att minska med en procent i taget minskat med en promille i taget gånger. Om B-koefficienten är 1 innebär det att en ökning av den oberoende variabeln med 1 leder till mer än en fördubbling av oddset för den beroende variabeln.

Exp B är precis vad den heter, nämligen exponenten av B-koefficienten. Den naturliga logaritmen av ett tal är det värde man måste upphöja den matematiska konstanten e ungefär 2,72 till för att få fram det ursprungliga värdet. På samma sätt är exponenten av ett tal e upphöjt till talet. Exponenten av 1 blir alltså ungefär 2,72, eftersom 2,72 upphöjt till 1 är 2, Om man först tar den naturliga logaritmen av ett tal och sedan tar exponenten av det är man tillbaks på ursprungstalet.

Men vad har Exp B för betydelse? Föreställ dig två grupper.

Multipel regressionsanalys

I den ena gruppen är sannolikheten 0,5 att en sak ska hända. I den andra gruppen är sannolikheten 0,67 att samma sak ska hända. Det innebär att oddset för att saken ska inträffa är dubbelt så stort i den andra gruppen. Det innebär att oddset för att saken ska inträffa är hälften så stort i den första gruppen som i den andra.

Om vår oberoende variabel bara haft två värden hade Exp B beskrivit odds-ratiot mellan de två grupperna. Nu beskriver den förhållandet i odds mellan de länder som är 1 steg ifrån varandra på den oberoende variabeln.