Prediktiv analys - Predictive analytics

Prediktiv analys omfattar en mängd olika statistiska tekniker från datamining , prediktiv modellering och maskininlärning som analyserar aktuella och historiska fakta för att göra förutsägelser om framtida eller på annat sätt okända händelser.

I näringslivet utnyttjar prediktiva modeller mönster som finns i historiska och transaktionsdata för att identifiera risker och möjligheter. Modeller fångar upp relationer mellan många faktorer för att möjliggöra bedömning av risk eller potential i samband med en viss uppsättning villkor, som vägleder beslutsfattande för kandidattransaktioner.

Den definierande funktionella effekten av dessa tekniska tillvägagångssätt är att prediktiv analys ger en förutsägbar poäng (sannolikhet) för varje individ (kund, anställd, vårdpatient, produkt -SKU, fordon, komponent, maskin eller annan organisatorisk enhet) för att bestämma, informera , eller påverka organisatoriska processer som gäller för ett stort antal individer, till exempel inom marknadsföring, kreditriskbedömning, bedrägeri upptäckt, tillverkning, sjukvård och statlig verksamhet inklusive brottsbekämpning.

Prediktiv analys används inom aktuariell vetenskap , marknadsföring , företagsledning , sport/ fantasysport , försäkring , polis , telekommunikation , detaljhandel , resor , rörlighet , sjukvård , barnskydd , läkemedel , kapacitetsplanering , sociala nätverk och andra områden.

En av de mest kända applikationerna är kreditpoäng , som används i hela företagsledningen . Poängmodeller behandlar en kunds kredithistorik , låneansökan , kunddata etc. för att rangordna individer efter sannolikhet att göra framtida kreditbetalningar i tid.

Definition

Prediktiv analys är ett statistikområde som handlar om att extrahera information från data och använda den för att förutsäga trender och beteendemönster. Förbättringen av prediktiv webbanalys beräknar statistiska sannolikheter för framtida händelser online. Prediktiva analytiska statistiska tekniker inkluderar datamodellering , maskininlärning , AI , algoritmer för djupinlärning och datamining . Ofta är den okända händelsen av intresse i framtiden, men prediktiv analys kan tillämpas på alla typer av okända, oavsett om det är i det förflutna, nuet eller framtiden. Till exempel identifiera misstänkta efter att ett brott har begåtts eller kreditkortsbedrägerier när det inträffar. Kärnan i prediktiv analys bygger på att fånga samband mellan förklarande variabler och de förutsagda variablerna från tidigare händelser och utnyttja dem för att förutsäga det okända resultatet. Det är dock viktigt att notera att noggrannheten och användbarheten av resultaten beror mycket på dataanalysnivån och kvaliteten på antaganden.

Prediktiv analys definieras ofta som att förutsäga på en mer detaljerad granularitetsnivå, dvs generera prediktiva poäng (sannolikheter) för varje enskilt organisatoriskt element. Detta skiljer det från prognoser . Till exempel "Prediktiv analys - teknik som lär sig av erfarenhet (data) att förutsäga individers framtida beteende för att driva bättre beslut." I framtida industrisystem kommer värdet av prediktiv analys att vara att förutsäga och förhindra potentiella problem för att uppnå nära-noll sammanbrott och ytterligare integreras i föreskrivande analys för beslutsoptimering.

Typer

I allmänhet används termen prediktiv analys för att innebära prediktiv modellering , "poängsätta" data med prediktiva modeller och prognoser . Människor använder dock alltmer termen för att hänvisa till relaterade analytiska discipliner, såsom beskrivande modellering och beslutsmodellering eller optimering. Dessa discipliner involverar också noggrann dataanalys och används i stor utsträckning i näringslivet för segmentering och beslutsfattande, men har olika syften och de statistiska tekniker som ligger till grund för dem varierar.

Prediktiva modeller

Prediktiv modellering använder prediktiva modeller för att analysera sambandet mellan en enhets specifika prestanda i ett urval och ett eller flera kända attribut eller egenskaper hos den enheten. Syftet med modellen är att bedöma sannolikheten för att en liknande enhet i ett annat urval kommer att uppvisa den specifika prestandan. Denna kategori omfattar modeller inom många områden, till exempel marknadsföring, där de letar efter subtila datamönster för att svara på frågor om kundprestanda eller bedrägerimetoder. Prediktiva modeller utför ofta beräkningar under live -transaktioner, till exempel för att utvärdera risken eller möjligheten för en given kund eller transaktion, för att vägleda ett beslut. Med framsteg i beräkningshastigheten har individuella agentmodelleringssystem blivit kapabla att simulera mänskligt beteende eller reaktioner på givna stimuli eller scenarier.

De tillgängliga provenheterna med kända attribut och kända prestationer kallas "träningsprovet". Enheterna i andra prover, med kända attribut men okända prestationer, kallas för "out of [training] sample" -enheter. Ut ur urvalsenheterna behöver inte nödvändigtvis ha en kronologisk relation till träningsprovsenheterna. Exempelvis kan träningsprovet bestå av litterära attribut från skrifter av viktorianska författare, med känd tillskrivning, och utprovsenheten kan vara nyligen hittad skrift med okänt författarskap; en förutsägande modell kan hjälpa till att tillskriva ett verk till en känd författare. Ett annat exempel ges genom analys av blodstänk i simulerade brottsplatser där enheten utanför provet är det verkliga blodstänkmönstret från en brottsplats. Enheten ur urvalet kan komma från samma tid som träningsenheterna, från en tidigare tid eller från en framtida tid.

Beskrivande modeller

Beskrivande modeller kvantifierar relationer i data på ett sätt som ofta används för att klassificera kunder eller potentiella kunder i grupper. Till skillnad från förutsägbara modeller som fokuserar på att förutsäga ett enda kundbeteende (t.ex. kreditrisk), identifierar beskrivande modeller många olika relationer mellan kunder eller produkter. Beskrivande modeller rangordnar inte kunder efter deras sannolikhet att vidta en viss åtgärd på samma sätt som förutsägbara modeller gör. Istället kan beskrivande modeller användas till exempel för att kategorisera kunder efter deras produktpreferenser och livscykel. Beskrivande modelleringsverktyg kan användas för att utveckla ytterligare modeller som kan simulera ett stort antal individualiserade agenter och göra förutsägelser.

Beslutsmodeller

Beslutsmodeller beskriver förhållandet mellan alla element i ett beslut - de kända data (inklusive resultat från förutsägbara modeller), beslutet och prognosresultatet för beslutet - för att förutsäga resultaten av beslut som innefattar många variabler. Dessa modeller kan användas för optimering, maximera vissa resultat samtidigt som andra minimeras. Beslutsmodeller används vanligtvis för att utveckla beslutslogik eller en uppsättning affärsregler som ger önskad åtgärd för varje kund eller omständighet.

Ansökningar

Även om prediktiv analys kan användas i många applikationer, skisserar vi några exempel där prediktiv analys har visat positiv inverkan de senaste åren.

Företag

Analytisk kundrelationshantering (CRM) är en vanlig kommersiell tillämpning av prediktiv analys. Metoder för prediktiv analys tillämpas på kunddata för att konstruera en helhetssyn på kunden. CRM använder prediktiv analys i applikationer för marknadsföringskampanjer, försäljning och kundservice. Analytisk CRM kan tillämpas under kundernas livscykel ( förvärv , relationstillväxt , kvarhållande och vinst tillbaka).

Ofta företagens organisationer samla in och bevara rikliga data, såsom kundposter eller försäljning transaktioner. I dessa fall kan prediktiv analys hjälpa till att analysera kundernas utgifter, användning och andra beteenden, vilket leder till effektiv korsförsäljning eller att sälja ytterligare produkter till nuvarande kunder.

Korrekt tillämpning av prediktiv analys kan leda till mer proaktiva och effektiva retentionsstrategier. Genom en frekvent undersökning av en kunds tidigare tjänstanvändning, tjänstens prestanda, utgifter och andra beteendemönster kan prediktiva modeller avgöra sannolikheten för att en kund avslutar tjänsten någon gång snart. Ett ingrepp med erbjudanden med högt upplevt värde kan öka chansen att konvertera eller behålla kunden. Prediktiv analys kan också förutsäga tyst slitage, kundens beteende för att sakta men stadigt minska användningen.

Barn skydd

Vissa barnskyddsmyndigheter har börjat använda prediktiv analys för att flagga högriskfall. Till exempel i Hillsborough County, Florida , har barnavårdsverkets användning av ett prediktivt modelleringsverktyg förhindrat övergreppsrelaterade barndöd i målpopulationen.

Kliniska beslutsstödssystem

Prediktiv analys har funnit användning inom vården främst för att avgöra vilka patienter som riskerar att utveckla tillstånd som diabetes, astma eller hjärtsjukdomar. Dessutom innehåller sofistikerade kliniska beslutsstödssystem förutsägbara analyser för att stödja medicinskt beslutsfattande.

En studie från 2016 av neurodegenerativa störningar ger ett kraftfullt exempel på en CDS -plattform för att diagnostisera, spåra, förutsäga och övervaka utvecklingen av Parkinsons sjukdom .

Förutsäger resultat av rättsliga beslut

Förutsägelsen av resultatet av juridiska beslut kan göras av AI -program. Dessa program kan användas som hjälpmedel för yrken inom denna bransch.

Portfölj-, produkt- eller ekonominivåprognos

Ofta är fokus för analysen inte konsumenten utan produkten, portföljen, företaget, industrin eller till och med ekonomin. Till exempel kan en återförsäljare vara intresserad av att förutsäga efterfrågan på butiksnivå för lagerhanteringsändamål. Eller så kan Federal Reserve Board vara intresserad av att förutsäga arbetslösheten för nästa år. Dessa typer av problem kan hanteras genom prediktiv analys med hjälp av tidsserietekniker (se nedan). De kan också hanteras via maskininlärningsmetoder som omvandlar de ursprungliga tidsserierna till ett funktionsvektorutrymme, där inlärningsalgoritmen hittar mönster som har förutsägbar kraft.

Garanti

Många företag måste ta hänsyn till riskexponeringen på grund av sina olika tjänster och bestämma de kostnader som krävs för att täcka risken. Prediktiv analys kan hjälpa till att garantera dessa mängder genom att förutsäga risken för sjukdom, standard , konkurs , etc. Prediktiv analys kan effektivisera processen för kundförvärv genom att förutsäga en kunds framtida riskbeteende med hjälp av data på applikationsnivå. Prediktiv analys i form av kreditpoäng har minskat den tid det tar för lånegodkännanden, särskilt på bolånemarknaden. Korrekt prediktiv analys kan leda till korrekta prissättningsbeslut, vilket kan hjälpa till att minska framtida risk för standard.

Teknik och big data -påverkan

Big data är en samling datauppsättningar som är så stora och komplexa att det blir besvärligt att arbeta med traditionella databashanteringsverktyg . Stor data, volym, variation och hastighet har infört utmaningar över hela linjen för inspelning, lagring, sökning, delning, analys och visualisering. Exempel på stora datakällor inkluderar webbloggar , RFID , sensordata , sociala nätverk , indexering av internetsökningar, samtalsdetaljer, militär övervakning och komplexa data inom astronomiska, biogeokemiska, genomiska och atmosfäriska vetenskaper. Big Data är kärnan i de mest förutsägbara analytiska tjänster som erbjuds av IT -organisationer. Tack vare tekniska framsteg inom datorhårdvara-snabbare processorer, billigare minne och MPP- arkitekturer-och ny teknik som Hadoop , MapReduce och in-database och textanalys för bearbetning av stora data, är det nu möjligt att samla in, analysera och gruva massiva mängder strukturerad och ostrukturerad data för nya insikter. Det är också möjligt att köra prediktiva algoritmer för strömmande data. Idag är utforska stora data och använda prediktiv analys inom räckhåll för fler organisationer än någonsin tidigare och nya metoder som kan hantera sådana datamängder föreslås.

Analytiska tekniker

De tillvägagångssätt och tekniker som används för att utföra prediktiv analys kan i stort sett grupperas i regressionstekniker och maskininlärningstekniker.

Regressionstekniker

Regressionsmodeller är grundpelaren i prediktiv analys. Fokus ligger på att etablera en matematisk ekvation som en modell för att representera interaktionerna mellan de olika variablerna som beaktas. Beroende på situationen finns det en mängd olika modeller som kan tillämpas vid prediktiv analys. Några av dem diskuteras kort nedan.

Linjär regressionsmodell

Den linjära regressionsmodellen förutsäger svarsvariabeln som en linjär funktion av parametrarna med okända koefficienter. Dessa parametrar justeras så att ett mått på passform optimeras. Mycket av ansträngningarna för modellpassning är inriktat på att minimera storleken på resterna, samt se till att den slumpmässigt fördelas med avseende på modellprognoserna.

Målet med regression är att välja modellens parametrar för att minimera summan av de kvadrerade resterna. Detta kallas vanliga minsta kvadraters (OLS) uppskattning.

Diskreta valmodeller

Multipel regression (ovan) används vanligtvis när svarsvariabeln är kontinuerlig och har ett obegränsat intervall. Ofta är svarsvariabeln kanske inte kontinuerlig utan snarare diskret. Även om det matematiskt är möjligt att tillämpa multipel regression på diskreta ordnade beroende variabler, håller några av antagandena bakom teorin om multipel linjär regression inte längre, och det finns andra tekniker som diskreta valmodeller som är bättre lämpade för denna typ av analys. Om den beroende variabeln är diskret är några av dessa överlägsna metoder logistisk regression , multinomial logit och probit -modeller. Logistiska regressions- och probit -modeller används när den beroende variabeln är binär .

Logistisk tillbakagång

I en klassificeringsinställning kan tilldelning av utfallssannolikheter till observationer uppnås genom användning av en logistisk modell (även kallad en logisk modell), som omvandlar information om den binära beroende variabeln till en obegränsad kontinuerlig variabel och uppskattar en vanlig multivariat modell.

Den Wald och sannolikheten-förhållandetest används för att testa den statistiska signifikansen av varje koefficient b i modellen (analoga med t-test som används i OLS regression, se ovan). Ett test som bedömer hur bra en klassificeringsmodell är av lämplighet är "procent korrekt förutspådd".

Probit regression

Probit -modeller erbjuder ett alternativ till logistisk regression för modellering av kategoriskt beroende variabler.

Multinom logistisk regression

En förlängning av den binära logit -modellen till fall där den beroende variabeln har mer än 2 kategorier är den multinomiala logit -modellen . I sådana fall kanske kollaps av data i två kategorier inte är vettigt eller kan leda till förlust av dataens rikedom. Multinomial logit -modellen är lämplig teknik i dessa fall, särskilt när de beroende variabelkategorierna inte är ordnade (för exempel färger som rött, blått, grönt). Vissa författare har utökat multinomial regression till att inkludera funktionsval/viktighetsmetoder som slumpmässig multinomial logit .

Logit kontra probit

De två regressionerna tenderar att bete sig på samma sätt, förutom att den logistiska fördelningen tenderar att vara något plattare. Koefficienterna som erhålls från logit- och probit -modellen är vanligtvis nära varandra. Men oddskvoten är lättare att tolka i logitmodell.

Praktiska skäl för att välja probit -modellen framför den logistiska modellen kan innefatta:

  • Det finns en stark tro på att den underliggande fördelningen är normal
  • Den faktiska händelsen är inte ett binärt utfall ( t.ex. konkursstatus) utan en andel ( t.ex. andel av befolkningen på olika skuldnivåer).

Tidsseriemodeller

Tidsseriemodeller används för att förutsäga eller förutsäga variablernas framtida beteende. Dessa modeller redogör för det faktum att datapunkter som tagits över tid kan ha en intern struktur (t.ex. autokorrelation, trend eller säsongsvariation) som bör beaktas. Som ett resultat kan standardregressionstekniker inte tillämpas på tidsseriedata och metodik har utvecklats för att sönderdela trendens, säsongens och cykliska komponenten i serien.

Tidsseriemodeller uppskattar skillnadsekvationer som innehåller stokastiska komponenter. Två vanligt förekommande former av dessa modeller är autoregressiva modeller (AR) och rörliga genomsnittliga (MA) -modeller. De Box-Jenkins metod kombinerar AR och MA modeller för att producera den ARMA (autoregressive moving average) modell, som är hörnstenen i stationära tidsserieanalys. ARIMA (autoregressiva integrerade glidande medelmodeller) används å andra sidan för att beskriva icke-stationära tidsserier.

Under de senaste åren har tidsseriemodeller blivit mer sofistikerade och försöker modellera villkorlig heteroskedasticitet. Sådana modeller inkluderar ARCH -modellen ( autoregressiv villkorlig heteroskedasticitet ) och GARCH -modellen (generaliserad autoregressiv villkorlig heteroskedasticitet), båda ofta använda för ekonomiska tidsserier.

Överlevnads- eller varaktighetsanalys

Överlevnadsanalys är ett annat namn för tid-till-händelse-analys. Dessa tekniker utvecklades främst inom medicinska och biologiska vetenskaper, men de används också i stor utsträckning inom samhällsvetenskap som ekonomi och teknik.

Censurering och icke-normalitet, som är karakteristiska för överlevnadsdata, genererar svårigheter när man försöker analysera data med konventionella statistiska modeller som multipel linjär regression . Den normalfördelning , som är en symmetrisk fördelning, tar positiva såväl som negativa värden, men varaktigheten av sin natur kan inte vara negativt och därför inte kan antas normalitet när man hanterar uppgifter varaktighet / överlevnads.

Varaktighetsmodeller kan vara parametriska, icke-parametriska eller halvparametriska. Några av de vanliga modellerna är Kaplan-Meier och Cox proportional hazard-modell (icke-parametrisk).

Klassificering och regressionsträd (CART)

Klassificering och regressionsträd (CART) är en icke-parametrisk beslutsträdinlärningsteknik som ger antingen klassificering eller regressionsträd, beroende på om den beroende variabeln är kategorisk respektive numerisk.

Beslutsträd bildas av en samling regler baserade på variabler i modelluppsättningen:

  • Regler baserade på variablernas värden väljs för att få den bästa uppdelningen för att differentiera observationer baserat på den beroende variabeln
  • När en regel väljs och delar en nod i två, tillämpas samma process på varje "barn" -nod (dvs. det är en rekursiv procedur)
  • Delningen slutar när CART upptäcker att ingen ytterligare vinst kan göras, eller några förinställda stoppregler uppfylls. (Alternativt delas data upp så mycket som möjligt och sedan beskärs trädet .)

Varje gren av trädet slutar i en terminalnod. Varje observation faller in i en och exakt en terminalnod, och varje terminalnod definieras unikt av en uppsättning regler.

En mycket populär metod för prediktiv analys är slumpmässiga skogar .

Multivariat adaptiv regressionssplines

Multivariat adaptiv regression splines (MARS) är en icke-parametrisk teknik som bygger flexibla modeller genom att anpassa styckvis linjära regressioner .

Multivariat och adaptivt regressionsspline -tillvägagångssätt överanpassar modellen avsiktligt och beskär sedan för att komma till den optimala modellen. Algoritmen är beräkningsmässigt mycket intensiv, och i praktiken specificeras en övre gräns för antalet basfunktioner.

Maskininlärningstekniker

Maskininlärning innehåller ett antal avancerade statistiska metoder för regression och klassificering, och hittar tillämpning inom en mängd olika områden, inklusive medicinsk diagnostik , upptäckt av kreditkortsbedrägeri , ansikts- och taligenkänning och analys av börsen .

Verktyg

Historiskt sett krävde avancerade färdigheter att använda förutsägbara analysverktyg - liksom förståelse för resultaten de levererade. Moderna verktyg för prediktiv analys är dock inte längre begränsade till IT -specialister. I takt med att fler organisationer använder prediktiv analys i beslutsprocesser och integrerar den i sin verksamhet, skapar de en förskjutning på marknaden mot affärsanvändare som informationens primära konsumenter. Affärsanvändare vill ha verktyg som de kan använda på egen hand. Leverantörer svarar genom att skapa ny programvara som tar bort den matematiska komplexiteten, ger användarvänliga grafiska gränssnitt och/eller bygger på genvägar som till exempel kan känna igen den tillgängliga informationen och föreslå en lämplig förutsägbar modell. Prediktiva analysverktyg har blivit tillräckligt sofistikerade för att på ett adekvat sätt presentera och dissekera dataproblem, så att alla datakunniga informationsarbetare kan använda dem för att analysera data och hämta meningsfulla, användbara resultat. Till exempel presenterar moderna verktyg fynd med enkla diagram, grafer och poäng som indikerar sannolikheten för möjliga resultat.

Det finns många verktyg tillgängliga på marknaden som hjälper till att genomföra prediktiv analys. Dessa sträcker sig från dem som behöver mycket lite sofistikerad till de som är utformade för experten. Skillnaden mellan dessa verktyg är ofta i nivån på anpassning och tillåtna tunga datahöjningar.

PMML

Den prediktiva modellen Markup Language (PMML) föreslogs för standardspråk för att uttrycka prediktiva modeller. Ett sådant XML-baserat språk ger ett sätt för de olika verktygen att definiera förutsägbara modeller och dela dem. PMML 4.0 släpptes i juni 2009.

Kritik

Det finns gott om skeptiker när det gäller dators och algoritmers förmåga att förutsäga framtiden, inklusive Gary King , professor från Harvard University och chef för Institute for Quantitative Social Science. Människor påverkas av sin omgivning på otaliga sätt. För att förutse perfekt vad människor kommer att göra nästa krävs att alla de inflytelserika variablerna är kända och mätt noggrant. "Människors miljö förändras ännu snabbare än de själva gör. Allt från vädret till deras förhållande till sin mamma kan förändra hur människor tänker och agerar. Alla dessa variabler är oförutsägbara. Hur de kommer att påverka en person är ännu mindre förutsägbart. Om sätta i exakt samma situation i morgon, kan de fatta ett helt annat beslut. Detta innebär att en statistisk förutsägelse endast gäller under sterila laboratorieförhållanden, vilket plötsligt inte är så användbart som det verkade tidigare. "

I en studie av 1072 artiklar som publicerades i Information Systems Research och MIS Quarterly mellan 1990 och 2006, försökte endast 52 empiriska artiklar prediktiva påståenden, varav endast 7 utförde korrekt prediktiv modellering eller testning.

Se även

Referenser

Vidare läsning

  • Agresti, Alan (2002). Kategorisk dataanalys . Hoboken: John Wiley and Sons. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. och Schutzer, Daniel, "Intelligent Security Systems", i Freedman, Roy S., Flein, Robert A. och Lederman, Jess, Editors (1995). Artificiell intelligens på kapitalmarknaderna . Chicago: Irwin. ISBN 1-55738-811-3.CS1 -underhåll: flera namn: författarlista ( länk )
  • L. Devroye; L. Györfi; G. Lugosi (1996). En probabilistisk teori om mönsterigenkänning . New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Applied Time Series Econometrics . Hoboken: John Wiley and Sons. ISBN 0-521-83919-X.
  • Greene, William (2012). Econometric Analysis, 7: e upplagan . London: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Analys av rikt språk för att bekämpa terrorism . Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Maskininlärning . New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Predictive Analytics: Kraften att förutsäga vem som kommer att klicka, köpa, ljuga eller dö . John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Undersökande dataanalys . New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Predictive Analytics, Data Mining och Big Data. Myter, missuppfattningar och metoder . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: Förstå de viktiga tecknen på ditt företag . Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.