Maskininlärning inom geovetenskap

Tillämpningar av maskininlärning inom geovetenskap inkluderar geologisk kartläggning , upptäckt av gasläckage och identifiering av geologiska egenskaper. Maskininlärning (ML) är en typ av artificiell intelligens (AI) som gör det möjligt för datorsystem att klassificera, gruppera, identifiera och analysera stora och komplexa uppsättningar data samtidigt som behovet av explicita instruktioner och programmering elimineras. Geovetenskap är studiet av ursprunget, evolutionen och framtiden för planeten Jorden . Jordsystemet kan delas in i fyra huvudkomponenter inklusive den fasta jorden , atmosfären , hydrosfären och biosfären .

En mängd olika algoritmer kan användas beroende på karaktären av geovetenskaplig utforskning. Vissa algoritmer kan prestera betydligt bättre än andra för särskilda syften. Till exempel konvolutionella neurala nätverk (CNN) bra på att tolka bilder, artificiella neurala nätverk (ANN) presterar bra i jordklassificering men dyrare beräkningsmässigt att träna än stödvektormaskin (SVM) inlärning. Tillämpningen av maskininlärning har varit populär under de senaste decennierna, eftersom utvecklingen av andra tekniker såsom obemannade flygfarkoster (UAV), fjärranalysteknik med ultrahög upplösning och högpresterande beräkningsenheter leder till tillgängligheten av stora högkvalitativa datamängder och mer avancerade algoritmer .

Betydelse

Geovetenskapens komplexitet

Problem inom geovetenskap är ofta komplexa. Det är svårt att tillämpa välkända och beskrivna matematiska modeller på den naturliga miljön, därför är maskininlärning vanligtvis ett bättre alternativ för sådana icke-linjära problem. Ekologiska data är vanligtvis icke-linjära och består av interaktioner av högre ordning, och tillsammans med saknade data kan traditionell statistik underprestera eftersom orealistiska antaganden som linjäritet tillämpas på modellen. Ett antal forskare fann att maskininlärning överträffar traditionella statistiska modeller inom geovetenskap, till exempel när det gäller att karakterisera skogskronornas struktur , förutsäga klimatinducerade räckviddsförskjutningar och avgränsa geologiska förhållanden. Karakteriserande struktur av skogskronorna gör det möjligt för forskare att studera vegetationens reaktion på klimatförändringar. Att förutsäga klimatinducerade räckviddsförskjutningar gör det möjligt för beslutsfattare att anta lämpliga samtalsmetoder för att övervinna konsekvenserna av klimatförändringar. Att avgränsa geologiska facies hjälper geologer att förstå geologin i ett område, vilket är avgörande för utveckling och förvaltning av ett område.

Otillgängliga data

Inom geovetenskap är vissa data ofta svåra att komma åt eller samla in, därför är det önskvärt att sluta sig till data från data som är lättillgängliga genom en maskininlärningsmetod. Till exempel är geologisk kartläggning i tropiska regnskogar utmanande eftersom det tjocka vegetationstäcket och berghällarna är dåligt exponerade. Att tillämpa fjärranalys med metoder för maskininlärning ger ett alternativt sätt för snabb kartläggning utan behov av manuell kartläggning i de onåbara områdena.

Minska tidskostnaderna

Maskininlärning kan också minska ansträngningarna som görs av experter, eftersom manuella uppgifter med klassificering och anteckning etc är flaskhalsarna i arbetsflödet för forskningen inom geovetenskap. Geologisk kartläggning, särskilt i ett vidsträckt, avlägset område är arbets-, kostnads- och tidskrävande med traditionella metoder. Inkorporering av metoder för fjärranalys och maskininlärning kan ge en alternativ lösning för att eliminera vissa behov av fältkartläggning.

Konsekvent och fördomsfri

Konsistens och fördomsfri är också en fördel med maskininlärning jämfört med manuella arbeten av människor. I forskning som jämför prestanda för mänsklig och maskininlärning vid identifiering av dinoflagellater , visar sig maskininlärning inte vara lika benägen för systematisk fördom som människor. En nyligen genomförd effekt som finns hos människor är att klassificeringen ofta riktar sig mot de senast återkallade klasserna. I en märkningsuppgift av forskningen, om en sorts dinoflagellater sällan förekommer i proverna, kommer expertekologer vanligtvis inte att klassificera det korrekt. Den systematiska fördomen försämrar kraftigt klassificeringsnoggrannheten hos människor.

Optimal maskininlärningsalgoritm

Den omfattande användningen av maskininlärning inom olika områden har lett till att ett brett utbud av algoritmer för inlärningsmetoder tillämpas. Maskininlärningsalgoritmen som tillämpas för att lösa geovetenskapliga problem i stort intresse för forskarna. Att välja den optimala algoritmen för ett specifikt ändamål kan leda till en betydande ökning av noggrannheten. Till exempel visar den litologiska kartläggningen av guldbärande granit-grönstensstenar i Hutti, Indien med AVIRIS-NG hyperspektral data, mer än 10 % skillnad i övergripande noggrannhet mellan att använda Support Vector Machine (SVM) och slumpmässig skog . Vissa algoritmer kan också avslöja viktig information. "White-box-modeller" är transparenta modeller där resultaten och metoderna lätt kan förklaras, medan "black-box"-modeller är motsatsen. Till exempel, även om stödvektormaskinen (SVM) gav det bästa resultatet i noggrannhet i bedömning av jordskredmottaglighet, kan resultatet inte skrivas om i form av expertregler som förklarar hur och varför ett område klassificerades som den specifika klassen. Däremot beslutsträdet en transparent modell som lätt kan förstås, och användaren kan observera och åtgärda eventuella bias i modellen. Om beräkningskraften är ett problem är en mer beräkningskrävande inlärningsmetod såsom artificiellt neurala nätverk mindre föredraget trots att artificiella neurala nätverk kan överträffa andra algoritmer, såsom i jordklassificering.

Nedan är höjdpunkter för några vanligt använda algoritmer.

Support Vector Machine (SVM) I Support Vector Machine (SVM) bestämdes beslutsgränsen under träningsprocessen av träningsdatauppsättningen som representeras av de gröna och röda prickarna. Uppgifterna för lila faller under beslutsgränsen, därför tillhör den den röda klassen.
K närmaste granne K närmaste granne klassificerar data baserat på deras likheter. k är en parameter som representerar antalet grannar som kommer att beaktas för omröstningsprocessen. Till exempel, i figuren k = 4, beaktas därför de närmaste 4 grannarna. I de 4 närmaste grannarna tillhör 3 den röda klassen och 1 tillhör den gröna klassen. Den lila data klassificeras som den röda klassen.
Beslutsträd Beslutsträd visar möjliga resultat av relaterade val. Beslutsträd kan vidare delas in i klassificeringsträd och regressionsträd. Ovanstående figur visar ett klassificeringsträd eftersom utgångarna är diskreta klasser. För regressionsträd är utdata ett tal. Detta är en white-box-modell som är transparent och användaren kan upptäcka biasen om någon förekommer i modellen.
Slumpmässig skog I slumpmässig skog används flera beslutsträd tillsammans i en ensemblemetod. Flera beslutsträd produceras under utbildningen av en modell. Olika beslutsträd kan ge upp olika resultat. Processen för majoritetsomröstning/genomsnittsberäkning ger slutresultatet. Denna metod ger en högre noggrannhet genom att endast använda ett enda beslutsträd.
Neurala nätverk Neurala nätverk härmar neuroner i en biologisk hjärna. Den består av flera lager, där lagren däremellan är dolda lager. Anslutningarnas vikter justeras under träningsprocessen. Eftersom logiken däremellan är oklar, kallas den för "svarta lådan". Convolutional neural network (CNN) är en underklass av neurala nätverk, som vanligtvis används för att bearbeta bilder.

Användande

Kartläggning

Geologisk eller litologisk kartläggning och mineralprospektivitetskartering

Geologisk eller litologisk kartläggning producerar kartor som visar geologiska egenskaper och geologiska enheter. Kartläggning av mineralprospektivitet använder en mängd olika datauppsättningar som geologiska kartor, flygmagnetiska bilder etc för att producera kartor som är specialiserade för mineralutforskning. Geologisk/litologisk kartläggning och kartläggning av mineralprospektivitet kan utföras genom att bearbeta data med maskininlärningstekniker med inmatning av spektralbilder erhållna från fjärranalys och geofysiska data. Spektralbilder är avbildningen av utvalda elektromagnetiska våglängdsband i det elektromagnetiska spektrumet, medan konventionell avbildning fångar tre våglängdsband (röd, grön, blå) i det elektromagnetiska spektrumet. Random Forest and Support Vector Machine (SVM) etc är vanliga algoritmer som används med fjärravkända geofysiska data, medan Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN) och Convolutional Neural Networks (CNN) etc vanligtvis används vid hantering av antenn. foton och bilder. Storskalig kartläggning kan utföras med geofysiska data från luftburen och satellitfjärranalys av geofysiska data, och mindre skala kartläggning kan utföras med bilder från Unmanned Aerial Vehicle (UAV) för högre upplösning.

Vegetationstäcke är ett av de stora hindren för geologisk kartläggning med fjärranalys, vilket rapporterats i olika forskning, både inom storskalig och småskalig kartläggning. Vegetation påverkar kvaliteten på spektralbilden eller skymmer berginformationen i flygbilderna.

Exempel på tillämpning inom *geologisk/litologisk kartläggning och mineralprospektivitetskartläggning*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Litologisk kartläggning av guldbärande granitgrönstensklippor	AVIRIS-NG hyperspektral data	Hutti, Indien	Linjär diskrimineringsanalys (LDA) , Random Forest , Support Vector Machine (SVM)	Support Vector Machine (SVM) överträffar de andra maskininlärningsalgoritmerna (MLA)
Litologisk kartläggning i den tropiska regnskogen	Magnetisk vektorinversion, Ternär RGB-karta, Shuttle Radar Topography Mission (SRTM) , Falsk färg (RGB) på Landsat 8 som kombinerar band 4, 3 och 2	Cinzento Lineament, Brasilien	Random Forest	Två prediktiva kartor genererades: (1) Karta genererad med fjärranalysdata har bara en 52,7 % noggrannhet jämfört med den geologiska kartan, men flera nya möjliga litologiska enheter har identifierats (2) Karta genererad med fjärranalysdata och rumsliga begränsningar har en noggrannhet på 78,7 % men inga nya möjliga litologiska enheter identifieras
Geologisk kartläggning för mineralprospektering	Luftburen polarimetrisk terrängobservation med progressiva skanningar SAR (TopSAR), geofysiska data	Västra Tasmanien	Random Forest	Låg tillförlitlighet för TopSAR för geologisk kartläggning, men exakt med geofysiska data.
Geologisk och mineralogisk kartläggning ^{[ citat behövs ]}	Multispektrala och hyperspektrala satellitdata	Central Jebilet, Marocko	Support Vector Machine (SVM)	Noggrannheten för att använda hyperspektrala data för klassificering är något högre än att använda multispektral data, med 93,05 % respektive 89,24 %, vilket visar att maskininlärning är ett tillförlitligt verktyg för mineralutforskning.
Integrera multigeofysiska data i en klusterkarta	Luftburen magnetisk, frekvens elektromagnetiska, radiometriska mätningar, gravitationsmätningar på marken	Trøndelag, Mellannorge	Random Forest	Den producerade klusterkartan har ett tillfredsställande förhållande till den befintliga geologiska kartan men med mindre misspassningar.
Högupplöst geologisk kartläggning med obemannat flygfarkost (UAV)	Ultraupplösta RGB-bilder	Taili vid vattnet, Liaoning-provinsen, Kina	Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN)	Resultatet är tillfredsställande vid kartläggning av större geologiska enheter men visade dålig prestanda vid kartläggning av pegmatiter, finkorniga bergarter och vallar. UAV:er kunde inte samla steninformation där stenarna inte var exponerade.
Kartläggning av ytlig geologi Remote Predictive Mapping (RPM)	Flygfoton , Landsat Reflection, Högupplösta digitala höjddata	South Rae Geological Region, Nordvästra territorium, Kanada	Convolutional Neural Networks (CNN), Random Forest	Den resulterande noggrannheten för CNN var 76 % i det lokalt tränade området, medan 68 % för ett oberoende testområde. CNN uppnådde en något högre noggrannhet på 4% än Random Forest.

Metoder för att dela upp datamängderna i träningsdatauppsättningar och testdatauppsättningar Eftersom träning av maskininlärning för kartläggning av jordskredskänslighet kräver både träning och testdatauppsättning krävs därför uppdelning av datauppsättningen. Två uppdelningsmetoder för datamängderna presenteras på den geologiska kartan över den östra Cumberland Gap. Metoden som presenteras till vänster, "Dela upp i två angränsande områden" är mer användbar eftersom automationsalgoritmen kan utföra kartläggning av ett nytt område med inmatning av expertbearbetade data från angränsande mark. De cyanfärgade pixlarna visar träningsdatauppsättningen medan de återstående visar testdatauppsättningarna.

Skredkänslighet och kartläggning av faror

Skredkänslighet avser sannolikheten för jordskred på en plats, som påverkas av de lokala terrängförhållandena. Kartläggning av känslighet för jordskred kan belysa områden som är utsatta för jordskredrisker som är användbara för stadsplanering och katastrofhantering. Indatadataset för maskininlärningsalgoritmer inkluderar vanligtvis topografisk information, litologisk information, satellitbilder etc. och vissa kan inkludera markanvändning, marktäcke, dräneringsinformation, vegetationstäcke enligt deras studiebehov. I maskininlärningsträning för kartläggning av känslighet för jordskred krävs utbildning och testdatauppsättningar. Det finns två metoder för att allokera datauppsättningar för träning och testning, en är att slumpmässigt dela upp studieområdet för datauppsättningarna, en annan är att dela upp hela studien i två intilliggande delar för de två datauppsättningarna. För att testa klassificeringsmodellerna är praxis att dela upp studieområdet slumpmässigt i två datauppsättningar, men det är mer användbart att studieområdet kan delas upp i två intilliggande delar så att automationsalgoritmen kan utföra kartläggning av ett nytt område med inmatning av expertbearbetade data från angränsande mark.

Exempel på tillämpning inom *jordskredkänslighet/riskkartläggning*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Skredkänslighetsbedömning	Digital Elevation Model (DEM), Geologisk karta, 30m Landsat-bilder	Fruška Gora Mountain, Serbien	Support Vector Machine (SVM), Beslutsträd , Logistisk tillbakagång	Support Vector Machine (SVM) överträffar de andra
Kartläggning av känslighet för jordskred	ASTER satellitbaserad geomorfisk data, geologiska kartor	Honshu Island, Japan	Artificiellt neuralt nätverk (ANN)	Noggrannhet större än 90 % för att bestämma sannolikheten för jordskred.
Mottaglighet för jordskred Zonering genom betyg	Rumsliga datalager med backe, aspekt, relativ lättnad, litologi, strukturella egenskaper, markanvändning, marktäckning, dräneringstäthet	Delar av distrikten Chamoli och Rudraprayag i delstaten Uttarakhand, Indien	Artificiellt neuralt nätverk (ANN)	AUC för detta tillvägagångssätt når 0,88. Detta tillvägagångssätt genererade en korrekt bedömning av skredrisker.
Regional skredriskanalys	Topografisk lutning, topografisk aspekt, topografisk krökning, avstånd från dränering, litologi, avstånd från lineament, landtäcke från TM satellitbilder, Vegetationsindex (NDVI), nederbördsdata	Den östra delen av delstaten Selangor, Malaysia	Artificiellt neuralt nätverk (ANN)	Tillvägagångssättet uppnådde 82,92 % noggrannhet i förutsägelsen.

Funktionsidentifiering och upptäckt

Dataförstärkningsteknik Vid utarbetandet av datamängden för igenkänning av bergsprickor genomfördes dataförstärkning. Denna teknik används ofta för att öka storleken på träningsdatauppsättningen. Även om de slumpmässigt beskurna proverna och de vändande proverna kommer från samma bild, är de bearbetade proverna unika för inlärningen. Denna teknik kan förhindra problemet med databrist och modellens överanpassningsproblem.

Diskontinuitetsanalyser

Diskontinuiteter som ett förkastningsplan , bäddplan etc har viktiga implikationer inom tekniken. Bergsprickor kan identifieras automatiskt genom maskininlärning genom fotogrammetrisk analys även med närvaron av störande föremål, till exempel bladväxt, stavformad vegetation etc. Vid maskinutbildning för att klassificera bilder är dataförstärkning en vanlig praxis för att undvika överanpassning och öka utbildningsdataset. Till exempel, i en forskning för att känna igen bergsprickor, förbereddes 68 bilder för träning och 23 bilder för testdatauppsättningen genom slumpmässig uppdelning. Dataökning genomfördes sedan och träningsdatauppsättningen utökades till 8704 bilder genom vändning och slumpmässig beskärning. Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten var över 0,99. Detta visade robustheten i diskontinuitetsanalyser med maskininlärning.

Exempel på tillämpning i *diskontinuitetsanalyser*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Igenkänning av bergsprickor	Stenbilder insamlade i fältundersökning	Gwanak Mountain och Bukhan Mountain, Seoul, Korea och Jeongseon-gun, Gangwon-do, Korea	Convolutional Neural Network (CNN)	Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten är över 0,99.

Detektering av koldioxidläckage

Att kvantifiera koldioxidläckage från en geologisk lagringsplats har fått allt större uppmärksamhet eftersom allmänheten är intresserad av huruvida koldioxid lagras under jord säkert och effektivt. En geologisk lagringsplats är för att fånga upp växthusgaser och begrava djupt under jorden i de geologiska formationerna. Koldioxidläckage från en geologisk lagringsplats kan detekteras indirekt genom planetstressrespons med hjälp av fjärranalys och en oövervakad klustringsalgoritm ( Iterative Self-Organizing Data Analysis Technique (ISODATA) metod). Ökningen i markens CO ₂ -koncentration orsakar en stressreaktion för växterna genom att hämma växternas andning då syre tränger undan av koldioxid. Stresssignalen från vegetationen kan detekteras med Red Edge Index (REI). De hyperspektrala bilderna bearbetas av den oövervakade algoritmen klustrar pixlar med liknande växtsvar. Den hyperspektrala informationen i områden med känt CO ₂ läckage extraherades så att områden med CO ₂ läckage kan matchas med de klustrade pixlarna med spektrala anomalier. Även om tillvägagångssättet kan identifiera CO ₂ -läckage effektivt, finns det vissa begränsningar som kräver ytterligare studier. Red Edge Index (REI) kanske inte är korrekt på grund av skäl som högre klorofyllabsorption, variation i vegetation och skuggeffekter, därför identifierades vissa stressade pixlar felaktigt som friska pixlar. Säsongsvariation , grundvattenytans höjd kan också påverka växtlighetens stressrespons på CO _{2 .}

Exempel på användning inom *koldioxidläckagedetektion*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Detektering av CO ₂ -läckage från en geologisk lagringsplats	Hyperspektrala flygbilder	Zero Emissions Research and Technology (ZERT), USA	Iterative Self-Organizing Data Analysis Technique (ISODATA) metod	Tillvägagångssättet kunde upptäcka områden med CO ₂ -läckage, men andra faktorer som vegetationens växtsäsonger stör också resultaten.

Kvantifiering av vatteninflöde

Rock Mass Rating (RMR) System är ett världsomspännande antaget klassificeringssystem för bergmassa genom geomekaniska medel med inmatning av sex parametrar. Mängden vatteninflöde är en av ingångarna i klassificeringsschemat, som representerar grundvattnets tillstånd. Kvantifiering av vatteninflödet i sidorna av en bergtunnel utfördes traditionellt genom visuell observation i fält, vilket är arbete och tidskrävande med säkerhetshänsyn. Maskininlärning kan bestämma vatteninflödet genom att analysera bilder tagna på byggarbetsplatsen. Klassificeringen av tillvägagångssättet följer för det mesta RMR-systemet men genom att kombinera fuktigt och vått tillstånd är det svårt att särskilja endast genom visuell inspektion. Bilderna klassificerades i icke-skadligt tillstånd, vått tillstånd, droppande tillstånd, flytande tillstånd och forsande tillstånd. Noggrannheten för att klassificera bilderna var cirka 90 %.

Exempel på tillämpning vid *kvantifiering av vatteninflöde*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Kvantifiering av vatteninflöde i bergtunnelytor	Bilder på vatteninflöde	-	Convolutional Neural Network (CNN)	Metoden uppnådde en genomsnittlig noggrannhet på 93,01 %.

Klassificering

Markklassificering

Den mest populära kostnadseffektiva metoden för markundersökningsmetoden är genom Cone Penetration Testing (CPT). Testet utförs genom att trycka en metallkon genom jorden och kraften som krävs för att trycka med konstant hastighet registreras som en kvasi-kontinuerlig stock. Maskininlärning kan klassificera jord med indata från konpenetrationstestloggdata. I ett försök att klassificera med maskininlärning finns det två delar av uppgifter som krävs för att analysera data, som är segmenterings- och klassificeringsdelarna. Segmenteringsdelen kan utföras med algoritmen Constraint Clustering and Classification (CONCC) för att dela upp en enskild seriedata i segment. Klassificeringsdelen kan utföras av Decision Trees (DT), Artificial Neural Network (ANN) eller Support Vector Machine (SVM). När man jämför de tre algoritmerna visar det sig att det artificiella neurala nätverket (ANN) presterade bäst i att klassificera humous lera och torv, medan beslutsträden presterade bäst i att klassificera lerig torv. Klassificeringen med denna metod kan nå mycket hög noggrannhet, även för det mest komplexa problemet var dess noggrannhet 83%, och den felaktigt klassificerade klassen var en geologiskt närliggande. Med tanke på det faktum att sådan noggrannhet är tillräcklig för de flesta experter, kan noggrannheten i ett sådant tillvägagångssätt betraktas som 100 %.

Exempel på tillämpning i *markklassificering*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Markklassificering	Loggar för konpenetrationstest (CPT).	-	Beslutsträd, Artificiellt neuralt nätverk (ANN), Stöd Vector Machine	Det artificiella neurala nätverket (ANN) överträffade de andra när det gällde att klassificera humous lera och torv, medan beslutsträden överträffade de andra i klassificeringen av lerig torv. Support Vector Machine gav sämst prestanda av de tre.

Geologisk strukturklassificering

Effekt av färgbild och gråskalebild Figuren visar en bild av ett veck. Den vänstra bilden visar en färgbild, medan den till höger visar en gråskalebild. Skillnaden i noggrannheten för att klassificera den geologiska strukturen mellan färgbilder och gråskalebilder är liten.

Exponerade geologiska strukturer som antiklin , krusningsmärken , xenolit , repor, ptygmatiska veck , förkastning, konkretion, lersprickor, gneissos, boudin , basaltpelare och vall kan identifieras automatiskt med en djupinlärningsmodell . Forskning visade att Three-layer Convolutional Neural Network (CNN) och Transfer Learning har stor noggrannhet på cirka 80% respektive 90%, medan andra som K-nearest neighbours (KNN), Artificiellt neuralt nätverk (ANN) och Extreme Gradient Boosting (XGBoost) ) har låg noggrannhet, varierar från 10 % - 30 %. Gråskalebilderna och färgbilderna testades båda, och noggrannhetsskillnaden är liten, vilket drar slutsatsen att färgen inte är särskilt viktig för att identifiera geologiska strukturer.

Exempel på tillämpning i *geologisk strukturklassificering*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Klassificering av geologiska strukturer	Bilder av geologiska strukturer	-	K närmaste grannar (KNN), Artificiellt neuralt nätverk (ANN), Extreme Gradient Boosting (XGBoost), Tre-lagers Convolutional Neural Network (CNN), Överför lärande	Trelagers Convolutional Neural Network (CNN) och Transfer Learning nådde en noggrannhet på upp till cirka 80 % respektive 90 %, medan andra var relativt låga, varierade från cirka 10 % till 30 %.

Prognos och förutsägelser

Tidiga varningssystem och prognoser för jordbävningar

System för tidig varning för jordbävningar är ofta känsliga för lokalt impulsivt ljud och ger därför ut falska varningar. Falska varningar kan elimineras genom att skilja jordbävningsvågformerna från brussignaler med hjälp av maskininlärningsmetoder. Metoden består av två delar, den första delen är oövervakad inlärning med Generative Adversarial Network (GAN) för att lära sig och extrahera funktioner i första ankomst P-vågor och Random Forest för att särskilja P-vågor. Tillvägagångssättet uppnådde 99,2 % i att känna igen P-vågor och kan undvika falska triggers av brussignaler med 98,4 % noggrannhet.

Laboratoriejordbävningar produceras i laboratoriemiljö för att efterlikna verkliga jordbävningar. Med hjälp av maskininlärning kan mönster av akustiska signaler som föregångare till jordbävningar identifieras utan att man behöver söka manuellt. Att förutsäga återstående tid innan fel demonstrerades i en forskning med kontinuerliga akustiska tidsseriedata registrerade från ett fel. Algoritmen som tillämpades var Random Forest-tränad med cirka 10 sliphändelser och presterade utmärkt i att förutsäga den återstående tiden till misslyckande. Den identifierade akustiska signaler för att förutsäga fel, och en av dem var tidigare oidentifierad. Även om denna laboratoriejordbävning inte är lika komplex som jordens, gör detta viktiga framsteg som styr ytterligare jordbävningsarbete i framtiden.

Exempel på tillämpningar i *jordbävningsprediktion*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Diskriminerande jordbävningsvågformer	Jordbävningsdatauppsättning	Södra Kalifornien och Japan	Generative Adversarial Network (GAN), Random Forest	Tillvägagångssättet kan känna igen P-vågor med 99,2 % noggrannhet och undvika falska triggers av brussignaler med 98,4 % noggrannhet.
Förutsäger återstående tid för nästa jordbävning	Kontinuerliga akustiska tidsseriedata	-	Random Forest	R2- ^värdet för förutsägelsen nådde 0,89, vilket visade utmärkt prestanda.

Förutsägelse av strömflödesutsläpp

Strömflödesdata i realtid är integrerad för beslutsfattande, till exempel evakueringar, reglering av reservoarvattennivåer under en översvämningshändelse. Strömflödesdata kan uppskattas genom information från strömmätare som mäter vattennivån i en flod. Däremot kan vatten och skräp från en översvämningshändelse skada streamgages och viktig realtidsdata kommer att saknas. Förmågan hos maskininlärning att sluta sig till saknad data gör det möjligt för den att förutsäga strömflöde med både historisk strömdata och realtidsdata. SHEM är en modell som refererar till Streamflow Hydrology Estimate med hjälp av Machine Learning som kan tjäna syftet. För att verifiera dess noggrannhet jämfördes förutsägelseresultatet med de faktiska registrerade data och noggrannheterna visade sig vara mellan 0,78 till 0,99.

Exempel på tillämpning i *Streamflow Discharge Prediction*
Mål	Indatauppsättning	Plats	Machine Learning Algorithms (MLA)	Prestanda
Strömflödesuppskattning med data som saknas	Streamgage data från NWIS-Web	Fyra olika vattendelar i Idaho och Washington, USA	Slumpmässiga skogar	Uppskattningarna korrelerade väl med de historiska data om utsläppen. Noggrannheten sträcker sig från 0,78 till 0,99.

Utmaning

Otillräckliga träningsdata

En tillräcklig mängd utbildnings- och valideringsdata krävs för maskininlärning. Vissa mycket användbara produkter som satellitfjärranalysdata har dock bara decennier av data sedan 1970-talet. Om man är intresserad av årsdata, är det bara mindre än 50 prover tillgängliga. En sådan mängd data kanske inte är tillräcklig. I en studie av automatisk klassificering av geologiska strukturer är modellens svaghet den lilla träningsdatauppsättningen, även om med hjälp av dataförstärkning för att öka datasetets storlek. En annan studie av att förutsäga strömflöde fann att noggrannheterna beror på tillgången på tillräcklig historisk data, därför avgör tillräcklig träningsdata prestandan för maskininlärning. Otillräckliga träningsdata kan leda till ett problem som kallas överanpassning. Överanpassning orsakar felaktigheter i maskininlärning eftersom modellen lär sig om bruset och oönskade detaljer.

Begränsad av datainmatning

Maskininlärning kan inte utföra vissa av uppgifterna som en människa gör lätt. Till exempel, vid kvantifieringen av vatteninflödet i bergtunnelytorna med bilder för Rock Mass Rating System (RMR), klassificerades inte fukt och vått tillstånd genom maskininlärning eftersom det inte är möjligt att särskilja de två endast genom visuell inspektion. I vissa uppgifter kanske maskininlärning inte helt kan ersätta manuellt arbete av en människa.

Black-box-drift

Black-box-drift av vissa maskininlärningsalgoritmer I en black-box-operation känner en användare bara till ingången och utmatningen men inte processen. Artificiellt neuralt nätverk (ANN) är ett exempel på en black-box-operation. Användaren har inget sätt att förstå logiken i de dolda lagren.

I många maskininlärningsalgoritmer, till exempel Artificiellt neuralt nätverk (ANN), betraktas det som en " svart låda "-metod eftersom tydliga samband och beskrivningar av hur resultaten genereras i de dolda lagren är okända. "White-box" tillvägagångssätt som beslutsträd kan avslöja algoritmdetaljerna för användarna. Om man vill undersöka sambanden är sådana "black box"-metoder inte lämpliga. Men prestandan för "black box"-algoritmer är vanligtvis bättre.