Maskininlärning inom geovetenskap

Tillämpningar av maskininlärning inom geovetenskap inkluderar geologisk kartläggning , upptäckt av gasläckage och identifiering av geologiska egenskaper. Maskininlärning (ML) är en typ av artificiell intelligens (AI) som gör det möjligt för datorsystem att klassificera, gruppera, identifiera och analysera stora och komplexa uppsättningar data samtidigt som behovet av explicita instruktioner och programmering elimineras. Geovetenskap är studiet av ursprunget, evolutionen och framtiden för planeten Jorden . Jordsystemet kan delas in i fyra huvudkomponenter inklusive den fasta jorden , atmosfären , hydrosfären och biosfären .

En mängd olika algoritmer kan användas beroende på karaktären av geovetenskaplig utforskning. Vissa algoritmer kan prestera betydligt bättre än andra för särskilda syften. Till exempel konvolutionella neurala nätverk (CNN) bra på att tolka bilder, artificiella neurala nätverk (ANN) presterar bra i jordklassificering men dyrare beräkningsmässigt att träna än stödvektormaskin (SVM) inlärning. Tillämpningen av maskininlärning har varit populär under de senaste decennierna, eftersom utvecklingen av andra tekniker såsom obemannade flygfarkoster (UAV), fjärranalysteknik med ultrahög upplösning och högpresterande beräkningsenheter leder till tillgängligheten av stora högkvalitativa datamängder och mer avancerade algoritmer .

Betydelse

Geovetenskapens komplexitet

Problem inom geovetenskap är ofta komplexa. Det är svårt att tillämpa välkända och beskrivna matematiska modeller på den naturliga miljön, därför är maskininlärning vanligtvis ett bättre alternativ för sådana icke-linjära problem. Ekologiska data är vanligtvis icke-linjära och består av interaktioner av högre ordning, och tillsammans med saknade data kan traditionell statistik underprestera eftersom orealistiska antaganden som linjäritet tillämpas på modellen. Ett antal forskare fann att maskininlärning överträffar traditionella statistiska modeller inom geovetenskap, till exempel när det gäller att karakterisera skogskronornas struktur , förutsäga klimatinducerade räckviddsförskjutningar och avgränsa geologiska förhållanden. Karakteriserande struktur av skogskronorna gör det möjligt för forskare att studera vegetationens reaktion på klimatförändringar. Att förutsäga klimatinducerade räckviddsförskjutningar gör det möjligt för beslutsfattare att anta lämpliga samtalsmetoder för att övervinna konsekvenserna av klimatförändringar. Att avgränsa geologiska facies hjälper geologer att förstå geologin i ett område, vilket är avgörande för utveckling och förvaltning av ett område.

Otillgängliga data

Inom geovetenskap är vissa data ofta svåra att komma åt eller samla in, därför är det önskvärt att sluta sig till data från data som är lättillgängliga genom en maskininlärningsmetod. Till exempel är geologisk kartläggning i tropiska regnskogar utmanande eftersom det tjocka vegetationstäcket och berghällarna är dåligt exponerade. Att tillämpa fjärranalys med metoder för maskininlärning ger ett alternativt sätt för snabb kartläggning utan behov av manuell kartläggning i de onåbara områdena.

Minska tidskostnaderna

Maskininlärning kan också minska ansträngningarna som görs av experter, eftersom manuella uppgifter med klassificering och anteckning etc är flaskhalsarna i arbetsflödet för forskningen inom geovetenskap. Geologisk kartläggning, särskilt i ett vidsträckt, avlägset område är arbets-, kostnads- och tidskrävande med traditionella metoder. Inkorporering av metoder för fjärranalys och maskininlärning kan ge en alternativ lösning för att eliminera vissa behov av fältkartläggning.

Konsekvent och fördomsfri

Konsistens och fördomsfri är också en fördel med maskininlärning jämfört med manuella arbeten av människor. I forskning som jämför prestanda för mänsklig och maskininlärning vid identifiering av dinoflagellater , visar sig maskininlärning inte vara lika benägen för systematisk fördom som människor. En nyligen genomförd effekt som finns hos människor är att klassificeringen ofta riktar sig mot de senast återkallade klasserna. I en märkningsuppgift av forskningen, om en sorts dinoflagellater sällan förekommer i proverna, kommer expertekologer vanligtvis inte att klassificera det korrekt. Den systematiska fördomen försämrar kraftigt klassificeringsnoggrannheten hos människor.

Optimal maskininlärningsalgoritm

Den omfattande användningen av maskininlärning inom olika områden har lett till att ett brett utbud av algoritmer för inlärningsmetoder tillämpas. Maskininlärningsalgoritmen som tillämpas för att lösa geovetenskapliga problem i stort intresse för forskarna. Att välja den optimala algoritmen för ett specifikt ändamål kan leda till en betydande ökning av noggrannheten. Till exempel visar den litologiska kartläggningen av guldbärande granit-grönstensstenar i Hutti, Indien med AVIRIS-NG hyperspektral data, mer än 10 % skillnad i övergripande noggrannhet mellan att använda Support Vector Machine (SVM) och slumpmässig skog . Vissa algoritmer kan också avslöja viktig information. "White-box-modeller" är transparenta modeller där resultaten och metoderna lätt kan förklaras, medan "black-box"-modeller är motsatsen. Till exempel, även om stödvektormaskinen (SVM) gav det bästa resultatet i noggrannhet i bedömning av jordskredmottaglighet, kan resultatet inte skrivas om i form av expertregler som förklarar hur och varför ett område klassificerades som den specifika klassen. Däremot beslutsträdet en transparent modell som lätt kan förstås, och användaren kan observera och åtgärda eventuella bias i modellen. Om beräkningskraften är ett problem är en mer beräkningskrävande inlärningsmetod såsom artificiellt neurala nätverk mindre föredraget trots att artificiella neurala nätverk kan överträffa andra algoritmer, såsom i jordklassificering.

Nedan är höjdpunkter för några vanligt använda algoritmer.

Användande

Kartläggning

Geologisk eller litologisk kartläggning och mineralprospektivitetskartering

Geologisk eller litologisk kartläggning producerar kartor som visar geologiska egenskaper och geologiska enheter. Kartläggning av mineralprospektivitet använder en mängd olika datauppsättningar som geologiska kartor, flygmagnetiska bilder etc för att producera kartor som är specialiserade för mineralutforskning. Geologisk/litologisk kartläggning och kartläggning av mineralprospektivitet kan utföras genom att bearbeta data med maskininlärningstekniker med inmatning av spektralbilder erhållna från fjärranalys och geofysiska data. Spektralbilder är avbildningen av utvalda elektromagnetiska våglängdsband i det elektromagnetiska spektrumet, medan konventionell avbildning fångar tre våglängdsband (röd, grön, blå) i det elektromagnetiska spektrumet. Random Forest and Support Vector Machine (SVM) etc är vanliga algoritmer som används med fjärravkända geofysiska data, medan Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN) och Convolutional Neural Networks (CNN) etc vanligtvis används vid hantering av antenn. foton och bilder. Storskalig kartläggning kan utföras med geofysiska data från luftburen och satellitfjärranalys av geofysiska data, och mindre skala kartläggning kan utföras med bilder från Unmanned Aerial Vehicle (UAV) för högre upplösning.

Vegetationstäcke är ett av de stora hindren för geologisk kartläggning med fjärranalys, vilket rapporterats i olika forskning, både inom storskalig och småskalig kartläggning. Vegetation påverkar kvaliteten på spektralbilden eller skymmer berginformationen i flygbilderna.

Exempel på tillämpning inom geologisk/litologisk kartläggning och mineralprospektivitetskartläggning
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Litologisk kartläggning av guldbärande granitgrönstensklippor AVIRIS-NG hyperspektral data Hutti, Indien Linjär diskrimineringsanalys (LDA) ,

Random Forest ,

Support Vector Machine (SVM)

Support Vector Machine (SVM) överträffar de andra maskininlärningsalgoritmerna (MLA)
Litologisk kartläggning i den tropiska regnskogen Magnetisk vektorinversion,

Ternär RGB-karta,

Shuttle Radar Topography Mission (SRTM) ,

Falsk färg (RGB) på Landsat 8 som kombinerar band 4, 3 och 2

Cinzento Lineament, Brasilien Random Forest Två prediktiva kartor genererades:

(1) Karta genererad med fjärranalysdata har bara en 52,7 % noggrannhet jämfört med den geologiska kartan, men flera nya möjliga litologiska enheter har identifierats

(2) Karta genererad med fjärranalysdata och rumsliga begränsningar har en noggrannhet på 78,7 % men inga nya möjliga litologiska enheter identifieras

Geologisk kartläggning för mineralprospektering Luftburen polarimetrisk terrängobservation med progressiva skanningar SAR (TopSAR),

geofysiska data

Västra Tasmanien Random Forest Låg tillförlitlighet för TopSAR för geologisk kartläggning, men exakt med geofysiska data.
Geologisk och mineralogisk kartläggning [ citat behövs ] Multispektrala och hyperspektrala satellitdata Central Jebilet,

Marocko

Support Vector Machine (SVM) Noggrannheten för att använda hyperspektrala data för klassificering är något högre än att använda multispektral data, med 93,05 % respektive 89,24 %, vilket visar att maskininlärning är ett tillförlitligt verktyg för mineralutforskning.
Integrera multigeofysiska data i en klusterkarta Luftburen magnetisk,

frekvens elektromagnetiska, radiometriska mätningar,

gravitationsmätningar på marken

Trøndelag, Mellannorge Random Forest Den producerade klusterkartan har ett tillfredsställande förhållande till den befintliga geologiska kartan men med mindre misspassningar.
Högupplöst geologisk kartläggning med obemannat flygfarkost (UAV) Ultraupplösta RGB-bilder Taili vid vattnet,

Liaoning-provinsen,

Kina

Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN) Resultatet är tillfredsställande vid kartläggning av större geologiska enheter men visade dålig prestanda vid kartläggning av pegmatiter, finkorniga bergarter och vallar. UAV:er kunde inte samla steninformation där stenarna inte var exponerade.
Kartläggning av ytlig geologi

Remote Predictive Mapping (RPM)

Flygfoton ,

Landsat Reflection,

Högupplösta digitala höjddata

South Rae Geological Region,

Nordvästra territorium,

Kanada

Convolutional Neural Networks (CNN),

Random Forest

Den resulterande noggrannheten för CNN var 76 % i det lokalt tränade området, medan 68 % för ett oberoende testområde. CNN uppnådde en något högre noggrannhet på 4% än Random Forest.

Metoder för att dela upp datamängderna i träningsdatauppsättningar och testdatauppsättningar Eftersom träning av maskininlärning för kartläggning av jordskredskänslighet kräver både träning och testdatauppsättning krävs därför uppdelning av datauppsättningen. Två uppdelningsmetoder för datamängderna presenteras på den geologiska kartan över den östra Cumberland Gap. Metoden som presenteras till vänster, "Dela upp i två angränsande områden" är mer användbar eftersom automationsalgoritmen kan utföra kartläggning av ett nytt område med inmatning av expertbearbetade data från angränsande mark. De cyanfärgade pixlarna visar träningsdatauppsättningen medan de återstående visar testdatauppsättningarna.

Skredkänslighet och kartläggning av faror

Skredkänslighet avser sannolikheten för jordskred på en plats, som påverkas av de lokala terrängförhållandena. Kartläggning av känslighet för jordskred kan belysa områden som är utsatta för jordskredrisker som är användbara för stadsplanering och katastrofhantering. Indatadataset för maskininlärningsalgoritmer inkluderar vanligtvis topografisk information, litologisk information, satellitbilder etc. och vissa kan inkludera markanvändning, marktäcke, dräneringsinformation, vegetationstäcke enligt deras studiebehov. I maskininlärningsträning för kartläggning av känslighet för jordskred krävs utbildning och testdatauppsättningar. Det finns två metoder för att allokera datauppsättningar för träning och testning, en är att slumpmässigt dela upp studieområdet för datauppsättningarna, en annan är att dela upp hela studien i två intilliggande delar för de två datauppsättningarna. För att testa klassificeringsmodellerna är praxis att dela upp studieområdet slumpmässigt i två datauppsättningar, men det är mer användbart att studieområdet kan delas upp i två intilliggande delar så att automationsalgoritmen kan utföra kartläggning av ett nytt område med inmatning av expertbearbetade data från angränsande mark.

Exempel på tillämpning inom jordskredkänslighet/riskkartläggning
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Skredkänslighetsbedömning Digital Elevation Model (DEM),

Geologisk karta,

30m Landsat-bilder

Fruška Gora Mountain,

Serbien

Support Vector Machine (SVM),

Beslutsträd ,

Logistisk tillbakagång

Support Vector Machine (SVM) överträffar de andra
Kartläggning av känslighet för jordskred ASTER satellitbaserad geomorfisk data,

geologiska kartor

Honshu Island,

Japan

Artificiellt neuralt nätverk (ANN) Noggrannhet större än 90 % för att bestämma sannolikheten för jordskred.
Mottaglighet för jordskred Zonering genom betyg Rumsliga datalager med

backe,

aspekt,

relativ lättnad,

litologi,

strukturella egenskaper,

markanvändning,

marktäckning,

dräneringstäthet

Delar av distrikten Chamoli och Rudraprayag i delstaten Uttarakhand,

Indien

Artificiellt neuralt nätverk (ANN) AUC för detta tillvägagångssätt når 0,88. Detta tillvägagångssätt genererade en korrekt bedömning av skredrisker.
Regional skredriskanalys Topografisk lutning,

topografisk aspekt,

topografisk krökning, avstånd från dränering,

litologi,

avstånd från lineament,

landtäcke från TM satellitbilder,

Vegetationsindex (NDVI),

nederbördsdata

Den östra delen av delstaten Selangor,

Malaysia

Artificiellt neuralt nätverk (ANN) Tillvägagångssättet uppnådde 82,92 % noggrannhet i förutsägelsen.

Funktionsidentifiering och upptäckt


Dataförstärkningsteknik Vid utarbetandet av datamängden för igenkänning av bergsprickor genomfördes dataförstärkning. Denna teknik används ofta för att öka storleken på träningsdatauppsättningen. Även om de slumpmässigt beskurna proverna och de vändande proverna kommer från samma bild, är de bearbetade proverna unika för inlärningen. Denna teknik kan förhindra problemet med databrist och modellens överanpassningsproblem.

Diskontinuitetsanalyser

Diskontinuiteter som ett förkastningsplan , bäddplan etc har viktiga implikationer inom tekniken. Bergsprickor kan identifieras automatiskt genom maskininlärning genom fotogrammetrisk analys även med närvaron av störande föremål, till exempel bladväxt, stavformad vegetation etc. Vid maskinutbildning för att klassificera bilder är dataförstärkning en vanlig praxis för att undvika överanpassning och öka utbildningsdataset. Till exempel, i en forskning för att känna igen bergsprickor, förbereddes 68 bilder för träning och 23 bilder för testdatauppsättningen genom slumpmässig uppdelning. Dataökning genomfördes sedan och träningsdatauppsättningen utökades till 8704 bilder genom vändning och slumpmässig beskärning. Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten var över 0,99. Detta visade robustheten i diskontinuitetsanalyser med maskininlärning.

Exempel på tillämpning i diskontinuitetsanalyser
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Igenkänning av bergsprickor Stenbilder insamlade i fältundersökning Gwanak Mountain och Bukhan Mountain,

Seoul,

Korea

och

Jeongseon-gun, Gangwon-do,

Korea

Convolutional Neural Network (CNN) Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten är över 0,99.

Detektering av koldioxidläckage

Att kvantifiera koldioxidläckage från en geologisk lagringsplats har fått allt större uppmärksamhet eftersom allmänheten är intresserad av huruvida koldioxid lagras under jord säkert och effektivt. En geologisk lagringsplats är för att fånga upp växthusgaser och begrava djupt under jorden i de geologiska formationerna. Koldioxidläckage från en geologisk lagringsplats kan detekteras indirekt genom planetstressrespons med hjälp av fjärranalys och en oövervakad klustringsalgoritm ( Iterative Self-Organizing Data Analysis Technique (ISODATA) metod). Ökningen i markens CO 2 -koncentration orsakar en stressreaktion för växterna genom att hämma växternas andning då syre tränger undan av koldioxid. Stresssignalen från vegetationen kan detekteras med Red Edge Index (REI). De hyperspektrala bilderna bearbetas av den oövervakade algoritmen klustrar pixlar med liknande växtsvar. Den hyperspektrala informationen i områden med känt CO 2 läckage extraherades så att områden med CO 2 läckage kan matchas med de klustrade pixlarna med spektrala anomalier. Även om tillvägagångssättet kan identifiera CO 2 -läckage effektivt, finns det vissa begränsningar som kräver ytterligare studier. Red Edge Index (REI) kanske inte är korrekt på grund av skäl som högre klorofyllabsorption, variation i vegetation och skuggeffekter, därför identifierades vissa stressade pixlar felaktigt som friska pixlar. Säsongsvariation , grundvattenytans höjd kan också påverka växtlighetens stressrespons på CO 2 .

Exempel på användning inom koldioxidläckagedetektion
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Detektering av CO 2 -läckage från en geologisk lagringsplats Hyperspektrala flygbilder Zero Emissions Research and Technology (ZERT),

USA

Iterative Self-Organizing Data Analysis Technique (ISODATA) metod Tillvägagångssättet kunde upptäcka områden med CO 2 -läckage, men andra faktorer som vegetationens växtsäsonger stör också resultaten.

Kvantifiering av vatteninflöde

Rock Mass Rating (RMR) System är ett världsomspännande antaget klassificeringssystem för bergmassa genom geomekaniska medel med inmatning av sex parametrar. Mängden vatteninflöde är en av ingångarna i klassificeringsschemat, som representerar grundvattnets tillstånd. Kvantifiering av vatteninflödet i sidorna av en bergtunnel utfördes traditionellt genom visuell observation i fält, vilket är arbete och tidskrävande med säkerhetshänsyn. Maskininlärning kan bestämma vatteninflödet genom att analysera bilder tagna på byggarbetsplatsen. Klassificeringen av tillvägagångssättet följer för det mesta RMR-systemet men genom att kombinera fuktigt och vått tillstånd är det svårt att särskilja endast genom visuell inspektion. Bilderna klassificerades i icke-skadligt tillstånd, vått tillstånd, droppande tillstånd, flytande tillstånd och forsande tillstånd. Noggrannheten för att klassificera bilderna var cirka 90 %.

Exempel på tillämpning vid kvantifiering av vatteninflöde
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Kvantifiering av vatteninflöde i bergtunnelytor Bilder på vatteninflöde - Convolutional Neural Network (CNN) Metoden uppnådde en genomsnittlig noggrannhet på 93,01 %.

Klassificering

Markklassificering

Den mest populära kostnadseffektiva metoden för markundersökningsmetoden är genom Cone Penetration Testing (CPT). Testet utförs genom att trycka en metallkon genom jorden och kraften som krävs för att trycka med konstant hastighet registreras som en kvasi-kontinuerlig stock. Maskininlärning kan klassificera jord med indata från konpenetrationstestloggdata. I ett försök att klassificera med maskininlärning finns det två delar av uppgifter som krävs för att analysera data, som är segmenterings- och klassificeringsdelarna. Segmenteringsdelen kan utföras med algoritmen Constraint Clustering and Classification (CONCC) för att dela upp en enskild seriedata i segment. Klassificeringsdelen kan utföras av Decision Trees (DT), Artificial Neural Network (ANN) eller Support Vector Machine (SVM). När man jämför de tre algoritmerna visar det sig att det artificiella neurala nätverket (ANN) presterade bäst i att klassificera humous lera och torv, medan beslutsträden presterade bäst i att klassificera lerig torv. Klassificeringen med denna metod kan nå mycket hög noggrannhet, även för det mest komplexa problemet var dess noggrannhet 83%, och den felaktigt klassificerade klassen var en geologiskt närliggande. Med tanke på det faktum att sådan noggrannhet är tillräcklig för de flesta experter, kan noggrannheten i ett sådant tillvägagångssätt betraktas som 100 %.

Exempel på tillämpning i markklassificering
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Markklassificering Loggar för konpenetrationstest (CPT). - Beslutsträd,

Artificiellt neuralt nätverk (ANN),

Stöd Vector Machine

Det artificiella neurala nätverket (ANN) överträffade de andra när det gällde att klassificera humous lera och torv, medan beslutsträden överträffade de andra i klassificeringen av lerig torv. Support Vector Machine gav sämst prestanda av de tre.

Geologisk strukturklassificering

Effekt av färgbild och gråskalebild Figuren visar en bild av ett veck. Den vänstra bilden visar en färgbild, medan den till höger visar en gråskalebild. Skillnaden i noggrannheten för att klassificera den geologiska strukturen mellan färgbilder och gråskalebilder är liten.

Exponerade geologiska strukturer som antiklin , krusningsmärken , xenolit , repor, ptygmatiska veck , förkastning, konkretion, lersprickor, gneissos, boudin , basaltpelare och vall kan identifieras automatiskt med en djupinlärningsmodell . Forskning visade att Three-layer Convolutional Neural Network (CNN) och Transfer Learning har stor noggrannhet på cirka 80% respektive 90%, medan andra som K-nearest neighbours (KNN), Artificiellt neuralt nätverk (ANN) och Extreme Gradient Boosting (XGBoost) ) har låg noggrannhet, varierar från 10 % - 30 %. Gråskalebilderna och färgbilderna testades båda, och noggrannhetsskillnaden är liten, vilket drar slutsatsen att färgen inte är särskilt viktig för att identifiera geologiska strukturer.

Exempel på tillämpning i geologisk strukturklassificering
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Klassificering av geologiska strukturer Bilder av geologiska strukturer - K närmaste grannar (KNN),

Artificiellt neuralt nätverk (ANN),

Extreme Gradient Boosting (XGBoost),

Tre-lagers Convolutional Neural Network (CNN),

Överför lärande

Trelagers Convolutional Neural Network (CNN) och Transfer Learning nådde en noggrannhet på upp till cirka 80 % respektive 90 %, medan andra var relativt låga, varierade från cirka 10 % till 30 %.

Prognos och förutsägelser

Tidiga varningssystem och prognoser för jordbävningar

System för tidig varning för jordbävningar är ofta känsliga för lokalt impulsivt ljud och ger därför ut falska varningar. Falska varningar kan elimineras genom att skilja jordbävningsvågformerna från brussignaler med hjälp av maskininlärningsmetoder. Metoden består av två delar, den första delen är oövervakad inlärning med Generative Adversarial Network (GAN) för att lära sig och extrahera funktioner i första ankomst P-vågor och Random Forest för att särskilja P-vågor. Tillvägagångssättet uppnådde 99,2 % i att känna igen P-vågor och kan undvika falska triggers av brussignaler med 98,4 % noggrannhet.

Laboratoriejordbävningar produceras i laboratoriemiljö för att efterlikna verkliga jordbävningar. Med hjälp av maskininlärning kan mönster av akustiska signaler som föregångare till jordbävningar identifieras utan att man behöver söka manuellt. Att förutsäga återstående tid innan fel demonstrerades i en forskning med kontinuerliga akustiska tidsseriedata registrerade från ett fel. Algoritmen som tillämpades var Random Forest-tränad med cirka 10 sliphändelser och presterade utmärkt i att förutsäga den återstående tiden till misslyckande. Den identifierade akustiska signaler för att förutsäga fel, och en av dem var tidigare oidentifierad. Även om denna laboratoriejordbävning inte är lika komplex som jordens, gör detta viktiga framsteg som styr ytterligare jordbävningsarbete i framtiden.

Exempel på tillämpningar i jordbävningsprediktion
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Diskriminerande jordbävningsvågformer Jordbävningsdatauppsättning Södra Kalifornien och Japan Generative Adversarial Network (GAN),

Random Forest

Tillvägagångssättet kan känna igen P-vågor med 99,2 % noggrannhet och undvika falska triggers av brussignaler med 98,4 % noggrannhet.
Förutsäger återstående tid för nästa jordbävning Kontinuerliga akustiska tidsseriedata - Random Forest R2- värdet för förutsägelsen nådde 0,89, vilket visade utmärkt prestanda.

Förutsägelse av strömflödesutsläpp

Strömflödesdata i realtid är integrerad för beslutsfattande, till exempel evakueringar, reglering av reservoarvattennivåer under en översvämningshändelse. Strömflödesdata kan uppskattas genom information från strömmätare som mäter vattennivån i en flod. Däremot kan vatten och skräp från en översvämningshändelse skada streamgages och viktig realtidsdata kommer att saknas. Förmågan hos maskininlärning att sluta sig till saknad data gör det möjligt för den att förutsäga strömflöde med både historisk strömdata och realtidsdata. SHEM är en modell som refererar till Streamflow Hydrology Estimate med hjälp av Machine Learning som kan tjäna syftet. För att verifiera dess noggrannhet jämfördes förutsägelseresultatet med de faktiska registrerade data och noggrannheterna visade sig vara mellan 0,78 till 0,99.

Exempel på tillämpning i Streamflow Discharge Prediction
Mål Indatauppsättning Plats Machine Learning Algorithms (MLA) Prestanda
Strömflödesuppskattning med data som saknas Streamgage data från NWIS-Web Fyra olika vattendelar i Idaho och Washington,

USA

Slumpmässiga skogar Uppskattningarna korrelerade väl med de historiska data om utsläppen. Noggrannheten sträcker sig från 0,78 till 0,99.

Utmaning

Otillräckliga träningsdata

En tillräcklig mängd utbildnings- och valideringsdata krävs för maskininlärning. Vissa mycket användbara produkter som satellitfjärranalysdata har dock bara decennier av data sedan 1970-talet. Om man är intresserad av årsdata, är det bara mindre än 50 prover tillgängliga. En sådan mängd data kanske inte är tillräcklig. I en studie av automatisk klassificering av geologiska strukturer är modellens svaghet den lilla träningsdatauppsättningen, även om med hjälp av dataförstärkning för att öka datasetets storlek. En annan studie av att förutsäga strömflöde fann att noggrannheterna beror på tillgången på tillräcklig historisk data, därför avgör tillräcklig träningsdata prestandan för maskininlärning. Otillräckliga träningsdata kan leda till ett problem som kallas överanpassning. Överanpassning orsakar felaktigheter i maskininlärning eftersom modellen lär sig om bruset och oönskade detaljer.

Begränsad av datainmatning

Maskininlärning kan inte utföra vissa av uppgifterna som en människa gör lätt. Till exempel, vid kvantifieringen av vatteninflödet i bergtunnelytorna med bilder för Rock Mass Rating System (RMR), klassificerades inte fukt och vått tillstånd genom maskininlärning eftersom det inte är möjligt att särskilja de två endast genom visuell inspektion. I vissa uppgifter kanske maskininlärning inte helt kan ersätta manuellt arbete av en människa.

Black-box-drift


Black-box-drift av vissa maskininlärningsalgoritmer I en black-box-operation känner en användare bara till ingången och utmatningen men inte processen. Artificiellt neuralt nätverk (ANN) är ett exempel på en black-box-operation. Användaren har inget sätt att förstå logiken i de dolda lagren.

I många maskininlärningsalgoritmer, till exempel Artificiellt neuralt nätverk (ANN), betraktas det som en " svart låda "-metod eftersom tydliga samband och beskrivningar av hur resultaten genereras i de dolda lagren är okända. "White-box" tillvägagångssätt som beslutsträd kan avslöja algoritmdetaljerna för användarna. Om man vill undersöka sambanden är sådana "black box"-metoder inte lämpliga. Men prestandan för "black box"-algoritmer är vanligtvis bättre.