Maskininlärning inom geovetenskap
Tillämpningar av maskininlärning inom geovetenskap inkluderar geologisk kartläggning , upptäckt av gasläckage och identifiering av geologiska egenskaper. Maskininlärning (ML) är en typ av artificiell intelligens (AI) som gör det möjligt för datorsystem att klassificera, gruppera, identifiera och analysera stora och komplexa uppsättningar data samtidigt som behovet av explicita instruktioner och programmering elimineras. Geovetenskap är studiet av ursprunget, evolutionen och framtiden för planeten Jorden . Jordsystemet kan delas in i fyra huvudkomponenter inklusive den fasta jorden , atmosfären , hydrosfären och biosfären .
En mängd olika algoritmer kan användas beroende på karaktären av geovetenskaplig utforskning. Vissa algoritmer kan prestera betydligt bättre än andra för särskilda syften. Till exempel konvolutionella neurala nätverk (CNN) bra på att tolka bilder, artificiella neurala nätverk (ANN) presterar bra i jordklassificering men dyrare beräkningsmässigt att träna än stödvektormaskin (SVM) inlärning. Tillämpningen av maskininlärning har varit populär under de senaste decennierna, eftersom utvecklingen av andra tekniker såsom obemannade flygfarkoster (UAV), fjärranalysteknik med ultrahög upplösning och högpresterande beräkningsenheter leder till tillgängligheten av stora högkvalitativa datamängder och mer avancerade algoritmer .
Betydelse
Geovetenskapens komplexitet
Problem inom geovetenskap är ofta komplexa. Det är svårt att tillämpa välkända och beskrivna matematiska modeller på den naturliga miljön, därför är maskininlärning vanligtvis ett bättre alternativ för sådana icke-linjära problem. Ekologiska data är vanligtvis icke-linjära och består av interaktioner av högre ordning, och tillsammans med saknade data kan traditionell statistik underprestera eftersom orealistiska antaganden som linjäritet tillämpas på modellen. Ett antal forskare fann att maskininlärning överträffar traditionella statistiska modeller inom geovetenskap, till exempel när det gäller att karakterisera skogskronornas struktur , förutsäga klimatinducerade räckviddsförskjutningar och avgränsa geologiska förhållanden. Karakteriserande struktur av skogskronorna gör det möjligt för forskare att studera vegetationens reaktion på klimatförändringar. Att förutsäga klimatinducerade räckviddsförskjutningar gör det möjligt för beslutsfattare att anta lämpliga samtalsmetoder för att övervinna konsekvenserna av klimatförändringar. Att avgränsa geologiska facies hjälper geologer att förstå geologin i ett område, vilket är avgörande för utveckling och förvaltning av ett område.
Otillgängliga data
Inom geovetenskap är vissa data ofta svåra att komma åt eller samla in, därför är det önskvärt att sluta sig till data från data som är lättillgängliga genom en maskininlärningsmetod. Till exempel är geologisk kartläggning i tropiska regnskogar utmanande eftersom det tjocka vegetationstäcket och berghällarna är dåligt exponerade. Att tillämpa fjärranalys med metoder för maskininlärning ger ett alternativt sätt för snabb kartläggning utan behov av manuell kartläggning i de onåbara områdena.
Minska tidskostnaderna
Maskininlärning kan också minska ansträngningarna som görs av experter, eftersom manuella uppgifter med klassificering och anteckning etc är flaskhalsarna i arbetsflödet för forskningen inom geovetenskap. Geologisk kartläggning, särskilt i ett vidsträckt, avlägset område är arbets-, kostnads- och tidskrävande med traditionella metoder. Inkorporering av metoder för fjärranalys och maskininlärning kan ge en alternativ lösning för att eliminera vissa behov av fältkartläggning.
Konsekvent och fördomsfri
Konsistens och fördomsfri är också en fördel med maskininlärning jämfört med manuella arbeten av människor. I forskning som jämför prestanda för mänsklig och maskininlärning vid identifiering av dinoflagellater , visar sig maskininlärning inte vara lika benägen för systematisk fördom som människor. En nyligen genomförd effekt som finns hos människor är att klassificeringen ofta riktar sig mot de senast återkallade klasserna. I en märkningsuppgift av forskningen, om en sorts dinoflagellater sällan förekommer i proverna, kommer expertekologer vanligtvis inte att klassificera det korrekt. Den systematiska fördomen försämrar kraftigt klassificeringsnoggrannheten hos människor.
Optimal maskininlärningsalgoritm
Den omfattande användningen av maskininlärning inom olika områden har lett till att ett brett utbud av algoritmer för inlärningsmetoder tillämpas. Maskininlärningsalgoritmen som tillämpas för att lösa geovetenskapliga problem i stort intresse för forskarna. Att välja den optimala algoritmen för ett specifikt ändamål kan leda till en betydande ökning av noggrannheten. Till exempel visar den litologiska kartläggningen av guldbärande granit-grönstensstenar i Hutti, Indien med AVIRIS-NG hyperspektral data, mer än 10 % skillnad i övergripande noggrannhet mellan att använda Support Vector Machine (SVM) och slumpmässig skog . Vissa algoritmer kan också avslöja viktig information. "White-box-modeller" är transparenta modeller där resultaten och metoderna lätt kan förklaras, medan "black-box"-modeller är motsatsen. Till exempel, även om stödvektormaskinen (SVM) gav det bästa resultatet i noggrannhet i bedömning av jordskredmottaglighet, kan resultatet inte skrivas om i form av expertregler som förklarar hur och varför ett område klassificerades som den specifika klassen. Däremot beslutsträdet en transparent modell som lätt kan förstås, och användaren kan observera och åtgärda eventuella bias i modellen. Om beräkningskraften är ett problem är en mer beräkningskrävande inlärningsmetod såsom artificiellt neurala nätverk mindre föredraget trots att artificiella neurala nätverk kan överträffa andra algoritmer, såsom i jordklassificering.
Nedan är höjdpunkter för några vanligt använda algoritmer.
K närmaste granne K närmaste granne klassificerar data baserat på deras likheter. k är en parameter som representerar antalet grannar som kommer att beaktas för omröstningsprocessen. Till exempel, i figuren k = 4, beaktas därför de närmaste 4 grannarna. I de 4 närmaste grannarna tillhör 3 den röda klassen och 1 tillhör den gröna klassen. Den lila data klassificeras som den röda klassen.
Beslutsträd Beslutsträd visar möjliga resultat av relaterade val. Beslutsträd kan vidare delas in i klassificeringsträd och regressionsträd. Ovanstående figur visar ett klassificeringsträd eftersom utgångarna är diskreta klasser. För regressionsträd är utdata ett tal. Detta är en white-box-modell som är transparent och användaren kan upptäcka biasen om någon förekommer i modellen.
Slumpmässig skog I slumpmässig skog används flera beslutsträd tillsammans i en ensemblemetod. Flera beslutsträd produceras under utbildningen av en modell. Olika beslutsträd kan ge upp olika resultat. Processen för majoritetsomröstning/genomsnittsberäkning ger slutresultatet. Denna metod ger en högre noggrannhet genom att endast använda ett enda beslutsträd.
Neurala nätverk Neurala nätverk härmar neuroner i en biologisk hjärna. Den består av flera lager, där lagren däremellan är dolda lager. Anslutningarnas vikter justeras under träningsprocessen. Eftersom logiken däremellan är oklar, kallas den för "svarta lådan". Convolutional neural network (CNN) är en underklass av neurala nätverk, som vanligtvis används för att bearbeta bilder.
Användande
Kartläggning
Geologisk eller litologisk kartläggning och mineralprospektivitetskartering
Geologisk eller litologisk kartläggning producerar kartor som visar geologiska egenskaper och geologiska enheter. Kartläggning av mineralprospektivitet använder en mängd olika datauppsättningar som geologiska kartor, flygmagnetiska bilder etc för att producera kartor som är specialiserade för mineralutforskning. Geologisk/litologisk kartläggning och kartläggning av mineralprospektivitet kan utföras genom att bearbeta data med maskininlärningstekniker med inmatning av spektralbilder erhållna från fjärranalys och geofysiska data. Spektralbilder är avbildningen av utvalda elektromagnetiska våglängdsband i det elektromagnetiska spektrumet, medan konventionell avbildning fångar tre våglängdsband (röd, grön, blå) i det elektromagnetiska spektrumet. Random Forest and Support Vector Machine (SVM) etc är vanliga algoritmer som används med fjärravkända geofysiska data, medan Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN) och Convolutional Neural Networks (CNN) etc vanligtvis används vid hantering av antenn. foton och bilder. Storskalig kartläggning kan utföras med geofysiska data från luftburen och satellitfjärranalys av geofysiska data, och mindre skala kartläggning kan utföras med bilder från Unmanned Aerial Vehicle (UAV) för högre upplösning.
Vegetationstäcke är ett av de stora hindren för geologisk kartläggning med fjärranalys, vilket rapporterats i olika forskning, både inom storskalig och småskalig kartläggning. Vegetation påverkar kvaliteten på spektralbilden eller skymmer berginformationen i flygbilderna.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Litologisk kartläggning av guldbärande granitgrönstensklippor | AVIRIS-NG hyperspektral data | Hutti, Indien | Linjär diskrimineringsanalys (LDA) , | Support Vector Machine (SVM) överträffar de andra maskininlärningsalgoritmerna (MLA) |
Litologisk kartläggning i den tropiska regnskogen | Magnetisk vektorinversion, Ternär RGB-karta, Shuttle Radar Topography Mission (SRTM) , Falsk färg (RGB) på Landsat 8 som kombinerar band 4, 3 och 2 |
Cinzento Lineament, Brasilien | Random Forest | Två prediktiva kartor genererades: (1) Karta genererad med fjärranalysdata har bara en 52,7 % noggrannhet jämfört med den geologiska kartan, men flera nya möjliga litologiska enheter har identifierats (2) Karta genererad med fjärranalysdata och rumsliga begränsningar har en noggrannhet på 78,7 % men inga nya möjliga litologiska enheter identifieras |
Geologisk kartläggning för mineralprospektering | Luftburen polarimetrisk terrängobservation med progressiva skanningar SAR (TopSAR), geofysiska data |
Västra Tasmanien | Random Forest | Låg tillförlitlighet för TopSAR för geologisk kartläggning, men exakt med geofysiska data. |
Geologisk och mineralogisk kartläggning [ citat behövs ] | Multispektrala och hyperspektrala satellitdata | Central Jebilet, Marocko |
Support Vector Machine (SVM) | Noggrannheten för att använda hyperspektrala data för klassificering är något högre än att använda multispektral data, med 93,05 % respektive 89,24 %, vilket visar att maskininlärning är ett tillförlitligt verktyg för mineralutforskning. |
Integrera multigeofysiska data i en klusterkarta | Luftburen magnetisk, frekvens elektromagnetiska, radiometriska mätningar, gravitationsmätningar på marken |
Trøndelag, Mellannorge | Random Forest | Den producerade klusterkartan har ett tillfredsställande förhållande till den befintliga geologiska kartan men med mindre misspassningar. |
Högupplöst geologisk kartläggning med obemannat flygfarkost (UAV) | Ultraupplösta RGB-bilder | Taili vid vattnet, Liaoning-provinsen, Kina |
Simple Linear Iterative Clustering-Convolutional Neural Network (SLIC-CNN) | Resultatet är tillfredsställande vid kartläggning av större geologiska enheter men visade dålig prestanda vid kartläggning av pegmatiter, finkorniga bergarter och vallar. UAV:er kunde inte samla steninformation där stenarna inte var exponerade. |
Kartläggning av ytlig geologi Remote Predictive Mapping (RPM) |
Flygfoton , Landsat Reflection, Högupplösta digitala höjddata |
South Rae Geological Region, Nordvästra territorium, Kanada |
Convolutional Neural Networks (CNN), Random Forest |
Den resulterande noggrannheten för CNN var 76 % i det lokalt tränade området, medan 68 % för ett oberoende testområde. CNN uppnådde en något högre noggrannhet på 4% än Random Forest. |
Skredkänslighet och kartläggning av faror
Skredkänslighet avser sannolikheten för jordskred på en plats, som påverkas av de lokala terrängförhållandena. Kartläggning av känslighet för jordskred kan belysa områden som är utsatta för jordskredrisker som är användbara för stadsplanering och katastrofhantering. Indatadataset för maskininlärningsalgoritmer inkluderar vanligtvis topografisk information, litologisk information, satellitbilder etc. och vissa kan inkludera markanvändning, marktäcke, dräneringsinformation, vegetationstäcke enligt deras studiebehov. I maskininlärningsträning för kartläggning av känslighet för jordskred krävs utbildning och testdatauppsättningar. Det finns två metoder för att allokera datauppsättningar för träning och testning, en är att slumpmässigt dela upp studieområdet för datauppsättningarna, en annan är att dela upp hela studien i två intilliggande delar för de två datauppsättningarna. För att testa klassificeringsmodellerna är praxis att dela upp studieområdet slumpmässigt i två datauppsättningar, men det är mer användbart att studieområdet kan delas upp i två intilliggande delar så att automationsalgoritmen kan utföra kartläggning av ett nytt område med inmatning av expertbearbetade data från angränsande mark.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Skredkänslighetsbedömning | Digital Elevation Model (DEM), Geologisk karta, 30m Landsat-bilder |
Fruška Gora Mountain, Serbien |
Support Vector Machine (SVM), | Support Vector Machine (SVM) överträffar de andra |
Kartläggning av känslighet för jordskred | ASTER satellitbaserad geomorfisk data, geologiska kartor |
Honshu Island, Japan |
Artificiellt neuralt nätverk (ANN) | Noggrannhet större än 90 % för att bestämma sannolikheten för jordskred. |
Mottaglighet för jordskred Zonering genom betyg | Rumsliga datalager med backe, aspekt, relativ lättnad, litologi, strukturella egenskaper, markanvändning, marktäckning, dräneringstäthet |
Delar av distrikten Chamoli och Rudraprayag i delstaten Uttarakhand, Indien |
Artificiellt neuralt nätverk (ANN) | AUC för detta tillvägagångssätt når 0,88. Detta tillvägagångssätt genererade en korrekt bedömning av skredrisker. |
Regional skredriskanalys | Topografisk lutning, topografisk aspekt, topografisk krökning, avstånd från dränering, litologi, avstånd från lineament, landtäcke från TM satellitbilder, Vegetationsindex (NDVI), nederbördsdata |
Den östra delen av delstaten Selangor, Malaysia |
Artificiellt neuralt nätverk (ANN) | Tillvägagångssättet uppnådde 82,92 % noggrannhet i förutsägelsen. |
Funktionsidentifiering och upptäckt
Diskontinuitetsanalyser
Diskontinuiteter som ett förkastningsplan , bäddplan etc har viktiga implikationer inom tekniken. Bergsprickor kan identifieras automatiskt genom maskininlärning genom fotogrammetrisk analys även med närvaron av störande föremål, till exempel bladväxt, stavformad vegetation etc. Vid maskinutbildning för att klassificera bilder är dataförstärkning en vanlig praxis för att undvika överanpassning och öka utbildningsdataset. Till exempel, i en forskning för att känna igen bergsprickor, förbereddes 68 bilder för träning och 23 bilder för testdatauppsättningen genom slumpmässig uppdelning. Dataökning genomfördes sedan och träningsdatauppsättningen utökades till 8704 bilder genom vändning och slumpmässig beskärning. Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten var över 0,99. Detta visade robustheten i diskontinuitetsanalyser med maskininlärning.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Igenkänning av bergsprickor | Stenbilder insamlade i fältundersökning | Gwanak Mountain och Bukhan Mountain, Seoul, Korea och Jeongseon-gun, Gangwon-do, Korea |
Convolutional Neural Network (CNN) | Tillvägagångssättet kunde känna igen bergsprickorna exakt i de flesta fall. Det negativa prediktionsvärdet (NPV) och specificiteten är över 0,99. |
Detektering av koldioxidläckage
Att kvantifiera koldioxidläckage från en geologisk lagringsplats har fått allt större uppmärksamhet eftersom allmänheten är intresserad av huruvida koldioxid lagras under jord säkert och effektivt. En geologisk lagringsplats är för att fånga upp växthusgaser och begrava djupt under jorden i de geologiska formationerna. Koldioxidläckage från en geologisk lagringsplats kan detekteras indirekt genom planetstressrespons med hjälp av fjärranalys och en oövervakad klustringsalgoritm ( Iterative Self-Organizing Data Analysis Technique (ISODATA) metod). Ökningen i markens CO 2 -koncentration orsakar en stressreaktion för växterna genom att hämma växternas andning då syre tränger undan av koldioxid. Stresssignalen från vegetationen kan detekteras med Red Edge Index (REI). De hyperspektrala bilderna bearbetas av den oövervakade algoritmen klustrar pixlar med liknande växtsvar. Den hyperspektrala informationen i områden med känt CO 2 läckage extraherades så att områden med CO 2 läckage kan matchas med de klustrade pixlarna med spektrala anomalier. Även om tillvägagångssättet kan identifiera CO 2 -läckage effektivt, finns det vissa begränsningar som kräver ytterligare studier. Red Edge Index (REI) kanske inte är korrekt på grund av skäl som högre klorofyllabsorption, variation i vegetation och skuggeffekter, därför identifierades vissa stressade pixlar felaktigt som friska pixlar. Säsongsvariation , grundvattenytans höjd kan också påverka växtlighetens stressrespons på CO 2 .
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Detektering av CO 2 -läckage från en geologisk lagringsplats | Hyperspektrala flygbilder | Zero Emissions Research and Technology (ZERT), USA |
Iterative Self-Organizing Data Analysis Technique (ISODATA) metod | Tillvägagångssättet kunde upptäcka områden med CO 2 -läckage, men andra faktorer som vegetationens växtsäsonger stör också resultaten. |
Kvantifiering av vatteninflöde
Rock Mass Rating (RMR) System är ett världsomspännande antaget klassificeringssystem för bergmassa genom geomekaniska medel med inmatning av sex parametrar. Mängden vatteninflöde är en av ingångarna i klassificeringsschemat, som representerar grundvattnets tillstånd. Kvantifiering av vatteninflödet i sidorna av en bergtunnel utfördes traditionellt genom visuell observation i fält, vilket är arbete och tidskrävande med säkerhetshänsyn. Maskininlärning kan bestämma vatteninflödet genom att analysera bilder tagna på byggarbetsplatsen. Klassificeringen av tillvägagångssättet följer för det mesta RMR-systemet men genom att kombinera fuktigt och vått tillstånd är det svårt att särskilja endast genom visuell inspektion. Bilderna klassificerades i icke-skadligt tillstånd, vått tillstånd, droppande tillstånd, flytande tillstånd och forsande tillstånd. Noggrannheten för att klassificera bilderna var cirka 90 %.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Kvantifiering av vatteninflöde i bergtunnelytor | Bilder på vatteninflöde | - | Convolutional Neural Network (CNN) | Metoden uppnådde en genomsnittlig noggrannhet på 93,01 %. |
Klassificering
Markklassificering
Den mest populära kostnadseffektiva metoden för markundersökningsmetoden är genom Cone Penetration Testing (CPT). Testet utförs genom att trycka en metallkon genom jorden och kraften som krävs för att trycka med konstant hastighet registreras som en kvasi-kontinuerlig stock. Maskininlärning kan klassificera jord med indata från konpenetrationstestloggdata. I ett försök att klassificera med maskininlärning finns det två delar av uppgifter som krävs för att analysera data, som är segmenterings- och klassificeringsdelarna. Segmenteringsdelen kan utföras med algoritmen Constraint Clustering and Classification (CONCC) för att dela upp en enskild seriedata i segment. Klassificeringsdelen kan utföras av Decision Trees (DT), Artificial Neural Network (ANN) eller Support Vector Machine (SVM). När man jämför de tre algoritmerna visar det sig att det artificiella neurala nätverket (ANN) presterade bäst i att klassificera humous lera och torv, medan beslutsträden presterade bäst i att klassificera lerig torv. Klassificeringen med denna metod kan nå mycket hög noggrannhet, även för det mest komplexa problemet var dess noggrannhet 83%, och den felaktigt klassificerade klassen var en geologiskt närliggande. Med tanke på det faktum att sådan noggrannhet är tillräcklig för de flesta experter, kan noggrannheten i ett sådant tillvägagångssätt betraktas som 100 %.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Markklassificering | Loggar för konpenetrationstest (CPT). | - | Beslutsträd, Artificiellt neuralt nätverk (ANN), Stöd Vector Machine |
Det artificiella neurala nätverket (ANN) överträffade de andra när det gällde att klassificera humous lera och torv, medan beslutsträden överträffade de andra i klassificeringen av lerig torv. Support Vector Machine gav sämst prestanda av de tre. |
Geologisk strukturklassificering
Exponerade geologiska strukturer som antiklin , krusningsmärken , xenolit , repor, ptygmatiska veck , förkastning, konkretion, lersprickor, gneissos, boudin , basaltpelare och vall kan identifieras automatiskt med en djupinlärningsmodell . Forskning visade att Three-layer Convolutional Neural Network (CNN) och Transfer Learning har stor noggrannhet på cirka 80% respektive 90%, medan andra som K-nearest neighbours (KNN), Artificiellt neuralt nätverk (ANN) och Extreme Gradient Boosting (XGBoost) ) har låg noggrannhet, varierar från 10 % - 30 %. Gråskalebilderna och färgbilderna testades båda, och noggrannhetsskillnaden är liten, vilket drar slutsatsen att färgen inte är särskilt viktig för att identifiera geologiska strukturer.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Klassificering av geologiska strukturer | Bilder av geologiska strukturer | - | K närmaste grannar (KNN), Artificiellt neuralt nätverk (ANN), Extreme Gradient Boosting (XGBoost), Tre-lagers Convolutional Neural Network (CNN), Överför lärande |
Trelagers Convolutional Neural Network (CNN) och Transfer Learning nådde en noggrannhet på upp till cirka 80 % respektive 90 %, medan andra var relativt låga, varierade från cirka 10 % till 30 %. |
Prognos och förutsägelser
Tidiga varningssystem och prognoser för jordbävningar
System för tidig varning för jordbävningar är ofta känsliga för lokalt impulsivt ljud och ger därför ut falska varningar. Falska varningar kan elimineras genom att skilja jordbävningsvågformerna från brussignaler med hjälp av maskininlärningsmetoder. Metoden består av två delar, den första delen är oövervakad inlärning med Generative Adversarial Network (GAN) för att lära sig och extrahera funktioner i första ankomst P-vågor och Random Forest för att särskilja P-vågor. Tillvägagångssättet uppnådde 99,2 % i att känna igen P-vågor och kan undvika falska triggers av brussignaler med 98,4 % noggrannhet.
Laboratoriejordbävningar produceras i laboratoriemiljö för att efterlikna verkliga jordbävningar. Med hjälp av maskininlärning kan mönster av akustiska signaler som föregångare till jordbävningar identifieras utan att man behöver söka manuellt. Att förutsäga återstående tid innan fel demonstrerades i en forskning med kontinuerliga akustiska tidsseriedata registrerade från ett fel. Algoritmen som tillämpades var Random Forest-tränad med cirka 10 sliphändelser och presterade utmärkt i att förutsäga den återstående tiden till misslyckande. Den identifierade akustiska signaler för att förutsäga fel, och en av dem var tidigare oidentifierad. Även om denna laboratoriejordbävning inte är lika komplex som jordens, gör detta viktiga framsteg som styr ytterligare jordbävningsarbete i framtiden.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Diskriminerande jordbävningsvågformer | Jordbävningsdatauppsättning | Södra Kalifornien och Japan | Generative Adversarial Network (GAN), Random Forest |
Tillvägagångssättet kan känna igen P-vågor med 99,2 % noggrannhet och undvika falska triggers av brussignaler med 98,4 % noggrannhet. |
Förutsäger återstående tid för nästa jordbävning | Kontinuerliga akustiska tidsseriedata | - | Random Forest | R2- värdet för förutsägelsen nådde 0,89, vilket visade utmärkt prestanda. |
Förutsägelse av strömflödesutsläpp
Strömflödesdata i realtid är integrerad för beslutsfattande, till exempel evakueringar, reglering av reservoarvattennivåer under en översvämningshändelse. Strömflödesdata kan uppskattas genom information från strömmätare som mäter vattennivån i en flod. Däremot kan vatten och skräp från en översvämningshändelse skada streamgages och viktig realtidsdata kommer att saknas. Förmågan hos maskininlärning att sluta sig till saknad data gör det möjligt för den att förutsäga strömflöde med både historisk strömdata och realtidsdata. SHEM är en modell som refererar till Streamflow Hydrology Estimate med hjälp av Machine Learning som kan tjäna syftet. För att verifiera dess noggrannhet jämfördes förutsägelseresultatet med de faktiska registrerade data och noggrannheterna visade sig vara mellan 0,78 till 0,99.
Mål | Indatauppsättning | Plats | Machine Learning Algorithms (MLA) | Prestanda |
---|---|---|---|---|
Strömflödesuppskattning med data som saknas | Streamgage data från NWIS-Web | Fyra olika vattendelar i Idaho och Washington, USA |
Slumpmässiga skogar | Uppskattningarna korrelerade väl med de historiska data om utsläppen. Noggrannheten sträcker sig från 0,78 till 0,99. |
Utmaning
Otillräckliga träningsdata
En tillräcklig mängd utbildnings- och valideringsdata krävs för maskininlärning. Vissa mycket användbara produkter som satellitfjärranalysdata har dock bara decennier av data sedan 1970-talet. Om man är intresserad av årsdata, är det bara mindre än 50 prover tillgängliga. En sådan mängd data kanske inte är tillräcklig. I en studie av automatisk klassificering av geologiska strukturer är modellens svaghet den lilla träningsdatauppsättningen, även om med hjälp av dataförstärkning för att öka datasetets storlek. En annan studie av att förutsäga strömflöde fann att noggrannheterna beror på tillgången på tillräcklig historisk data, därför avgör tillräcklig träningsdata prestandan för maskininlärning. Otillräckliga träningsdata kan leda till ett problem som kallas överanpassning. Överanpassning orsakar felaktigheter i maskininlärning eftersom modellen lär sig om bruset och oönskade detaljer.
Begränsad av datainmatning
Maskininlärning kan inte utföra vissa av uppgifterna som en människa gör lätt. Till exempel, vid kvantifieringen av vatteninflödet i bergtunnelytorna med bilder för Rock Mass Rating System (RMR), klassificerades inte fukt och vått tillstånd genom maskininlärning eftersom det inte är möjligt att särskilja de två endast genom visuell inspektion. I vissa uppgifter kanske maskininlärning inte helt kan ersätta manuellt arbete av en människa.
Black-box-drift
I många maskininlärningsalgoritmer, till exempel Artificiellt neuralt nätverk (ANN), betraktas det som en " svart låda "-metod eftersom tydliga samband och beskrivningar av hur resultaten genereras i de dolda lagren är okända. "White-box" tillvägagångssätt som beslutsträd kan avslöja algoritmdetaljerna för användarna. Om man vill undersöka sambanden är sådana "black box"-metoder inte lämpliga. Men prestandan för "black box"-algoritmer är vanligtvis bättre.