Självövervakning, analys och rapporteringsteknik
Self-Monitoring, Analysis and Reporting Technology ( SMART , ofta skrivet som SMART ) är ett övervakningssystem som ingår i hårddiskar (HDD) och solid-state-enheter (SSD). Dess primära funktion är att upptäcka och rapportera olika indikatorer på enhetens tillförlitlighet i syfte att förutse överhängande hårdvarufel.
När SMART-data indikerar ett eventuellt överhängande diskfel, kan programvara som körs på värdsystemet meddela användaren så att förebyggande åtgärder kan vidtas för att förhindra dataförlust, och den felaktiga enheten kan bytas ut och dataintegriteten bibehållas.
Bakgrund
Hårddiskar och andra lagringsenheter är föremål för fel (se hårddiskfel ) som kan klassificeras inom två grundläggande klasser:
- Förutsägbara fel som beror på långsamma processer som mekaniskt slitage och gradvis nedbrytning av lagringsytor. Övervakning kan avgöra när sådana misslyckanden blir mer sannolika.
- Oförutsägbara fel som uppstår utan förvarning på grund av allt från att elektroniska komponenter blivit defekta till ett plötsligt mekaniskt fel, inklusive fel relaterade till felaktig hantering.
Mekaniska fel står för cirka 60 % av alla diskfel. Även om det eventuella felet kan vara katastrofalt, beror de flesta mekaniska fel på gradvis slitage och det finns vanligtvis vissa indikationer på att fel är nära förestående. Dessa kan inkludera ökad värmeeffekt, ökad brusnivå, problem med att läsa och skriva data eller en ökning av antalet skadade skivsektorer.
PCTechGuides sida på SMART (2003) kommenterar att tekniken har gått igenom tre faser:
I sin ursprungliga inkarnation tillhandahöll SMART felförutsägelser genom att övervaka vissa hårddiskaktiviteter online.
En efterföljande version av standarden förbättrade felförutsägelser genom att lägga till en automatisk off-line lässkanning för att övervaka ytterligare operationer. Online-attribut uppdateras alltid medan offline-attribut uppdateras när hårddisken inte fungerar. Om det finns ett omedelbart behov av att uppdatera offline-attributen saktar hårddisken ner och offline-attributen uppdateras. Den senaste "SMART"-tekniken övervakar inte bara hårddiskaktiviteter utan lägger till förebyggande av fel genom att försöka upptäcka och reparera sektorfel.
Även om tidigare versioner av tekniken endast övervakade hårddiskaktivitet för data som hämtats av operativsystemet, testar denna senaste SMART all data och alla sektorer av en enhet genom att använda "off-line datainsamling" för att bekräfta enhetens tillstånd under perioder av inaktivitet.
Noggrannhet
En fältstudie på Google som täckte över 100 000 diskar av konsumentklass från december 2005 till augusti 2006 fann samband mellan viss SMART-information och årliga felfrekvenser:
- Under de 60 dagarna efter det första okorrigerbara felet på en enhet ( SMART-attribut 0xC6 eller 198) som upptäcktes som ett resultat av en offline-skanning, var sannolikheten att enheten i genomsnitt misslyckades 39 gånger mer än en liknande enhet för vilken inget sådant fel inträffade.
- Första fel i omallokeringar, offline-omfördelningar ( SMART-attribut 0xC4 och 0x05 eller 196 och 5) och provanställning ( SMART-attribut 0xC5 eller 197) var också starkt korrelerade till högre sannolikheter för misslyckande.
- Omvänt fann man liten korrelation för ökad temperatur och ingen korrelation för användningsnivå. Forskningen visade dock att en stor andel (56 %) av de misslyckade enheterna misslyckades utan att registrera någon räkning i de "fyra starka SMART-varningarna" som identifierats som skanningsfel, omfördelningsräkning, offlineomfördelning och provanställning.
- Vidare gjorde 36 % av misslyckade enheter det utan att registrera något SMART-fel alls, förutom temperaturen, vilket betyder att SMART-data enbart var av begränsad användbarhet för att förutse misslyckanden.
Historia och föregångare
En tidig hårddiskövervakningsteknik introducerades av IBM 1992 i dess IBM 9337 Disk Arrays för AS/400- servrar som använder IBM 0662 SCSI-2-diskenheter. Senare fick den namnet Predictive Failure Analysis (PFA) teknologi. Den mätte flera viktiga enhetshälsoparametrar och utvärderade dem inom enhetens firmware. Kommunikation mellan den fysiska enheten och övervakningsmjukvaran var begränsad till ett binärt resultat: antingen "enheten är OK" eller "enheten kommer sannolikt att misslyckas snart".
Senare skapades en annan variant, som fick namnet IntelliSafe, av datortillverkaren Compaq och diskenhetstillverkarna Seagate , Quantum och Conner . Diskenheterna skulle mäta diskens "hälsoparametrar", och värdena skulle överföras till operativsystemet och programvara för övervakning av användarutrymme. Varje diskenhetsleverantör var fri att bestämma vilka parametrar som skulle inkluderas för övervakning och vad deras tröskelvärden skulle vara. Sammanslutningen var på protokollnivå med värden.
Compaq lämnade in IntelliSafe till Small Form Factor-kommittén (SFF) för standardisering i början av 1995. Det stöddes av IBM, av Compaqs utvecklingspartners Seagate, Quantum och Conner, och av Western Digital , som inte hade något system för förutsägelse av misslyckanden vid tid. Kommittén valde IntelliSafes tillvägagångssätt eftersom det gav mer flexibilitet. Compaq placerade IntelliSafe till allmän egendom den 12 maj 1995. Den resulterande gemensamt utvecklade standarden fick namnet SMART.
Den SFF-standarden beskrev ett kommunikationsprotokoll för en ATA-värd att använda och styra övervakning och analys i en hårddisk, men specificerade inte några särskilda mätvärden eller analysmetoder. Senare kom "SMART" att förstås (dock utan någon formell specifikation) för att hänvisa till en mängd specifika mätvärden och metoder och tillämpas på protokoll som inte är relaterade till ATA för att kommunicera samma slags saker.
Tillhandahållit information
Den tekniska dokumentationen för SMART finns i standarden AT Attachment (ATA). ATA-standarden introducerades först 1994 och har genomgått flera revisioner. Vissa delar av den ursprungliga SMART-specifikationen av Small Form Factor (SFF) Committee lades till ATA-3, publicerad 1997. 1998 släppte ATA-4 kravet på att enheter ska behålla en intern attributtabell och krävdes istället endast för en " OK" eller "NOT OK" värde som ska returneras. Tillverkarna har dock behållit möjligheten att hämta attributens värde. Den senaste ATA-standarden, ATA-8, publicerades 2004. Den har genomgått regelbundna revisioner, den senaste 2011. Standardisering av liknande funktioner på SCSI är mer knapphändig och nämns inte som sådan i standarder, även om både leverantörer och konsumenter hänvisa till dessa liknande funktioner på SMART också.
Den mest grundläggande informationen som SMART tillhandahåller är SMART-statusen. Den ger bara två värden: "tröskelvärde ej överskriden" och "tröskelvärde överskriden". Ofta representeras dessa som "drive OK" respektive "drive fail". Ett "tröskelvärde överskrids" är avsett att indikera att det finns en relativt hög sannolikhet att frekvensomriktaren inte kommer att kunna uppfylla sin specifikation i framtiden: det vill säga frekvensomriktaren är "på väg att misslyckas". Det förutspådda misslyckandet kan vara katastrofalt eller kan vara något så subtilt som oförmågan att skriva till vissa sektorer, eller kanske långsammare prestanda än tillverkarens deklarerade minimum.
SMART-statusen indikerar inte nödvändigtvis enhetens tidigare eller nuvarande tillförlitlighet. Om en enhet redan har misslyckats katastrofalt kan SMART-statusen vara otillgänglig. Alternativt, om en enhet har haft problem tidigare, men sensorerna inte längre upptäcker sådana problem, kan SMART-statusen, beroende på tillverkarens programmering, tyda på att enheten nu är frisk.
Oförmågan att läsa vissa sektorer är inte alltid en indikation på att en enhet är på väg att misslyckas. Ett sätt som oläsbara sektorer kan skapas, även när enheten fungerar inom specifikationen, är genom ett plötsligt strömavbrott medan enheten skriver. Även om den fysiska disken är skadad på en plats, så att en viss sektor är oläsbar, kan disken kanske använda ledigt utrymme för att ersätta det skadade området, så att sektorn kan skrivas över.
Mer information om enhetens tillstånd kan erhållas genom att undersöka SMART-attributen. SMART-attribut inkluderades i vissa utkast till ATA-standarden, men togs bort innan standarden blev slutgiltig. Innebörden och tolkningen av attributen varierar mellan tillverkare och anses ibland vara en affärshemlighet för en eller annan tillverkare. Attribut diskuteras vidare nedan.
Enheter med SMART kan eventuellt upprätthålla ett antal "loggar". Felloggen registrerar information om de senaste felen som enheten har rapporterat tillbaka till värddatorn . Att undersöka den här loggen kan hjälpa en att avgöra om datorproblem är diskrelaterade eller orsakade av något annat (felloggtidsstämplar kan "bryta" efter 2 32 ms = 49,71 dagar)
En enhet som implementerar SMART kan valfritt implementera ett antal självtest- eller underhållsrutiner, och resultaten av testerna sparas i självtestloggen . Självtestrutinerna kan användas för att upptäcka alla oläsbara sektorer på disken, så att de kan återställas från säkerhetskopieringskällor (till exempel från andra diskar i en RAID ) . Detta hjälper till att minska risken för permanent förlust av data.
Standarder och implementering
Brist på gemensam tolkning
Många moderkort visar ett varningsmeddelande när en hårddisk närmar sig ett fel. Även om det finns en branschstandard bland de flesta stora hårddisktillverkarna, kvarstår problem på grund av attribut som avsiktligt lämnats odokumenterade för allmänheten för att skilja modeller mellan tillverkare. Ur ett juridiskt perspektiv avser termen "SMART" endast en signaleringsmetod mellan interna elektromekaniska sensorer på hårddisken och värddatorn. På grund av detta är specifikationerna för SMART helt leverantörsspecifika och medan många av dessa attribut har standardiserats mellan drivenhetsleverantörer förblir andra leverantörsspecifika. SMART-implementeringarna skiljer sig fortfarande åt och i vissa fall kan de sakna "vanliga" eller förväntade funktioner som en temperatursensor eller bara innehålla ett fåtal utvalda attribut samtidigt som det tillåter tillverkaren att marknadsföra produkten som "SMART-kompatibel".
Synlighet till värdsystem
Beroende på vilken typ av gränssnitt som används, kanske vissa SMART-aktiverade moderkort och relaterad programvara inte kommunicerar med vissa SMART-kompatibla enheter. Till exempel är det få externa enheter anslutna via USB och FireWire som skickar SMART-data korrekt över dessa gränssnitt. Med så många sätt att ansluta en hårddisk ( SCSI , Fibre Channel , ATA , SATA , SAS , SSA , NVMe och så vidare) är det svårt att förutse om SMART-rapporter kommer att fungera korrekt i ett givet system.
Även med en hårddisk och ett gränssnitt som implementerar specifikationen, kanske datorns operativsystem inte ser SMART-informationen eftersom enheten och gränssnittet är inkapslade i ett lägre lager. Till exempel kan de vara en del av ett RAID-undersystem där RAID-styrenheten ser den SMART-kapabla enheten, men värddatorn ser bara en logisk volym som genereras av RAID-styrenheten.
På Windows -plattformen fungerar många program som är utformade för att övervaka och rapportera SMART-information endast under ett administratörskonto .
BIOS och Windows ( Windows Vista och senare) kan upptäcka SMART-status för hårddiskar och solid state-enheter och ge en uppmaning om SMART-statusen är dålig.
ATA SMART-attribut
Varje enhetstillverkare definierar en uppsättning attribut och ställer in tröskelvärden utöver vilka attribut inte ska passera under normal drift. Varje attribut har ett råvärde som kan vara ett decimalt eller ett hexadecimalt värde, vars betydelse helt och hållet är upp till drivenhetens tillverkare (men motsvarar ofta räkningar eller en fysisk enhet, såsom grader Celsius eller sekunder), ett normaliserat värde , som varierar från 1 till 253 (där 1 representerar det sämsta fallet och 253 representerar det bästa) och ett sämsta värde , som representerar det lägsta registrerade normaliserade värdet. Det ursprungliga standardvärdet för attribut är 100 men kan variera mellan olika tillverkare.
Tillverkare som har implementerat minst ett SMART-attribut i olika produkter inkluderar Samsung , Seagate , IBM ( Hitachi ), Fujitsu , Maxtor , Toshiba , Intel , sTec, Inc. , Western Digital och ExcelStor Technology .
Kända ATA SMART-attribut
Följande diagram listar några SMART-attribut och den typiska betydelsen av deras råvärden. Normaliserade värden mappas vanligtvis så att högre värden är bättre (undantag inkluderar drivtemperatur, antal huvudbelastnings-/avlastningscykler), men högre råattributvärden kan vara bättre eller sämre beroende på attribut och tillverkare. Till exempel minskar attributets normaliserade värde för "Reallocated Sectors Count" när antalet omallokerade sektorer ökar . I det här fallet kommer attributets råvärde ofta att indikera det faktiska antalet sektorer som omfördelats, även om leverantörer inte på något sätt är skyldiga att följa denna konvention.
Eftersom tillverkare inte nödvändigtvis är överens om exakta attributdefinitioner och måttenheter, är följande lista med attribut endast en allmän vägledning.
Enheter stöder inte alla attributkoder (ibland förkortade som "ID", för "identifierare", i tabeller). Vissa koder är specifika för särskilda enhetstyper (magnetisk platta, blixt, SSD). Frekvensomriktare kan använda olika koder för samma parameter, t.ex. se koderna 193 och 225.
ID |
193 0xC1 |
Attributkod i decimala och hexadecimala beteckningar |
---|---|---|
Idealisk |
Hög
|
Högre råvärde är bättre |
Låg
|
Lägre råvärde är bättre | |
! (Kritisk) |
|
Betecknar ett kritiskt attribut. Specifika värden kan förutsäga diskfel |
ID | Attributnamn | Idealisk | ! | Beskrivning |
---|---|---|---|---|
01 0x01 |
Läs felfrekvens |
Låg
|
|
(Leverantörsspecifikt råvärde.) Lagrar data relaterad till frekvensen av hårdvaruläsfel som uppstod när data lästes från en diskyta. Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel. |
02 0x02 |
Genomströmningsprestanda |
Hög
|
Övergripande (allmän) genomströmningsprestanda för en hårddisk. Om värdet på detta attribut minskar är det stor sannolikhet att det finns ett problem med disken. | |
03 0x03 |
Spin-up tid |
Låg
|
Genomsnittlig tid för spindelns rotation (från noll varv per minut till fullt fungerande [millisekunder]). | |
04 0x04 |
Start/stoppräkning | En sammanställning av spindelns start-/stoppcykler. Spindeln slås på, och följaktligen ökas antalet, både när hårddisken slås på efter att den tidigare varit helt avstängd (bortkopplad från strömkällan) och när hårddisken återgår från att ha försatts i viloläge tidigare. | ||
05 0x05 |
Omfördelade sektorer räknas |
Låg
|
|
Antal omfördelade sektorer. Råvärdet representerar ett antal dåliga sektorer som har hittats och ommappats. Ju högre attributvärdet är, desto fler sektorer har enheten behövt omfördela. Detta värde används främst som ett mått på drivenhetens förväntade livslängd; en enhet som har haft några omfördelningar alls är betydligt mer sannolikt att misslyckas inom de närmaste månaderna. |
06 0x06 |
Läs Channel Margin | Marginal för en kanal vid läsning av data. Funktionen för detta attribut är inte specificerad. | ||
07 0x07 |
Sök felfrekvens | Varierar | (Leverantörsspecifikt råvärde.) Hastighet för sökningsfel för magnethuvudena. Om det finns ett partiellt fel i det mekaniska positioneringssystemet, kommer sökfel att uppstå. Ett sådant fel kan bero på många faktorer, såsom skador på en servo eller termisk utvidgning av hårddisken. Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel. | |
08 0x08 |
Sök Time Performance |
Hög
|
Genomsnittlig prestanda för magnethuvudens sökoperationer. Om detta attribut minskar är det ett tecken på problem i det mekaniska delsystemet. | |
09 0x09 |
Starttider | Antal timmar i strömtillstånd. Råvärdet för det här attributet visar det totala antalet timmar (eller minuter eller sekunder, beroende på tillverkare) i startläge. "Som standard är den totala förväntade livslängden för en hårddisk i perfekt skick definierad som 5 år (körs varje dag och natt alla dagar). Detta är lika med 1825 dagar i 24/7-läge eller 43800 timmar." På vissa diskar före 2005 kan detta råvärde öka oregelbundet och/eller "omslutas" (återställs till noll med jämna mellanrum). |
||
10 0x0A |
Snurr Räkna igen |
Låg
|
|
Antal återförsök av snurrstartförsök. Detta attribut lagrar det totala antalet snurrstartförsök för att nå den fullt fungerande hastigheten (under förutsättning att det första försöket misslyckades). En ökning av detta attributvärde är ett tecken på problem i hårddiskens mekaniska delsystem. |
11 0x0B |
Omkalibreringsförsök eller Kalibreringsförsök |
Låg
|
Detta attribut indikerar antalet som omkalibrering begärdes (under förutsättning att det första försöket misslyckades). En ökning av detta attributvärde är ett tecken på problem i hårddiskens mekaniska delsystem. | |
12 0x0C |
Power Cycle Count | Det här attributet indikerar antalet fulla på- och avstängningscykler för hårddisken. | ||
13 0x0D |
Mjuk läsfelfrekvens |
Låg
|
Okorrigerade läsfel rapporteras till operativsystemet. | |
22 0x16 |
Aktuell heliumnivå |
Hög
|
Specifik för He8-enheter från HGST. Detta värde mäter heliumet inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation. | |
23 0x17 |
Heliumkondition lägre | Specifik för MG07+-enheter från Toshiba. Detta värde mäter lägre nivå av helium inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation. | ||
24 0x18 |
Helium skick övre | Specifik för MG07+-enheter från Toshiba. Detta värde mäter den övre nivån av helium inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation. | ||
170 0xAA |
Tillgängligt reserverat utrymme | Se attribut E8. | ||
171 0xAB |
Antal misslyckade SSD-program | (Kingston) Det totala antalet operationsfel i flashprogrammet sedan enheten installerades. Identisk med attribut 181. | ||
172 0xAC |
SSD-raderingsfel | (Kingston) Räknar antalet blixtraderingsfel. Det här attributet returnerar det totala antalet Flash-raderingsfel sedan enheten distribuerades. Detta attribut är identiskt med attribut 182. | ||
173 0xAD |
SSD Slitage Leveling Count | Räknar det maximala sämsta antalet raderingar på ett block. | ||
174 0xAE |
Antal oväntade strömförluster | Även känd som "Power-off Retract Count" enligt konventionell hårddiskterminologi. Råvärde rapporterar antalet orena avstängningar, kumulativt över livslängden för en SSD, där en "ren avstängning" är borttagning av ström utan STANDBY IMMEDIATE som det sista kommandot (oavsett PLI-aktivitet som använder kondensatoreffekt). Normaliserat värde är alltid 100. | ||
175 0xAF |
Strömförlustskyddsfel | Sista testresultatet i mikrosekunder till urladdningslocket, mättat vid sitt maximala värde. Loggar även minuter sedan senaste testet och antalet tester under hela livslängden. Råvärde innehåller följande data:
Normaliserat värde sätts till ett vid testfel eller 11 om kondensatorn har testats vid för hög temperatur, annars 100. |
||
176 0xB0 |
Radera misslyckande | SMART-parametern indikerar ett antal misslyckanden med flashraderingskommandon. | ||
177 0xB1 |
Wear Range Delta | Delta mellan mest slitna och minst slitna Flash-block. Den beskriver hur bra/dåligt slitnivån på SSD:n fungerar på ett mer tekniskt sätt. | ||
178 0xB2 |
Använd reserverat blockantal | "Pre-Fail"-attribut som används åtminstone i Samsung-enheter. | ||
179 0xB3 |
Använt reserverat blockantal totalt | "Pre-Fail"-attribut som används åtminstone i Samsung-enheter. | ||
180 0xB4 |
Oanvändt antal reserverade block totalt | "Pre-Fail"-attribut som används åtminstone i HP-enheter. | ||
181 0xB5 |
Antal programfel Totalt eller icke-4K-justerat åtkomstantal |
Låg
|
Totalt antal driftfel i Flash-programmet sedan enheten distribuerades. Antal användardataåtkomster (både läser och skriver) där LBA:er inte är 4 KiB justerade (LBA % 8 != 0) eller där storleken inte är modul 4 KiB (blockantal != 8), förutsatt att logisk blockstorlek (LBS) = 512 B. |
|
182 0xB6 |
Radera misslyckande | "Pre-Fail"-attribut som används åtminstone i Samsung-enheter. | ||
183 0xB7 |
Antal SATA-nedväxlingsfel eller dåligt block vid körning |
Låg
|
Western Digital, Samsung eller Seagate-attribut: Antingen antalet nedväxlingar av länkhastighet (t.ex. från 6Gbit/s till 3Gbit/s) eller det totala antalet datablock med upptäckta, okorrigerbara fel som påträffats under normal drift. Även om försämring av denna parameter kan vara en indikator på frekvensomriktarens åldrande och/eller potentiella elektromekaniska problem, indikerar det inte direkt ett överhängande drevfel. | |
184 0xB8 |
End-to-end-fel / IOEDC |
Låg
|
|
Detta attribut är en del av Hewlett-Packards SMART IV-teknik, såväl som en del av andra leverantörers IO-feldetekterings- och korrigeringsscheman, och det innehåller ett antal paritetsfel som uppstår i datavägen till media via enhetens cache RAM. |
185 0xB9 |
Huvudstabilitet | Western Digital-attribut. | ||
186 0xBA |
Inducerad op-vibrationsdetektering | Western Digital-attribut. | ||
187 0xBB |
Rapporterade okorrigerbara fel |
Låg
|
|
Antalet fel som inte kunde återställas med hårdvaru-ECC (se attribut 195). |
188 0xBC |
Kommando timeout |
Låg
|
|
Antalet avbrutna operationer på grund av HDD-timeout. Normalt ska detta attributvärde vara lika med noll. |
189 0xBD |
Hög fluga skriver |
Låg
|
Hårddisktillverkare implementerar en flyghöjdssensor som försöker ge ytterligare skydd för skrivoperationer genom att detektera när ett inspelningshuvud flyger utanför sitt normala arbetsområde. Om ett osäkert flyghöjdstillstånd påträffas stoppas skrivprocessen och informationen skrivs om eller omfördelas till en säker region på hårddisken. Det här attributet indikerar antalet dessa fel som upptäckts under drivenhetens livstid. Den här funktionen är implementerad i de flesta moderna Seagate-diskar och några av Western Digitals hårddiskar, som börjar med WD Enterprise WDE18300 och WDE9180 Ultra2 SCSI-hårddiskar, och kommer att ingå i alla framtida WD Enterprise-produkter. |
|
190 0xBE |
Temperaturskillnad eller luftflödestemperatur | Varierar | Värdet är lika med (100-temp. °C), vilket gör att tillverkaren kan ställa in ett lägsta tröskelvärde som motsvarar en maxtemperatur. Detta följer också konventionen att 100 är ett bästa fallet och lägre värden är oönskade. Däremot kan vissa äldre enheter istället rapportera rå temperatur (identisk med 0xC2) eller temperatur minus 50 här. | |
191 0xBF |
G-sense felfrekvens |
Låg
|
Antalet fel som härrör från externt inducerade stötar och vibrationer. | |
192 0xC0 |
Avstängningsräknare , nödåterdragningscykelräkning (Fujitsu) eller osäker avstängningsräkning |
Låg
|
Antal avstängnings- eller nödåtdragningscykler. | |
193 0xC1 |
Antal belastningscykel eller räkning av belastnings-/avlastningscykel (Fujitsu) |
Låg
|
Antal lastnings-/avlastningscykler till läge för huvudlandningszon. Vissa enheter använder istället 225 (0xE1) för belastningscykelräkning. Western Digital betygsätter sina VelociRaptor-enheter för 600 000 laddnings-/avlastningscykler och WD Green-enheter för 300 000 cykler; de senare är utformade för att lossa huvuden ofta för att spara ström. Å andra sidan är WD3000GLFS (en stationär enhet) specificerad för endast 50 000 laddnings-/avlastningscykler. Vissa bärbara enheter och stationära enheter med "grön kraft" är programmerade att ladda ur huvudena när det inte har varit någon aktivitet under en kort period, för att spara ström. Operativsystem kommer ofta åt filsystemet några gånger per minut i bakgrunden, vilket orsakar 100 eller fler belastningscykler per timme om huvudena lossar: belastningscykelns klassificering kan överskridas på mindre än ett år. Det finns program för de flesta operativsystem som inaktiverar Advanced Power Management (APM) och Automatic Acoustic Management (AAM) som orsakar frekventa belastningscykler. |
|
194 0xC2 |
Temperatur eller Temperatur Celsius |
Låg
|
Indikerar enhetens temperatur, om lämplig sensor är monterad. Den lägsta byten av råvärdet innehåller det exakta temperaturvärdet (Celsiusgrader). | |
195 0xC3 |
Hårdvara ECC återställd | Varierar | (Leverantörsspecifikt råvärde.) Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel. | |
196 0xC4 |
Antal omfördelningshändelser |
Låg
|
|
Antal ommappningsoperationer. Råvärdet för detta attribut visar det totala antalet försök att överföra data från omfördelade sektorer till ett reservområde. Både lyckade och misslyckade försök räknas. |
197 0xC5 |
Nuvarande väntande sektorräkning |
Låg
|
|
Antal "instabila" sektorer (väntar på att bli ommappad, på grund av oåterställbara läsfel). Om en instabil sektor därefter läses framgångsrikt, mappas sektorn om och detta värde minskas. Läsfel på en sektor kommer inte att mappa om sektorn omedelbart (eftersom det korrekta värdet inte kan läsas och så värdet som ska mappas om är inte känt, och det kan också bli läsbart senare); istället kommer enhetens firmware ihåg att sektorn behöver ommappas och kommer att mappa om den nästa gång den har lästs. Vissa enheter kommer dock inte omedelbart att mappa om sådana sektorer när de läses framgångsrikt; istället kommer enheten först att försöka skriva till problemsektorn, och om skrivoperationen lyckas kommer sektorn att markeras som bra (i detta fall kommer "Reallocation Event Count" (0xC4) inte att ökas). Detta är en allvarlig brist, för om en sådan enhet innehåller marginella sektorer som konsekvent misslyckas först efter en tid har gått efter en framgångsrik skrivoperation, kommer enheten aldrig att mappa om dessa problemsektorer. |
198 0xC6 |
(Offline) Okorrigerbart antal sektorer |
Låg
|
|
Det totala antalet okorrigerbara fel vid läsning/skrivning av en sektor. En ökning av värdet på detta attribut indikerar defekter i skivytan och/eller problem i det mekaniska delsystemet. |
199 0xC7 |
Antal UltraDMA CRC-fel |
Låg
|
Antalet fel vid dataöverföring via gränssnittskabeln som fastställts av ICRC (Interface Cyclic Redundancy Check). | |
200 0xC8 |
Multi-Zone Error Rate |
Låg
|
Antalet fel som hittats vid skrivning av en sektor. Ju högre värde, desto sämre är skivans mekaniska tillstånd. | |
200 0xC8 |
Skrivfelfrekvens (Fujitsu) |
Låg
|
Det totala antalet fel när du skriver en sektor. | |
201 0xC9 |
Mjuk läsfelfrekvens eller TA-räknare upptäckt |
Låg
|
|
Antalet anger antalet okorrigerbara programläsfel. |
202 0xCA |
Dataadress Markeringsfel eller TA-räknare ökad |
Låg
|
Antal dataadress Markeringsfel (eller leverantörsspecifika). | |
203 0xCB |
Slut på Avbryt |
Låg
|
Antalet fel orsakade av felaktig kontrollsumma under felkorrigeringen. | |
204 0xCC |
Mjuk ECC-korrigering |
Låg
|
Antal fel korrigerade av den interna felkorrigeringsmjukvaran. | |
205 0xCD |
Termisk asperitetshastighet |
Låg
|
Antal fel på grund av hög temperatur. | |
206 0xCE |
Flyghöjd | Höjd på huvuden ovanför skivytan. Om det är för lågt är huvudkrasch mer sannolikt; om det är för högt är läs-/skrivfel mer sannolikt. | ||
207 0xCF |
Snurra hög ström |
Låg
|
Mängden överspänningsström som används för att snurra upp enheten. | |
208 0xD0 |
Snurra Buzz | Antal buzz-rutiner som behövs för att snurra upp enheten på grund av otillräcklig kraft. | ||
209 0xD1 |
Offlinesök prestanda | Drives söker prestanda under dess interna tester. | ||
210 0xD2 |
Vibration under skrivning | Finns i Maxtor 6B200M0 200GB och Maxtor 2R015H1 15GB diskar. | ||
211 0xD3 |
Vibration under skrivning | En inspelning av en vibration som påträffas under skrivoperationer. | ||
212 0xD4 |
Chock under skrivning | En inspelning av chock påträffad under skrivoperationer. | ||
220 0xDC |
Diskskifte |
Låg
|
Avstånd skivan har förskjutits i förhållande till spindeln (vanligtvis på grund av stötar eller temperatur). Måttenhet är okänd. | |
221 0xDD |
G-Sense felfrekvens |
Låg
|
Antalet fel som härrör från externt inducerade stötar och vibrationer. Mer typiskt rapporterad på 0xBF. | |
222 0xDE |
Laddade timmar | Tid som ägnas åt att arbeta under databelastning (rörelse av magnethuvudets armatur). | ||
223 0xDF |
Ladda/avlasta Försöksräkning igen | Antal gånger huvudet byter position. | ||
224 0xE0 |
Lastfriktion |
Låg
|
Motstånd orsakat av friktion i mekaniska delar under drift. | |
225 0xE1 |
Ladda/avlastningscykelräkning |
Låg
|
Totalt antal belastningscykler Vissa frekvensomriktare använder istället 193 (0xC1) för belastningscykelräkning. Se Beskrivning för 193 för betydelsen av detta nummer. | |
226 0xE2 |
Ladda 'I'-tid | Total tid för belastning på magnethuvudets manöverdon (tid som inte spenderas på parkeringsområdet). | ||
227 0xE3 |
Antal vridmomentförstärkningar |
Låg
|
Antal försök att kompensera för variationer i tallrikens hastighet. | |
228 0xE4 |
Power-Off Retract Cycle |
Låg
|
Antalet avstängningscykler som räknas när det sker en "indragningshändelse" och huvuden laddas bort från media, till exempel när maskinen stängs av, försätts i viloläge eller är inaktiv. | |
230 0xE6 |
GMR Head Amplitude (magnetiska hårddiskar), Drive Life Protection Status (SSD) | Amplitud av "trassling" (repetitiva huvudrörelser mellan operationer). I solid-state-enheter, indikerar om användningsbanan överskrider den förväntade livslängdskurvan |
||
231 0xE7 |
Livslängd kvar (SSD) eller temperatur | Indikerar den ungefärliga SSD-livslängden som återstår, i form av programmerings-/raderingscykler eller tillgängliga reserverade block. Ett normaliserat värde på 100 representerar en ny drivenhet, med ett tröskelvärde på 10 som indikerar ett behov av utbyte. Ett värde på 0 kan innebära att enheten arbetar i skrivskyddat läge för att möjliggöra dataåterställning. Tidigare (före 2010) användes ibland för Drive Temperature (mer typiskt rapporterad vid 0xC2). |
||
232 0xE8 |
Uthållighet kvar eller tillgängligt reserverat utrymme | Antal fysiska raderingscykler som slutförts på SSD:n som en procentandel av de maximala fysiska raderingscyklerna som enheten är designad för att tåla. Intel SSD:er rapporterar tillgängligt reserverat utrymme som en procentandel av det initialt reserverade utrymmet. |
||
233 0xE9 |
Media Wearout Indicator (SSD) eller uppstartstider | Intel SSD:er rapporterar ett normaliserat värde från 100, en ny enhet, till ett minimum av 1. Det minskar medan NAND-raderingscyklerna ökar från 0 till de högsta klassade cyklerna. Tidigare (före 2010) användes ibland för uppstartstimmar (mer typiskt rapporterad i 0x09). |
||
234 0xEA |
Genomsnittligt raderingsantal OCH Maximalt raderingsantal | Avkodad som: byte 0-1-2 = genomsnittligt raderingsantal (big endian) och byte 3-4-5 = max raderingsantal (big endian). | ||
235 0xEB |
Bra blockantal OCH system(gratis) blockantal | Avkodad som: byte 0-1-2 = bra blockantal (big endian) och byte 3-4 = system (gratis) blockantal. | ||
240 0xF0 |
Head Flying Hours eller ' Transfer Error Rate' (Fujitsu) | Tid som spenderas under placeringen av drivhuvudena. Vissa Fujitsu-enheter rapporterar antalet länkåterställningar under en dataöverföring. | ||
241 0xF1 |
Totalt skrivna LBA | Totalt antal skrivna LBA. | ||
242 0xF2 |
Totalt lästa LBA |
Totalt antal lästa LBA. Vissa SMART-verktyg kommer att rapportera ett negativt tal för råvärdet eftersom det i verkligheten har 48 bitar istället för 32. |
||
243 0xF3 |
Totalt antal LBA skrivna utökat | De övre 5 byten av det totala antalet LBA på 12 byte som skrivits till enheten. Det lägre värdet på 7 byte finns vid attributet 0xF1. | ||
244 0xF4 |
Totalt antal LBA läser utökade | De övre 5 byten av det totala antalet LBA på 12 byte som läses från enheten. Det lägre värdet på 7 byte finns vid attributet 0xF2. | ||
249 0xF9 |
NAND skriver (1GiB) | Totalt NAND skriver. Råvärde rapporterar antalet skrivningar till NAND i steg om 1 GB. | ||
250 0xFA |
Läs felförsöksfrekvens |
Låg
|
Antal fel vid läsning från en disk. | |
251 0xFB |
Minsta reservdelar kvar | Attributet Minsta återstående reservdelar anger antalet återstående reservblock i procent av det totala antalet tillgängliga reservblock. | ||
252 0xFC |
Nyligen tillagd Bad Flash Block | Attributet Newly Added Bad Flash Block anger det totala antalet dåliga flashblock som enheten upptäckte sedan den först initierades i tillverkningen. | ||
254 0xFE |
Fritt fallskydd |
Låg
|
Antalet "Fritt fall-händelser" har upptäckts. |
Känd ATA-enhetsstatistik
Sida | Offset | Beskrivning |
---|---|---|
0x01 | 0x08 | Livstidsstartåterställningar |
0x01 | 0x10 | Starttider |
0x01 | 0x18 | Logiska sektorer skrivna |
0x01 | 0x28 | Läs logiska sektorer |
0x05 | 0x08 | Aktuell temperatur |
0x05 | 0x20 | Högsta temperatur |
0x05 | 0x28 | Lägsta temperatur |
0x05 | 0x58 | Specificerad maximal drifttemperatur |
0x05 | 0x68 | Specificerad lägsta drifttemperatur |
0x07 | 0x08 | Andel använd uthållighetsindikator |
Tröskeln överskrider tillståndet
Threshold Exceeds Condition (TEC) är ett beräknat datum då ett kritiskt attribut för frekvensomriktarstatistik når sitt tröskelvärde. När Drive Health-mjukvaran rapporterar ett "Närmaste TEC" ska det betraktas som ett "Feildatum". Ibland anges inget datum och enheten kan förväntas fungera felfritt.
För att förutsäga datumet spårar enheten i vilken takt attributet ändras. Observera att TEC-datum endast är uppskattningar; hårddiskar kan misslyckas mycket tidigare eller mycket senare än TEC-datumet.
NVMe SMART-attribut
NVMe-specifikationen har definierat enhetliga SMART-attribut för olika enhetstillverkare.
Kända NVMe SMART-attribut
ID | Attributnamn | Beskrivning |
---|---|---|
01 0x01 |
Kritisk varning |
Kritiska varningar för kontrollenhetens tillstånd. Bitdefinition: Bit 00, värde 1: Tillgänglig reserv är under tröskelvärdet. Bit 01, värde 1: Temperaturen är över tröskeln. Bit 02, värde 1: Drivens tillförlitlighet är försämrad. Bit 03, värde 1: Frekvensomriktaren är i skrivskyddat läge. |
02 0x02 |
Komposittemperatur | Temperatur i grader Kelvin som representerar styrenhetens aktuella sammansatta temperatur och dess namnutrymme(n). |
03 0x03 |
Tillgänglig reserv | Procent av tillgängliga reservdelar. |
04 0x04 |
Tillgänglig reservtröskel | Procentandel av tillgänglig reservtröskel. |
05 0x05 |
Procent använd | Procent av använt drivlivslängd. |
06 0x06 |
Dataenheter Läs | Antalet 512-byte dataenheter som värden har läst från styrenheten. Detta värde inkluderar inte metadata. Detta värde rapporteras i tusental (dvs ett värde på 1 motsvarar 1000 enheter på 512 byte skrivna) och avrundas uppåt. |
07 0x07 |
Dataenheter skrivna | Antalet 512-byte dataenheter som värden har skrivit till styrenheten. Detta värde inkluderar inte metadata. Detta värde rapporteras i tusental (dvs ett värde på 1 motsvarar 1000 enheter på 512 byte skrivna) och avrundas uppåt. |
08 0x08 |
Värdläskommandon | Antal läskommandon som utförts av styrenheten. |
09 0x09 |
Värdskrivkommandon | Antal skrivkommandon som utförts av styrenheten. |
10 0x0A |
Styrenhetens upptagen tid | Tiden som styrenheten är upptagen med I/O-kommandon. |
11 0x0B |
Strömcykler | Antal kraftcykler. |
12 0x0C |
Ström på timmar | Antal påslagningstimmar, exklusive tid påslagen i strömtillstånd som inte är i drift. |
13 0x0D |
Osäkra avstängningar | Antal osäkra avstängningar. Ökas när ett meddelande om avstängning inte tas emot före strömavbrott. |
14 0x0E |
Mediafel | Antalet händelser där styrenheten upptäckte ett oåterställt dataintegritetsfel, inklusive okorrigerbar ECC, CRC-kontrollsummafel eller LBA-taggfel. |
15 0x0F |
Antal felinformationsloggposter | Antal felinformationsloggposter under styrenhetens livstid. |
Självtester
SMART-enheter kan erbjuda ett antal självtester:
- Short
- Kontrollerar skivans elektriska och mekaniska prestanda samt läsprestanda. Elektriska tester kan innefatta ett test av buffert-RAM, ett läs/skrivkretstest eller ett test av läs/skrivhuvudelementen. Mekaniskt test inkluderar sökning och servo på dataspår. Skannar små delar av enhetens yta (området är leverantörsspecifikt och det finns en tidsgräns på testet). Kontrollerar listan över väntande sektorer som kan ha läsfel, och det tar vanligtvis under två minuter.
- Lång/förlängd
- En längre och mer noggrann version av det korta självtestet, som skannar hela diskytan utan tidsbegränsning. Detta test tar vanligtvis flera timmar, beroende på läs-/skrivhastigheten på enheten och dess storlek.
- Transport
- Avsedd som ett snabbtest för att identifiera skador som uppstått under transport av enheten från enhetstillverkaren till datortillverkaren. Endast tillgängligt på ATA-enheter, och det tar vanligtvis flera minuter.
- Selektiv
- Vissa enheter tillåter selektiva självtester av bara en del av ytan.
Självtestloggarna för SCSI- och ATA-enheter är något annorlunda. Det är möjligt att det långa provet blir godkänt även om det korta provet misslyckas.
Enhetens självtestlogg kan innehålla upp till 21 skrivskyddade poster. När loggen är ifylld tas gamla poster bort.
NVMe-enheter stöder inte självtester.
Se även
- Jämförelse av SMART-verktyg
- Dataskrubbning
- Diskverktyg
- Lista över diskpartitioneringsprogram
- Prediktiv felanalys
- Systemövervakare
- Optisk skiva § Skanning av ytfel
Vidare läsning
- Stephens, Curtis E, red. (22 juni 2011), "ATA/ATAPI Command Set - 2 (ACS-2)" (PDF) , ATA Command Set 2 (arbetsutkast) (7 uppl.), ANSI INCITS, sid. 73 .
- "SMART attribut betydelse" . siguardian.com . Arkiverad från originalet den 26 februari 2011 . Hämtad 3 februari 2006 .
- Chlondowski, Zbigniew. "SMART Site: referenstabell för attribut" . SMART Linux . Hämtad 17 januari 2007 .
- "SMART attribut mening" . Ariolic. 2007 . Hämtad 26 oktober 2007 .
- "Kan vi tro SMART?" . HDS Ungern . 2007 . Hämtad 4 juni 2008 .
- Allen, Bruce (2004). "Övervaka hårddiskar med SMART" . Linux Journal . Hämtad 8 augusti 2010 .
externa länkar
- UC Santa Cruz och Quantum släpper SMART-programvara för Linux, Michael Cornwell .
- UCSC SMART suite , SourceForge av: cornwell .
- Hur skiljer sig smartmontools från smartsuite? , SourceForge .
- SMART Monitoring Tools , SourceForge av: ballen4705 .
- smartmontools & smartsuite , smartmontools.org .
- GSmartControl är ett GUI för smartctl (del av smartmontools) av Alexander Shaduri
- Hur SMART är din hårddisk? , Storbritannien : pc-king.co.uk .
- Hur man förutsäger hårddiskfel (SMART-rapport), 2010-05-19 med Palimpsest (ursprungligen av Red Hat)
- KB251: Förstå SMART- och SMART-fel och fel , Western Digital .
- Hur fungerar SMART-funktionen på hårddiskar? .
- Hard Drive SMART Stats , en storskalig fältrapport
- Seagate SMART-attributspecifikation
- Normalt SATA SMART-attributbeteende (Seagate)
- Stor samling SMART-rapporter