Självövervakning, analys och rapporteringsteknik

Self-Monitoring, Analysis and Reporting Technology ( SMART , ofta skrivet som SMART ) är ett övervakningssystem som ingår i hårddiskar (HDD) och solid-state-enheter (SSD). Dess primära funktion är att upptäcka och rapportera olika indikatorer på enhetens tillförlitlighet i syfte att förutse överhängande hårdvarufel.

När SMART-data indikerar ett eventuellt överhängande diskfel, kan programvara som körs på värdsystemet meddela användaren så att förebyggande åtgärder kan vidtas för att förhindra dataförlust, och den felaktiga enheten kan bytas ut och dataintegriteten bibehållas.

Bakgrund

Hårddiskar och andra lagringsenheter är föremål för fel (se hårddiskfel ) som kan klassificeras inom två grundläggande klasser:

Förutsägbara fel som beror på långsamma processer som mekaniskt slitage och gradvis nedbrytning av lagringsytor. Övervakning kan avgöra när sådana misslyckanden blir mer sannolika.
Oförutsägbara fel som uppstår utan förvarning på grund av allt från att elektroniska komponenter blivit defekta till ett plötsligt mekaniskt fel, inklusive fel relaterade till felaktig hantering.

Mekaniska fel står för cirka 60 % av alla diskfel. Även om det eventuella felet kan vara katastrofalt, beror de flesta mekaniska fel på gradvis slitage och det finns vanligtvis vissa indikationer på att fel är nära förestående. Dessa kan inkludera ökad värmeeffekt, ökad brusnivå, problem med att läsa och skriva data eller en ökning av antalet skadade skivsektorer.

PCTechGuides sida på SMART (2003) kommenterar att tekniken har gått igenom tre faser:

I sin ursprungliga inkarnation tillhandahöll SMART felförutsägelser genom att övervaka vissa hårddiskaktiviteter online.

En efterföljande version av standarden förbättrade felförutsägelser genom att lägga till en automatisk off-line lässkanning för att övervaka ytterligare operationer. Online-attribut uppdateras alltid medan offline-attribut uppdateras när hårddisken inte fungerar. Om det finns ett omedelbart behov av att uppdatera offline-attributen saktar hårddisken ner och offline-attributen uppdateras. Den senaste "SMART"-tekniken övervakar inte bara hårddiskaktiviteter utan lägger till förebyggande av fel genom att försöka upptäcka och reparera sektorfel.

Även om tidigare versioner av tekniken endast övervakade hårddiskaktivitet för data som hämtats av operativsystemet, testar denna senaste SMART all data och alla sektorer av en enhet genom att använda "off-line datainsamling" för att bekräfta enhetens tillstånd under perioder av inaktivitet.

Noggrannhet

En fältstudie på Google som täckte över 100 000 diskar av konsumentklass från december 2005 till augusti 2006 fann samband mellan viss SMART-information och årliga felfrekvenser:

Under de 60 dagarna efter det första okorrigerbara felet på en enhet ( SMART-attribut 0xC6 eller 198) som upptäcktes som ett resultat av en offline-skanning, var sannolikheten att enheten i genomsnitt misslyckades 39 gånger mer än en liknande enhet för vilken inget sådant fel inträffade.
Första fel i omallokeringar, offline-omfördelningar ( SMART-attribut 0xC4 och 0x05 eller 196 och 5) och provanställning ( SMART-attribut 0xC5 eller 197) var också starkt korrelerade till högre sannolikheter för misslyckande.
Omvänt fann man liten korrelation för ökad temperatur och ingen korrelation för användningsnivå. Forskningen visade dock att en stor andel (56 %) av de misslyckade enheterna misslyckades utan att registrera någon räkning i de "fyra starka SMART-varningarna" som identifierats som skanningsfel, omfördelningsräkning, offlineomfördelning och provanställning.
Vidare gjorde 36 % av misslyckade enheter det utan att registrera något SMART-fel alls, förutom temperaturen, vilket betyder att SMART-data enbart var av begränsad användbarhet för att förutse misslyckanden.

Historia och föregångare

En tidig hårddiskövervakningsteknik introducerades av IBM 1992 i dess IBM 9337 Disk Arrays för AS/400- servrar som använder IBM 0662 SCSI-2-diskenheter. Senare fick den namnet Predictive Failure Analysis (PFA) teknologi. Den mätte flera viktiga enhetshälsoparametrar och utvärderade dem inom enhetens firmware. Kommunikation mellan den fysiska enheten och övervakningsmjukvaran var begränsad till ett binärt resultat: antingen "enheten är OK" eller "enheten kommer sannolikt att misslyckas snart".

Senare skapades en annan variant, som fick namnet IntelliSafe, av datortillverkaren Compaq och diskenhetstillverkarna Seagate , Quantum och Conner . Diskenheterna skulle mäta diskens "hälsoparametrar", och värdena skulle överföras till operativsystemet och programvara för övervakning av användarutrymme. Varje diskenhetsleverantör var fri att bestämma vilka parametrar som skulle inkluderas för övervakning och vad deras tröskelvärden skulle vara. Sammanslutningen var på protokollnivå med värden.

Compaq lämnade in IntelliSafe till Small Form Factor-kommittén (SFF) för standardisering i början av 1995. Det stöddes av IBM, av Compaqs utvecklingspartners Seagate, Quantum och Conner, och av Western Digital , som inte hade något system för förutsägelse av misslyckanden vid tid. Kommittén valde IntelliSafes tillvägagångssätt eftersom det gav mer flexibilitet. Compaq placerade IntelliSafe till allmän egendom den 12 maj 1995. Den resulterande gemensamt utvecklade standarden fick namnet SMART.

Den SFF-standarden beskrev ett kommunikationsprotokoll för en ATA-värd att använda och styra övervakning och analys i en hårddisk, men specificerade inte några särskilda mätvärden eller analysmetoder. Senare kom "SMART" att förstås (dock utan någon formell specifikation) för att hänvisa till en mängd specifika mätvärden och metoder och tillämpas på protokoll som inte är relaterade till ATA för att kommunicera samma slags saker.

Tillhandahållit information

mSATA SSD med SandForce SF-2281 Controller (Intel 525 mSATA SSD)

Den tekniska dokumentationen för SMART finns i standarden AT Attachment (ATA). ATA-standarden introducerades först 1994 och har genomgått flera revisioner. Vissa delar av den ursprungliga SMART-specifikationen av Small Form Factor (SFF) Committee lades till ATA-3, publicerad 1997. 1998 släppte ATA-4 kravet på att enheter ska behålla en intern attributtabell och krävdes istället endast för en " OK" eller "NOT OK" värde som ska returneras. Tillverkarna har dock behållit möjligheten att hämta attributens värde. Den senaste ATA-standarden, ATA-8, publicerades 2004. Den har genomgått regelbundna revisioner, den senaste 2011. Standardisering av liknande funktioner på SCSI är mer knapphändig och nämns inte som sådan i standarder, även om både leverantörer och konsumenter hänvisa till dessa liknande funktioner på SMART också.

Den mest grundläggande informationen som SMART tillhandahåller är SMART-statusen. Den ger bara två värden: "tröskelvärde ej överskriden" och "tröskelvärde överskriden". Ofta representeras dessa som "drive OK" respektive "drive fail". Ett "tröskelvärde överskrids" är avsett att indikera att det finns en relativt hög sannolikhet att frekvensomriktaren inte kommer att kunna uppfylla sin specifikation i framtiden: det vill säga frekvensomriktaren är "på väg att misslyckas". Det förutspådda misslyckandet kan vara katastrofalt eller kan vara något så subtilt som oförmågan att skriva till vissa sektorer, eller kanske långsammare prestanda än tillverkarens deklarerade minimum.

SMART-statusen indikerar inte nödvändigtvis enhetens tidigare eller nuvarande tillförlitlighet. Om en enhet redan har misslyckats katastrofalt kan SMART-statusen vara otillgänglig. Alternativt, om en enhet har haft problem tidigare, men sensorerna inte längre upptäcker sådana problem, kan SMART-statusen, beroende på tillverkarens programmering, tyda på att enheten nu är frisk.

Oförmågan att läsa vissa sektorer är inte alltid en indikation på att en enhet är på väg att misslyckas. Ett sätt som oläsbara sektorer kan skapas, även när enheten fungerar inom specifikationen, är genom ett plötsligt strömavbrott medan enheten skriver. Även om den fysiska disken är skadad på en plats, så att en viss sektor är oläsbar, kan disken kanske använda ledigt utrymme för att ersätta det skadade området, så att sektorn kan skrivas över.

Mer information om enhetens tillstånd kan erhållas genom att undersöka SMART-attributen. SMART-attribut inkluderades i vissa utkast till ATA-standarden, men togs bort innan standarden blev slutgiltig. Innebörden och tolkningen av attributen varierar mellan tillverkare och anses ibland vara en affärshemlighet för en eller annan tillverkare. Attribut diskuteras vidare nedan.

Enheter med SMART kan eventuellt upprätthålla ett antal "loggar". Felloggen registrerar information om de senaste felen som enheten har rapporterat tillbaka till värddatorn . Att undersöka den här loggen kan hjälpa en att avgöra om datorproblem är diskrelaterade eller orsakade av något annat (felloggtidsstämplar kan "bryta" efter 2 ³² ms = 49,71 dagar)

En enhet som implementerar SMART kan valfritt implementera ett antal självtest- eller underhållsrutiner, och resultaten av testerna sparas i självtestloggen . Självtestrutinerna kan användas för att upptäcka alla oläsbara sektorer på disken, så att de kan återställas från säkerhetskopieringskällor (till exempel från andra diskar i en RAID ) . Detta hjälper till att minska risken för permanent förlust av data.

Standarder och implementering

Brist på gemensam tolkning

Många moderkort visar ett varningsmeddelande när en hårddisk närmar sig ett fel. Även om det finns en branschstandard bland de flesta stora hårddisktillverkarna, kvarstår problem på grund av attribut som avsiktligt lämnats odokumenterade för allmänheten för att skilja modeller mellan tillverkare. Ur ett juridiskt perspektiv avser termen "SMART" endast en signaleringsmetod mellan interna elektromekaniska sensorer på hårddisken och värddatorn. På grund av detta är specifikationerna för SMART helt leverantörsspecifika och medan många av dessa attribut har standardiserats mellan drivenhetsleverantörer förblir andra leverantörsspecifika. SMART-implementeringarna skiljer sig fortfarande åt och i vissa fall kan de sakna "vanliga" eller förväntade funktioner som en temperatursensor eller bara innehålla ett fåtal utvalda attribut samtidigt som det tillåter tillverkaren att marknadsföra produkten som "SMART-kompatibel".

Synlighet till värdsystem

Beroende på vilken typ av gränssnitt som används, kanske vissa SMART-aktiverade moderkort och relaterad programvara inte kommunicerar med vissa SMART-kompatibla enheter. Till exempel är det få externa enheter anslutna via USB och FireWire som skickar SMART-data korrekt över dessa gränssnitt. Med så många sätt att ansluta en hårddisk ( SCSI , Fibre Channel , ATA , SATA , SAS , SSA , NVMe och så vidare) är det svårt att förutse om SMART-rapporter kommer att fungera korrekt i ett givet system.

Även med en hårddisk och ett gränssnitt som implementerar specifikationen, kanske datorns operativsystem inte ser SMART-informationen eftersom enheten och gränssnittet är inkapslade i ett lägre lager. Till exempel kan de vara en del av ett RAID-undersystem där RAID-styrenheten ser den SMART-kapabla enheten, men värddatorn ser bara en logisk volym som genereras av RAID-styrenheten.

På Windows -plattformen fungerar många program som är utformade för att övervaka och rapportera SMART-information endast under ett administratörskonto .

BIOS och Windows ( Windows Vista och senare) kan upptäcka SMART-status för hårddiskar och solid state-enheter och ge en uppmaning om SMART-statusen är dålig.

ATA SMART-attribut

Varje enhetstillverkare definierar en uppsättning attribut och ställer in tröskelvärden utöver vilka attribut inte ska passera under normal drift. Varje attribut har ett råvärde som kan vara ett decimalt eller ett hexadecimalt värde, vars betydelse helt och hållet är upp till drivenhetens tillverkare (men motsvarar ofta räkningar eller en fysisk enhet, såsom grader Celsius eller sekunder), ett normaliserat värde , som varierar från 1 till 253 (där 1 representerar det sämsta fallet och 253 representerar det bästa) och ett sämsta värde , som representerar det lägsta registrerade normaliserade värdet. Det ursprungliga standardvärdet för attribut är 100 men kan variera mellan olika tillverkare.

Tillverkare som har implementerat minst ett SMART-attribut i olika produkter inkluderar Samsung , Seagate , IBM ( Hitachi ), Fujitsu , Maxtor , Toshiba , Intel , sTec, Inc. , Western Digital och ExcelStor Technology .

Kända ATA SMART-attribut

Följande diagram listar några SMART-attribut och den typiska betydelsen av deras råvärden. Normaliserade värden mappas vanligtvis så att högre värden är bättre (undantag inkluderar drivtemperatur, antal huvudbelastnings-/avlastningscykler), men högre råattributvärden kan vara bättre eller sämre beroende på attribut och tillverkare. Till exempel minskar attributets normaliserade värde för "Reallocated Sectors Count" när antalet omallokerade sektorer ökar . I det här fallet kommer attributets råvärde ofta att indikera det faktiska antalet sektorer som omfördelats, även om leverantörer inte på något sätt är skyldiga att följa denna konvention.

Eftersom tillverkare inte nödvändigtvis är överens om exakta attributdefinitioner och måttenheter, är följande lista med attribut endast en allmän vägledning.

Enheter stöder inte alla attributkoder (ibland förkortade som "ID", för "identifierare", i tabeller). Vissa koder är specifika för särskilda enhetstyper (magnetisk platta, blixt, SSD). Frekvensomriktare kan använda olika koder för samma parameter, t.ex. se koderna 193 och 225.

Legend
ID	193 0xC1	Attributkod i decimala och hexadecimala beteckningar
Idealisk	Hög	Högre råvärde är bättre
Idealisk	Låg	Lägre råvärde är bättre
! (Kritisk)		Betecknar ett kritiskt attribut. Specifika värden kan förutsäga diskfel

ID	Attributnamn	Idealisk	Beskrivning
01 0x01	Läs felfrekvens	Låg	(Leverantörsspecifikt råvärde.) Lagrar data relaterad till frekvensen av hårdvaruläsfel som uppstod när data lästes från en diskyta. Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel.
02 0x02	Genomströmningsprestanda	Hög	Övergripande (allmän) genomströmningsprestanda för en hårddisk. Om värdet på detta attribut minskar är det stor sannolikhet att det finns ett problem med disken.
03 0x03	Spin-up tid	Låg	Genomsnittlig tid för spindelns rotation (från noll varv per minut till fullt fungerande [millisekunder]).
04 0x04	Start/stoppräkning		En sammanställning av spindelns start-/stoppcykler. Spindeln slås på, och följaktligen ökas antalet, både när hårddisken slås på efter att den tidigare varit helt avstängd (bortkopplad från strömkällan) och när hårddisken återgår från att ha försatts i viloläge tidigare.
05 0x05	Omfördelade sektorer räknas	Låg	Antal omfördelade sektorer. Råvärdet representerar ett antal dåliga sektorer som har hittats och ommappats. Ju högre attributvärdet är, desto fler sektorer har enheten behövt omfördela. Detta värde används främst som ett mått på drivenhetens förväntade livslängd; en enhet som har haft några omfördelningar alls är betydligt mer sannolikt att misslyckas inom de närmaste månaderna.
06 0x06	Läs Channel Margin		Marginal för en kanal vid läsning av data. Funktionen för detta attribut är inte specificerad.
07 0x07	Sök felfrekvens	Varierar	(Leverantörsspecifikt råvärde.) Hastighet för sökningsfel för magnethuvudena. Om det finns ett partiellt fel i det mekaniska positioneringssystemet, kommer sökfel att uppstå. Ett sådant fel kan bero på många faktorer, såsom skador på en servo eller termisk utvidgning av hårddisken. Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel.
08 0x08	Sök Time Performance	Hög	Genomsnittlig prestanda för magnethuvudens sökoperationer. Om detta attribut minskar är det ett tecken på problem i det mekaniska delsystemet.
09 0x09	Starttider		Antal timmar i strömtillstånd. Råvärdet för det här attributet visar det totala antalet timmar (eller minuter eller sekunder, beroende på tillverkare) i startläge. "Som standard är den totala förväntade livslängden för en hårddisk i perfekt skick definierad som 5 år (körs varje dag och natt alla dagar). Detta är lika med 1825 dagar i 24/7-läge eller 43800 timmar." På vissa diskar före 2005 kan detta råvärde öka oregelbundet och/eller "omslutas" (återställs till noll med jämna mellanrum).
10 0x0A	Snurr Räkna igen	Låg	Antal återförsök av snurrstartförsök. Detta attribut lagrar det totala antalet snurrstartförsök för att nå den fullt fungerande hastigheten (under förutsättning att det första försöket misslyckades). En ökning av detta attributvärde är ett tecken på problem i hårddiskens mekaniska delsystem.
11 0x0B	Omkalibreringsförsök eller Kalibreringsförsök	Låg	Detta attribut indikerar antalet som omkalibrering begärdes (under förutsättning att det första försöket misslyckades). En ökning av detta attributvärde är ett tecken på problem i hårddiskens mekaniska delsystem.
12 0x0C	Power Cycle Count		Det här attributet indikerar antalet fulla på- och avstängningscykler för hårddisken.
13 0x0D	Mjuk läsfelfrekvens	Låg	Okorrigerade läsfel rapporteras till operativsystemet.
22 0x16	Aktuell heliumnivå	Hög	Specifik för He8-enheter från HGST. Detta värde mäter heliumet inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation.
23 0x17	Heliumkondition lägre		Specifik för MG07+-enheter från Toshiba. Detta värde mäter lägre nivå av helium inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation.
24 0x18	Helium skick övre		Specifik för MG07+-enheter från Toshiba. Detta värde mäter den övre nivån av helium inuti frekvensomriktaren som är specifik för denna tillverkare. Det är ett pre-fail-attribut som löser ut när enheten upptäcker att den interna miljön är ur specifikation.
170 0xAA	Tillgängligt reserverat utrymme		Se attribut E8.
171 0xAB	Antal misslyckade SSD-program		(Kingston) Det totala antalet operationsfel i flashprogrammet sedan enheten installerades. Identisk med attribut 181.
172 0xAC	SSD-raderingsfel		(Kingston) Räknar antalet blixtraderingsfel. Det här attributet returnerar det totala antalet Flash-raderingsfel sedan enheten distribuerades. Detta attribut är identiskt med attribut 182.
173 0xAD	SSD Slitage Leveling Count		Räknar det maximala sämsta antalet raderingar på ett block.
174 0xAE	Antal oväntade strömförluster		Även känd som "Power-off Retract Count" enligt konventionell hårddiskterminologi. Råvärde rapporterar antalet orena avstängningar, kumulativt över livslängden för en SSD, där en "ren avstängning" är borttagning av ström utan STANDBY IMMEDIATE som det sista kommandot (oavsett PLI-aktivitet som använder kondensatoreffekt). Normaliserat värde är alltid 100.
175 0xAF	Strömförlustskyddsfel		Sista testresultatet i mikrosekunder till urladdningslocket, mättat vid sitt maximala värde. Loggar även minuter sedan senaste testet och antalet tester under hela livslängden. Råvärde innehåller följande data: Byte 0-1: Sista testresultatet i mikrosekunder till urladdningslocket, mättas vid maxvärde. Testresultat förväntas inom intervall 25 <= resultat <= 5000000, lägre indikerar specifik felkod. Byte 2-3: Minuter sedan senaste testet, mättar vid maxvärde. Byte 4-5: Antal tester under hela livslängden, inte inkrementerat vid strömcykeln, mättas vid maxvärde. Normaliserat värde sätts till ett vid testfel eller 11 om kondensatorn har testats vid för hög temperatur, annars 100.
176 0xB0	Radera misslyckande		SMART-parametern indikerar ett antal misslyckanden med flashraderingskommandon.
177 0xB1	Wear Range Delta		Delta mellan mest slitna och minst slitna Flash-block. Den beskriver hur bra/dåligt slitnivån på SSD:n fungerar på ett mer tekniskt sätt.
178 0xB2	Använd reserverat blockantal		"Pre-Fail"-attribut som används åtminstone i Samsung-enheter.
179 0xB3	Använt reserverat blockantal totalt		"Pre-Fail"-attribut som används åtminstone i Samsung-enheter.
180 0xB4	Oanvändt antal reserverade block totalt		"Pre-Fail"-attribut som används åtminstone i HP-enheter.
181 0xB5	Antal programfel Totalt eller icke-4K-justerat åtkomstantal	Låg	Totalt antal driftfel i Flash-programmet sedan enheten distribuerades. Antal användardataåtkomster (både läser och skriver) där LBA:er inte är 4 KiB justerade (LBA % 8 != 0) eller där storleken inte är modul 4 KiB (blockantal != 8), förutsatt att logisk blockstorlek (LBS) = 512 B.
182 0xB6	Radera misslyckande		"Pre-Fail"-attribut som används åtminstone i Samsung-enheter.
183 0xB7	Antal SATA-nedväxlingsfel eller dåligt block vid körning	Låg	Western Digital, Samsung eller Seagate-attribut: Antingen antalet nedväxlingar av länkhastighet (t.ex. från 6Gbit/s till 3Gbit/s) eller det totala antalet datablock med upptäckta, okorrigerbara fel som påträffats under normal drift. Även om försämring av denna parameter kan vara en indikator på frekvensomriktarens åldrande och/eller potentiella elektromekaniska problem, indikerar det inte direkt ett överhängande drevfel.
184 0xB8	End-to-end-fel / IOEDC	Låg	Detta attribut är en del av Hewlett-Packards SMART IV-teknik, såväl som en del av andra leverantörers IO-feldetekterings- och korrigeringsscheman, och det innehåller ett antal paritetsfel som uppstår i datavägen till media via enhetens cache RAM.
185 0xB9	Huvudstabilitet		Western Digital-attribut.
186 0xBA	Inducerad op-vibrationsdetektering		Western Digital-attribut.
187 0xBB	Rapporterade okorrigerbara fel	Låg	Antalet fel som inte kunde återställas med hårdvaru-ECC (se attribut 195).
188 0xBC	Kommando timeout	Låg	Antalet avbrutna operationer på grund av HDD-timeout. Normalt ska detta attributvärde vara lika med noll.
189 0xBD	Hög fluga skriver	Låg	Hårddisktillverkare implementerar en flyghöjdssensor som försöker ge ytterligare skydd för skrivoperationer genom att detektera när ett inspelningshuvud flyger utanför sitt normala arbetsområde. Om ett osäkert flyghöjdstillstånd påträffas stoppas skrivprocessen och informationen skrivs om eller omfördelas till en säker region på hårddisken. Det här attributet indikerar antalet dessa fel som upptäckts under drivenhetens livstid. Den här funktionen är implementerad i de flesta moderna Seagate-diskar och några av Western Digitals hårddiskar, som börjar med WD Enterprise WDE18300 och WDE9180 Ultra2 SCSI-hårddiskar, och kommer att ingå i alla framtida WD Enterprise-produkter.
190 0xBE	Temperaturskillnad eller luftflödestemperatur	Varierar	Värdet är lika med (100-temp. °C), vilket gör att tillverkaren kan ställa in ett lägsta tröskelvärde som motsvarar en maxtemperatur. Detta följer också konventionen att 100 är ett bästa fallet och lägre värden är oönskade. Däremot kan vissa äldre enheter istället rapportera rå temperatur (identisk med 0xC2) eller temperatur minus 50 här.
191 0xBF	G-sense felfrekvens	Låg	Antalet fel som härrör från externt inducerade stötar och vibrationer.
192 0xC0	Avstängningsräknare , nödåterdragningscykelräkning (Fujitsu) eller osäker avstängningsräkning	Låg	Antal avstängnings- eller nödåtdragningscykler.
193 0xC1	Antal belastningscykel eller räkning av belastnings-/avlastningscykel (Fujitsu)	Låg	Antal lastnings-/avlastningscykler till läge för huvudlandningszon. Vissa enheter använder istället 225 (0xE1) för belastningscykelräkning. Western Digital betygsätter sina VelociRaptor-enheter för 600 000 laddnings-/avlastningscykler och WD Green-enheter för 300 000 cykler; de senare är utformade för att lossa huvuden ofta för att spara ström. Å andra sidan är WD3000GLFS (en stationär enhet) specificerad för endast 50 000 laddnings-/avlastningscykler. Vissa bärbara enheter och stationära enheter med "grön kraft" är programmerade att ladda ur huvudena när det inte har varit någon aktivitet under en kort period, för att spara ström. Operativsystem kommer ofta åt filsystemet några gånger per minut i bakgrunden, vilket orsakar 100 eller fler belastningscykler per timme om huvudena lossar: belastningscykelns klassificering kan överskridas på mindre än ett år. Det finns program för de flesta operativsystem som inaktiverar Advanced Power Management (APM) och Automatic Acoustic Management (AAM) som orsakar frekventa belastningscykler.
194 0xC2	Temperatur eller Temperatur Celsius	Låg	Indikerar enhetens temperatur, om lämplig sensor är monterad. Den lägsta byten av råvärdet innehåller det exakta temperaturvärdet (Celsiusgrader).
195 0xC3	Hårdvara ECC återställd	Varierar	(Leverantörsspecifikt råvärde.) Råvärdet har olika struktur för olika leverantörer och är ofta inte meningsfullt som ett decimaltal. För vissa enheter kan detta antal öka under normal drift utan att nödvändigtvis betyda fel.
196 0xC4	Antal omfördelningshändelser	Låg	Antal ommappningsoperationer. Råvärdet för detta attribut visar det totala antalet försök att överföra data från omfördelade sektorer till ett reservområde. Både lyckade och misslyckade försök räknas.
197 0xC5	Nuvarande väntande sektorräkning	Låg	Antal "instabila" sektorer (väntar på att bli ommappad, på grund av oåterställbara läsfel). Om en instabil sektor därefter läses framgångsrikt, mappas sektorn om och detta värde minskas. Läsfel på en sektor kommer inte att mappa om sektorn omedelbart (eftersom det korrekta värdet inte kan läsas och så värdet som ska mappas om är inte känt, och det kan också bli läsbart senare); istället kommer enhetens firmware ihåg att sektorn behöver ommappas och kommer att mappa om den nästa gång den har lästs. Vissa enheter kommer dock inte omedelbart att mappa om sådana sektorer när de läses framgångsrikt; istället kommer enheten först att försöka skriva till problemsektorn, och om skrivoperationen lyckas kommer sektorn att markeras som bra (i detta fall kommer "Reallocation Event Count" (0xC4) inte att ökas). Detta är en allvarlig brist, för om en sådan enhet innehåller marginella sektorer som konsekvent misslyckas först efter en tid har gått efter en framgångsrik skrivoperation, kommer enheten aldrig att mappa om dessa problemsektorer.
198 0xC6	(Offline) Okorrigerbart antal sektorer	Låg	Det totala antalet okorrigerbara fel vid läsning/skrivning av en sektor. En ökning av värdet på detta attribut indikerar defekter i skivytan och/eller problem i det mekaniska delsystemet.
199 0xC7	Antal UltraDMA CRC-fel	Låg	Antalet fel vid dataöverföring via gränssnittskabeln som fastställts av ICRC (Interface Cyclic Redundancy Check).
200 0xC8	Multi-Zone Error Rate	Låg	Antalet fel som hittats vid skrivning av en sektor. Ju högre värde, desto sämre är skivans mekaniska tillstånd.
200 0xC8	Skrivfelfrekvens (Fujitsu)	Låg	Det totala antalet fel när du skriver en sektor.
201 0xC9	Mjuk läsfelfrekvens eller TA-räknare upptäckt	Låg	Antalet anger antalet okorrigerbara programläsfel.
202 0xCA	Dataadress Markeringsfel eller TA-räknare ökad	Låg	Antal dataadress Markeringsfel (eller leverantörsspecifika).
203 0xCB	Slut på Avbryt	Låg	Antalet fel orsakade av felaktig kontrollsumma under felkorrigeringen.
204 0xCC	Mjuk ECC-korrigering	Låg	Antal fel korrigerade av den interna felkorrigeringsmjukvaran.
205 0xCD	Termisk asperitetshastighet	Låg	Antal fel på grund av hög temperatur.
206 0xCE	Flyghöjd		Höjd på huvuden ovanför skivytan. Om det är för lågt är huvudkrasch mer sannolikt; om det är för högt är läs-/skrivfel mer sannolikt.
207 0xCF	Snurra hög ström	Låg	Mängden överspänningsström som används för att snurra upp enheten.
208 0xD0	Snurra Buzz		Antal buzz-rutiner som behövs för att snurra upp enheten på grund av otillräcklig kraft.
209 0xD1	Offlinesök prestanda		Drives söker prestanda under dess interna tester.
210 0xD2	Vibration under skrivning		Finns i Maxtor 6B200M0 200GB och Maxtor 2R015H1 15GB diskar.
211 0xD3	Vibration under skrivning		En inspelning av en vibration som påträffas under skrivoperationer.
212 0xD4	Chock under skrivning		En inspelning av chock påträffad under skrivoperationer.
220 0xDC	Diskskifte	Låg	Avstånd skivan har förskjutits i förhållande till spindeln (vanligtvis på grund av stötar eller temperatur). Måttenhet är okänd.
221 0xDD	G-Sense felfrekvens	Låg	Antalet fel som härrör från externt inducerade stötar och vibrationer. Mer typiskt rapporterad på 0xBF.
222 0xDE	Laddade timmar		Tid som ägnas åt att arbeta under databelastning (rörelse av magnethuvudets armatur).
223 0xDF	Ladda/avlasta Försöksräkning igen		Antal gånger huvudet byter position.
224 0xE0	Lastfriktion	Låg	Motstånd orsakat av friktion i mekaniska delar under drift.
225 0xE1	Ladda/avlastningscykelräkning	Låg	Totalt antal belastningscykler Vissa frekvensomriktare använder istället 193 (0xC1) för belastningscykelräkning. Se Beskrivning för 193 för betydelsen av detta nummer.
226 0xE2	Ladda 'I'-tid		Total tid för belastning på magnethuvudets manöverdon (tid som inte spenderas på parkeringsområdet).
227 0xE3	Antal vridmomentförstärkningar	Låg	Antal försök att kompensera för variationer i tallrikens hastighet.
228 0xE4	Power-Off Retract Cycle	Låg	Antalet avstängningscykler som räknas när det sker en "indragningshändelse" och huvuden laddas bort från media, till exempel när maskinen stängs av, försätts i viloläge eller är inaktiv.
230 0xE6	GMR Head Amplitude (magnetiska hårddiskar), Drive Life Protection Status (SSD)		Amplitud av "trassling" (repetitiva huvudrörelser mellan operationer). I solid-state-enheter, indikerar om användningsbanan överskrider den förväntade livslängdskurvan
231 0xE7	Livslängd kvar (SSD) eller temperatur		Indikerar den ungefärliga SSD-livslängden som återstår, i form av programmerings-/raderingscykler eller tillgängliga reserverade block. Ett normaliserat värde på 100 representerar en ny drivenhet, med ett tröskelvärde på 10 som indikerar ett behov av utbyte. Ett värde på 0 kan innebära att enheten arbetar i skrivskyddat läge för att möjliggöra dataåterställning. Tidigare (före 2010) användes ibland för Drive Temperature (mer typiskt rapporterad vid 0xC2).
232 0xE8	Uthållighet kvar eller tillgängligt reserverat utrymme		Antal fysiska raderingscykler som slutförts på SSD:n som en procentandel av de maximala fysiska raderingscyklerna som enheten är designad för att tåla. Intel SSD:er rapporterar tillgängligt reserverat utrymme som en procentandel av det initialt reserverade utrymmet.
233 0xE9	Media Wearout Indicator (SSD) eller uppstartstider		Intel SSD:er rapporterar ett normaliserat värde från 100, en ny enhet, till ett minimum av 1. Det minskar medan NAND-raderingscyklerna ökar från 0 till de högsta klassade cyklerna. Tidigare (före 2010) användes ibland för uppstartstimmar (mer typiskt rapporterad i 0x09).
234 0xEA	Genomsnittligt raderingsantal OCH Maximalt raderingsantal		Avkodad som: byte 0-1-2 = genomsnittligt raderingsantal (big endian) och byte 3-4-5 = max raderingsantal (big endian).
235 0xEB	Bra blockantal OCH system(gratis) blockantal		Avkodad som: byte 0-1-2 = bra blockantal (big endian) och byte 3-4 = system (gratis) blockantal.
240 0xF0	Head Flying Hours eller ' Transfer Error Rate' (Fujitsu)		Tid som spenderas under placeringen av drivhuvudena. Vissa Fujitsu-enheter rapporterar antalet länkåterställningar under en dataöverföring.
241 0xF1	Totalt skrivna LBA		Totalt antal skrivna LBA.
242 0xF2	Totalt lästa LBA		Totalt antal lästa LBA. Vissa SMART-verktyg kommer att rapportera ett negativt tal för råvärdet eftersom det i verkligheten har 48 bitar istället för 32.
243 0xF3	Totalt antal LBA skrivna utökat		De övre 5 byten av det totala antalet LBA på 12 byte som skrivits till enheten. Det lägre värdet på 7 byte finns vid attributet 0xF1.
244 0xF4	Totalt antal LBA läser utökade		De övre 5 byten av det totala antalet LBA på 12 byte som läses från enheten. Det lägre värdet på 7 byte finns vid attributet 0xF2.
249 0xF9	NAND skriver (1GiB)		Totalt NAND skriver. Råvärde rapporterar antalet skrivningar till NAND i steg om 1 GB.
250 0xFA	Läs felförsöksfrekvens	Låg	Antal fel vid läsning från en disk.
251 0xFB	Minsta reservdelar kvar		Attributet Minsta återstående reservdelar anger antalet återstående reservblock i procent av det totala antalet tillgängliga reservblock.
252 0xFC	Nyligen tillagd Bad Flash Block		Attributet Newly Added Bad Flash Block anger det totala antalet dåliga flashblock som enheten upptäckte sedan den först initierades i tillverkningen.
254 0xFE	Fritt fallskydd	Låg	Antalet "Fritt fall-händelser" har upptäckts.

Känd ATA-enhetsstatistik

Sida	Offset	Beskrivning
0x01	0x08	Livstidsstartåterställningar
0x01	0x10	Starttider
0x01	0x18	Logiska sektorer skrivna
0x01	0x28	Läs logiska sektorer
0x05	0x08	Aktuell temperatur
0x05	0x20	Högsta temperatur
0x05	0x28	Lägsta temperatur
0x05	0x58	Specificerad maximal drifttemperatur
0x05	0x68	Specificerad lägsta drifttemperatur
0x07	0x08	Andel använd uthållighetsindikator

Tröskeln överskrider tillståndet

Threshold Exceeds Condition (TEC) är ett beräknat datum då ett kritiskt attribut för frekvensomriktarstatistik når sitt tröskelvärde. När Drive Health-mjukvaran rapporterar ett "Närmaste TEC" ska det betraktas som ett "Feildatum". Ibland anges inget datum och enheten kan förväntas fungera felfritt.

För att förutsäga datumet spårar enheten i vilken takt attributet ändras. Observera att TEC-datum endast är uppskattningar; hårddiskar kan misslyckas mycket tidigare eller mycket senare än TEC-datumet.

NVMe SMART-attribut

NVMe-specifikationen har definierat enhetliga SMART-attribut för olika enhetstillverkare.

Kända NVMe SMART-attribut

ID	Attributnamn	Beskrivning
01 0x01	Kritisk varning	Kritiska varningar för kontrollenhetens tillstånd. Bitdefinition: Bit 00, värde 1: Tillgänglig reserv är under tröskelvärdet. Bit 01, värde 1: Temperaturen är över tröskeln. Bit 02, värde 1: Drivens tillförlitlighet är försämrad. Bit 03, värde 1: Frekvensomriktaren är i skrivskyddat läge.
02 0x02	Komposittemperatur	Temperatur i grader Kelvin som representerar styrenhetens aktuella sammansatta temperatur och dess namnutrymme(n).
03 0x03	Tillgänglig reserv	Procent av tillgängliga reservdelar.
04 0x04	Tillgänglig reservtröskel	Procentandel av tillgänglig reservtröskel.
05 0x05	Procent använd	Procent av använt drivlivslängd.
06 0x06	Dataenheter Läs	Antalet 512-byte dataenheter som värden har läst från styrenheten. Detta värde inkluderar inte metadata. Detta värde rapporteras i tusental (dvs ett värde på 1 motsvarar 1000 enheter på 512 byte skrivna) och avrundas uppåt.
07 0x07	Dataenheter skrivna	Antalet 512-byte dataenheter som värden har skrivit till styrenheten. Detta värde inkluderar inte metadata. Detta värde rapporteras i tusental (dvs ett värde på 1 motsvarar 1000 enheter på 512 byte skrivna) och avrundas uppåt.
08 0x08	Värdläskommandon	Antal läskommandon som utförts av styrenheten.
09 0x09	Värdskrivkommandon	Antal skrivkommandon som utförts av styrenheten.
10 0x0A	Styrenhetens upptagen tid	Tiden som styrenheten är upptagen med I/O-kommandon.
11 0x0B	Strömcykler	Antal kraftcykler.
12 0x0C	Ström på timmar	Antal påslagningstimmar, exklusive tid påslagen i strömtillstånd som inte är i drift.
13 0x0D	Osäkra avstängningar	Antal osäkra avstängningar. Ökas när ett meddelande om avstängning inte tas emot före strömavbrott.
14 0x0E	Mediafel	Antalet händelser där styrenheten upptäckte ett oåterställt dataintegritetsfel, inklusive okorrigerbar ECC, CRC-kontrollsummafel eller LBA-taggfel.
15 0x0F	Antal felinformationsloggposter	Antal felinformationsloggposter under styrenhetens livstid.

Självtester

SMART-enheter kan erbjuda ett antal självtester:

Short: Kontrollerar skivans elektriska och mekaniska prestanda samt läsprestanda. Elektriska tester kan innefatta ett test av buffert-RAM, ett läs/skrivkretstest eller ett test av läs/skrivhuvudelementen. Mekaniskt test inkluderar sökning och servo på dataspår. Skannar små delar av enhetens yta (området är leverantörsspecifikt och det finns en tidsgräns på testet). Kontrollerar listan över väntande sektorer som kan ha läsfel, och det tar vanligtvis under två minuter.
Lång/förlängd: En längre och mer noggrann version av det korta självtestet, som skannar hela diskytan utan tidsbegränsning. Detta test tar vanligtvis flera timmar, beroende på läs-/skrivhastigheten på enheten och dess storlek.
Transport: Avsedd som ett snabbtest för att identifiera skador som uppstått under transport av enheten från enhetstillverkaren till datortillverkaren. Endast tillgängligt på ATA-enheter, och det tar vanligtvis flera minuter.
Selektiv: Vissa enheter tillåter selektiva självtester av bara en del av ytan.

Självtestloggarna för SCSI- och ATA-enheter är något annorlunda. Det är möjligt att det långa provet blir godkänt även om det korta provet misslyckas.

Enhetens självtestlogg kan innehålla upp till 21 skrivskyddade poster. När loggen är ifylld tas gamla poster bort.

NVMe-enheter stöder inte självtester.

Se även

Vidare läsning

Stephens, Curtis E, red. (22 juni 2011), "ATA/ATAPI Command Set - 2 (ACS-2)" (PDF) , ATA Command Set 2 (arbetsutkast) (7 uppl.), ANSI INCITS, sid. 73 .
"SMART attribut betydelse" . siguardian.com . Arkiverad från originalet den 26 februari 2011 . Hämtad 3 februari 2006 .
Chlondowski, Zbigniew. "SMART Site: referenstabell för attribut" . SMART Linux . Hämtad 17 januari 2007 .
"SMART attribut mening" . Ariolic. 2007 . Hämtad 26 oktober 2007 .
"Kan vi tro SMART?" . HDS Ungern . 2007 . Hämtad 4 juni 2008 .
Allen, Bruce (2004). "Övervaka hårddiskar med SMART" . Linux Journal . Hämtad 8 augusti 2010 .

externa länkar

UC Santa Cruz och Quantum släpper SMART-programvara för Linux, Michael Cornwell .
UCSC SMART suite , SourceForge av: cornwell .
Hur skiljer sig smartmontools från smartsuite? , SourceForge .
SMART Monitoring Tools , SourceForge av: ballen4705 .
smartmontools & smartsuite , smartmontools.org .
GSmartControl är ett GUI för smartctl (del av smartmontools) av Alexander Shaduri
Hur SMART är din hårddisk? , Storbritannien : pc-king.co.uk .
Hur man förutsäger hårddiskfel (SMART-rapport), 2010-05-19 med Palimpsest (ursprungligen av Red Hat)
KB251: Förstå SMART- och SMART-fel och fel , Western Digital .
Hur fungerar SMART-funktionen på hårddiskar? .
Hard Drive SMART Stats , en storskalig fältrapport
Seagate SMART-attributspecifikation
Normalt SATA SMART-attributbeteende (Seagate)
Stor samling SMART-rapporter