it-swarm-ko.tech

얼마나 많은 SMART 섹터 재 할당이 문제를 나타 냅니까?

한 달이 조금 넘은 NAS 어플라이언스가 있습니다. 하드 드라이브의 SMART 데이터에서 생성 된 경고를 이메일로 보내도록 구성되어 있습니다. 하루 후) , 한 하드 드라이브 중 하나가 섹터가 손상되어 재 할당되었다고보고했습니다. 첫 주 동안 해당 하드 드라이브의 수는 해당 하드 드라이브의 총 섹터 수는 6 개로 증가했습니다. 한 달 후이 숫자는 재 할당 된 섹터 9 개입니다. 확실히 감속하는 것 같습니다.

NAS는 RAID-5 구성에서 6 개의 1.5 TB 드라이브)로 구성됩니다. 이러한 대용량 드라이브를 사용하면 섹터가 때때로 실패 할 것으로 예상합니다. 시간 때문에 처음 몇 개의 섹터가 재배치 될 때 걱정하지 않았습니다. 다른 디스크에서 문제를보고하지 않는 것이 문제가되었습니다.

어느 정도의 재배치 또는 총 재배치 횟수에서 드라이브의 상태가 걱정되기 시작해야합니까? 드라이브 용량에 따라 다를 수 있습니까?

17
Jeremy

대부분의 구성 요소와 마찬가지로 드라이브에는 욕조 곡선 고장률이 있습니다. 그들은 처음에 많이 실패하고 중간에 상대적으로 낮은 실패율을 보인 다음 수명이 다할 때 많이 실패합니다.

전체 드라이브가이 곡선을 따르는 것처럼 디스크의 특정 영역도이 곡선을 따릅니다. 드라이브 사용을 시작할 때 많은 섹터 재 할당을 볼 수 있지만 이것은 점점 줄어들 것입니다. 수명이 다한 드라이브에 오류가 발생하면 점점 더 많은 섹터가 손실되기 시작합니다.

6 (드라이브에 따라 다름-제조업체에 문의)에 대해 걱정할 필요는 없지만 각각의 새로운 재 할당 빈도를보고 확인해야합니다. 열화가 가속화되거나 동일하게 유지되면 걱정하십시오. 그렇지 않으면 초기 침입 기간이 지나도 괜찮습니다.

-아담

13
Adam Davis

" 대용량 디스크 드라이브 인구의 실패 추세 "라는 주제에 대한 Google의 논문을 다시 읽으면 Adam의 대답이 틀렸다고 안전하게 말할 수 있다고 생각합니다. 매우 방대한 드라이브 수를 분석 한 결과 약 9 %가 재 할당 횟수가 0이 아닌 것으로 나타났습니다. 말하는 인용문은 다음과 같습니다.

첫 번째 재 할당 후 드라이브는 재 ​​할당 횟수가없는 드라이브보다 60 일 이내에 실패 할 가능성이 14 배 이상 높으므로이 매개 변수에 대한 중요 임계 값도 하나가됩니다.

실제 요청 된 IO 작업 동안이 아니라 드라이브의 백그라운드 스크러빙 중에 발견 된 재 할당 인 "오프라인 재 할당"을 처리 할 때 훨씬 더 흥미 롭습니다. 그들의 결론 :

첫 번째 오프라인 재 할당 후 드라이브는 오프라인 재 할당이없는 드라이브보다 60 일 이내에 실패 할 가능성이 21 배 이상 높습니다. 총 재 할당보다 더 과감한 효과입니다.

지금부터 내 정책은 재 할당 횟수가 0이 아닌 드라이브를 교체하도록 예약하는 것입니다.

20
Insyte

드라이브마다 매개 변수가 다를 수 있습니다. 내가 마지막으로 확인한 한 공급 업체의 1TB 엔터프라이즈 시리즈 디스크 인 드라이브에는 재 할당을 위해 예약 된 섹터가 2048 개있었습니다.

0이 아닌 수의 재 할당 된 섹터가있는 드라이브에 대한 S.M.A.R.T. 보고서를보고 예약 된 섹터 수를 추정 할 수 있습니다. 아래의 실패한 드라이브에 대한 보고서를 고려하십시오.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

여기에서 예약 된 용량의 95 % (1955 섹터)가 사용되었습니다. 따라서 초기 용량은 약 2057입니다. 실제로 2048입니다. 차이는 반올림 오류 때문입니다.

S.M.A.R.T.는 재 할당 된 섹터 수가 특정 임계 값에 도달하면 드라이브를 실패 상태로 전환합니다. 해당 드라이브의 경우이 임계 값은 예약 된 용량의 64 %로 설정됩니다. 이는 대략 1310입니다. 다시 매핑 된 섹터.

그러나 예약 섹터는 연속적인 범위에 있지 않습니다. 대신 여러 그룹으로 분할되고 각 그룹은 디스크의 특정 부분에서 섹터를 다시 매핑하는 데 사용됩니다. 이것은 데이터를 디스크의 영역에 로컬로 유지하기 위해 수행됩니다.

지역성의 단점은 디스크에 예약 된 섹터가 많을 수 있다는 것입니다. 그러나 한 영역은 이미 예약 된 용량이 부족할 수 있습니다. 이 경우 동작은 펌웨어에 따라 다릅니다. 한 드라이브에서 더 이상 보호되지 않는 부품에서 오류가 발생하면 FAILED 상태가되고 차단되는 것을 관찰했습니다.

3
Dmitri Chubarov

드라이브가 지원하는 경우 S.M.A.R.T. 긴 자체 테스트를 실행할 수 있습니다. 이렇게하면 드라이브 상태에 대한 자세한 정보를 얻을 수 있습니다. NAS에서이 작업을 수행 할 수없고 몇 시간 동안 드라이브를 꺼내거나 NAS의 전원을 끌 수 있다면 하드 디스크로 긴 자체 테스트를 수행 할 수 있습니다. 다른 컴퓨터에 연결했습니다.

2
Eddie

이 새로운 드라이브가 이와 같이 작동하면 전혀 신뢰할 수 없습니다!

가능한 한 빨리 반송하고 교체 드라이브를 받으십시오.

제조업체마다 "허용 가능한 손실"수치가 다릅니다 (모니터 및 불량 픽셀과 동일한 아이디어). 드라이브 제조업체에 문의하여 표준이 무엇인지 확인하십시오.

그래도 나쁜 추세처럼 보입니다 ...

1
Brian Knoblauch