it-swarm-ko.tech

ECC 램이란 무엇이며 왜 더 낫습니까?

서버에서의 ECC 램 사용에 대한 토론을 보았습니다. 왜 더 낫습니까?

31
Toby Allen

ECC RAM 패리티 비트를 활용하여 비트의 작은 오류를 복구 할 수 있습니다. 서버는 가동 시간과 안정성이 중요한 공유 리소스이므로 ECC RAM ECC RAM는 CAD/CAM 워크 스테이션에서도 사용됩니다.) 작은 비트 오류로 인해 계산 실수가 발생하여 설계가 제조 과정에서 더 큰 문제가 될 수 있습니다.

28
Waldo

우수한 실제 연구 :

야생에서의 DRAM 오류 : 대규모 현장 연구 (pdf)

이 백서는 현장에서 DRAM 메모리 오류에 대한 최초의 대규모 연구를 제공합니다. 이 데이터는 2 년이 넘는 기간 동안 Google 서버에서 수집 된 데이터를 기반으로 수백만 일의 DIMM을 구성합니다. 본 연구에서 DRAM은 여러 공급 업체, DRAM 밀도 및 기술 (DDR1, DDR2 및 FBDIMM)을 포괄합니다.

이 백서는 다음과 같은 질문을 다룹니다. 실제로 메모리 오류는 어떻게 발생합니까? 통계적 속성은 무엇입니까? 온도 및 시스템 활용도와 같은 외부 요인에 의해 어떻게 영향을 받습니까? 그리고 칩 밀도, 메모리 기술 및 DIMM 수명과 같은 칩 특정 요소에 따라 어떻게 달라 집니까?

많은 측면에서이 분야의 DRAM 오류는 일반적으로 가정되는 것과 매우 다르게 작동합니다. 예를 들어, FIT 속도 (10 억 장치 시간당 시간 실패)가 Mbit 당 25,000 ~ 70,000이고 매년 8 % 이상의 DIMM이 영향을받는 이전에보고 된 것보다 훨씬 높은 DRAM 오류율을 관찰합니다. 우리는 메모리 오류가 대부분의 이전 작업에서 중점을 둔 소프트 오류가 아니라 하드 오류에 의해 지배된다는 강력한 증거를 제공합니다. 해당 분야에서 DIMM의 오류 동작에 영향을 미치는 모든 요소 중에서 온도는 놀라 울 정도로 작은 영향을 미칩니다. 마지막으로, 일반적으로 두려워하는 것과 달리, 최신 DIMM DIMM에서는 DIMM 당 오류율이 증가한다는 징후는 관찰되지 않습니다.

대부분의 메모리 오류가 어렵다는 점에 관심이 있습니다. 하드 메모리 오류는 복구 할 수 없습니다. 즉, 메모리를 실제로 실패로 교체_해야한다는 의미입니다. 반면에 소프트 메모리 오류는 메모리를 올바른 값으로 덮어 써서 수정할 수 있습니다. 이것은 ECC의 가치가 상당히 제한되어 있음을 나타냅니다.

메모리 시스템에서 일반적으로 발생할 수있는 두 가지 종류의 오류가 있습니다. 첫 번째는 반복 가능 또는 하드 오류라고합니다. 이 상황에서는 하드웨어가 고장 나서 일관되게 잘못된 결과를 반환합니다. 예를 들어 비트에 기록 된 내용에 관계없이 비트는 "0"을 반환하도록 고정 될 수 있습니다. 하드 오류는 일반적으로 메모리 모듈이 느슨하거나 칩이 끊어 졌거나 마더 보드 결함 또는 기타 물리적 문제가 있음을 나타냅니다. 일관성 있고 반복 가능하기 때문에 진단 및 수정이 비교적 쉽습니다.

연구의 모든 서버가 ECC를 사용하는 것처럼 들리므로 ECC와 비 ECC 오류율을 알 수 없습니다.

이 백서는 대량의 상용 서버에서 DRAM 오류의 발생률과 특성을 연구했습니다. 우리의 연구는 2 년 이상 수집 된 데이터를 기반으로하며 여러 공급 업체의 DIMM, 세대, 기술 및 용량을 다룹니다. 모든 DIMM에는 최소 단일 비트 오류를 ​​수정하기 위해 ECC (오류 수정 논리)가 장착되어 있습니다.

29
Jeff Atwood

ECC는 패리티에 비해 몇 가지 장점이 있습니다. 우선, 단일 비트 오류를 ​​감지하고 복구 할 수 있으며 전체 시스템을 중지하지 않아도됩니다. 다중 비트 오류는 여전히 패리티 오류를 반환하지만 메모리 자체에 결함이없는 한 PC 수명 동안 천문학적으로 발생할 가능성이 낮습니다. ECC는 자동차 보험과 같습니다. 잘못 될 수있는 대부분의 것들에 대해 보험 혜택을 제공하지만, 멀티 카 누적을 막을 수는 없습니다.

자세한 내용은 다음과 같습니다. ECC 메모리 : 데스크탑 PC가 아닌 서버의 경우 필수

9
TStamper

Wikipedia 에서 인용하는 것을 간단하게 만들기 위해 :

컴퓨터 시스템 내부의 전기적 또는 자기 적 간섭으로 인해 단일 비트의 DRAM이 자발적으로 반대 상태로 전환 될 수 있습니다. 처음에는 이것이 칩 패키징 재료에서 오염 물질에 의해 방출 된 알파 입자 때문인 것으로 생각되었지만, 연구 [5]에 따르면 DRAM 칩에서 대부분의 일회성 ( "소프트") 오류는 배경 방사선의 결과로 발생합니다
...
이 문제는 추가 메모리 비트가 포함 된 DRAM 모듈과 이러한 비트를 이용하는 메모리 컨트롤러를 사용하여 완화 할 수 있습니다. 이러한 추가 비트는 패리티를 기록하거나 오류 수정 코드를 사용하는 데 사용됩니다.

5
Chealion