it-swarm-ko.tech

모든 것이 터질 때 당신의 점검표는 무엇입니까?

사용자는 이메일을받을 수없고, CEO는 회사의 홈페이지를 방문 할 수 없으며, 호출기는 "911"코드를 사용하여 시작했습니다. 모든 것이 터지면 어떻게합니까?

40
Jon Galloway

첫 번째 대답은 침착하십시오! 나는 당황하는 어려운 길로 인해 종종 상황이 악화된다는 것을 알게되었습니다. 그것이 달성되면 다음 것은 실제로 문제가 무엇인지 확인하는 것입니다. 사용자와 관리자의 불만은 모든 각도에서 당신에게 올 것입니다.

문제를 알고 나면 문제를 해결하기 위해 계획을 시작하고 화난 사용자에게 시간 규모를 줄 수 있습니다!

35
Sam Cogan

숙박

놀라지 마십시오. 숨 쉬세요! (다이어프램에서 도움이됩니다.) 명상을 연구했다면 도움이 될 수도 있습니다.

극심한 스트레스에 시달리면 신체는 생명 또는 사망 상황에 있다고 생각하기 때문에 비행 또는 전투 모드로 전환됩니다. 이때 신체는 실제로 뇌의 일부 부분에 혈액을 덜 흘리며 추론과 같은 기능을 줄입니다. 이것은 합리성 대신 본능이 뇌 기능을 지배하기 시작함에 따라 귀하의 IQ를 효과적으로 낮 춥니 다. 당신이 열띤 논쟁에 빠져 있거나 목격 한 적이 있다면 사람들의 감정이 타 오르고 합리성이 휴가를 가짐에 따라 이러한 증상을 인식 할 수 있습니다. 나중에 사람들이 식을 기회가있을 때, 실수를했거나 잘못한 것을 받아 들일 가능성이 높고 반대편을 더 잘 볼 수는 있지만 순간적인 열기에는 더 적습니다.

당신의 평정을 유지하고 당신에 대한 지혜를 유지하는 것은 뇌의 기능을 최대로 유지하고 감정과 두려움보다는 증거와 이성을 근거로 합리적인 결정을 내릴 수있게합니다.

손상

최저 비용으로 최대의 이익을 달성하기 위해 제한된 자원을 효율적으로 적용하는 것이 여기에서 가장 중요합니다. 지금 당장 고쳐야 할 사항, 가능한 한 빨리 (몇 시간, 며칠), 무기한으로 기다릴 수있는 결정을 내리십시오. 또한 무언가를 구할 수없고 저장할 가치가없는 경우를 인식하는 법을 배웁니다 (예 : 라우터가 절반 만 녹아도 유일무이 한 경우라도 저장할 수 없으며 새 것을 구입하여 사후 게시하거나 사이트에 게시 할 수 있음) 간격을 일시적으로 채 웁니다).

상황 인식 유지

흥미로운 문제 나 아직 이해하지 못하는 문제에주의를 집중시키지 마십시오. 큰 그림과 가장 중요한 일을하는 데 계속 집중하십시오.

과학적 방법 사용

가설을 세우십시오. 이 가설을 어떻게 테스트 할 것인지 결정하십시오. 가설을 검정하기 위해 데이터를 수집하십시오. 확인 데이터도 확인하십시오. 가설을 세분화하고 필요한만큼 가설을 세울 때까지 반복하여 가설을 세분화하십시오.

실용적이 되십시오

지금은 교리의 시간이 아닙니다. 재해로부터 복구 할 때 여기 저기 몇 가지 단축키를 사용하는 것이 좋습니다. 이것은 본질적으로 기술 부채를 발생시키는 것입니다. 많은 회사에서 치명적인 실패는 치명적인 수익 손실을 의미합니다. 흔들리는 자세를 취하고도 회사의 생계를 위험에 빠뜨리는 것보다 흔들리는 일을하는 것이 좋습니다. 항상 그렇듯이 여기에서 판단은 매우 중요합니다. 때로는 서버 랙을 겨냥한 박스 팬을 올리는 것이 합리적이지만 때로는 그렇지 않습니다.

자신을 보라

이 비상 사태에 얼마나 오래 일했습니까? 마지막으로 물을 마신 시간은 언제입니까? 마지막으로 식사 한 시간은 언제입니까? 얼마나 깨어 있었습니까? 긴급 상황이 발생하여 화상을 입지 말고 수분을 공급하고 휴식을 취하십시오 (길고 며칠이 걸리는 경우).

채용 도움말

귀사에 동기를 부여하고 도움을 줄 수있는 재능있는 사람들이 거의 있습니다. 너무 많은 사람들이 뛰어 다니면서 서로에게 문제를 일으키는 것을 조심하십시오. 또한 사람들을 "파이어 드릴"을 통해 짜증나게하는 것에주의하십시오. 이미 도움을주고 싶은 사람을 찾아 목표 업무를 수행하고 사람들이 서로 의사 소통하고 있는지 확인하십시오.

의사 소통

의사 소통이 중요합니다. 미지의 것만 큼 무서운 것은 없습니다. 사람들이 무언가가 깨지는 것 외에 다른 것을 알지 못하면 X 시간 내에 백업 될 것이라는 빈 진술은 약간만 안심합니다 (X 시간이 지나도 여전히 안심하지 못하는 경우). 경기 중 압력은 지나치게 낙관적 인 WAG 시간 견적을 제공하는 데 도움이 될 수 있지만 이것은 잘못된 과정입니다. 작업 중이라고 말하지 말고 X 시간으로 문제가 해결된다고 말하지 마십시오. 열린 상태로 프로세스를 보여주고 진행 상황과 좌절을 자세히 설명하십시오. 문제, 추적 과정 및 문제 해결 계획에 대한 통찰력을 제공하십시오 (사소한 사람들을 익사 시키지는 않음). 문제를 다루기 힘들지 않다는 것을 보여주십시오. 일이 올바르게 이루어질 것임을 보여주십시오.

59
Wedge

당황하지 마십시오.

24
Jauder Ho

0 단계. 결함이있는 모니터링 시스템이 아닌지 확인

22
Dave Cheney

serverfault에 로그인

12
Phil Nash

비 탐험 국가로 항공편을 즉시 예약하십시오.

11
Glenn Slaven

기본 사항을 먼저 확인하십시오. 어리석은 것처럼 보이지만

  1. 서버 설비의 전원이 켜져 있습니까? (외부에서 호스팅하는 경우)
  2. 호스팅 제공 업체가 다운 되었습니까?

문제가 업스트림 일 때 해결책을 찾는 데 많은 시간을 낭비 할 수 있음을 알고 있습니다.

8
Glenn Slaven

죄송하지만이 질문은 Favorite sysadmin cartoon 에서 이미 완벽하게 답변되었습니다.

Disaster recovery plan of Dilbert

6
Rene Saarsoo

나는 물건을 핑. 그 후 발생하는 일은 핑 결과에 따라 크게 다릅니다.

6
Dylan Beattie

네트워크를 비난하십시오.

(그것은 농담!)

4
Guy

RTFLF-Frakkin '로그 파일 읽기

(나는 이것에 대한 신용을 취할 수 없다, 그것은 모두 Scott Hanselman 에 간다)

3
Dillie-O

아직 아무것도 고치려고하지 마십시오.

실제적이고 근본적인 문제가 무엇인지 정확히 알고 있어야합니다. 이제 물건을 고치기 시작합니다. 해결해야 할 사항이 여러 개인 경우 지연 될 수있는 항목 (적어도 다음 근무일까지)을 신중하게 고려하고 지금 반드시 수정해야하는 항목을 고려하십시오.

그러나 가장 중요한 것은 : 모든 것이 작동하면 왜 "모든 것이 터져 버렸는지"물어보십시오. 이 문제가 다시 발생하지 않도록하려면 어떻게 하시겠습니까? does 다시 발생하면 솔루션을 더 쉽게 만드는 단계가 있습니까?

2
Stewart

사람들에게 당신이 그 일을하고 있음을 알리고 가능하면 상황이 언제 정상으로 돌아올 것인지에 대한 견적을 제공하십시오.

실제 문제 해결은 분명히 무엇이 잘못되었는지에 달려 있습니다. 나는 보통 다양한 서비스에 대한 "상태 확인"스크립트 모음을 유지합니다.

1
Brian Rasmussen

케이블을 확인하십시오! 간단한 Eth0 케이블 교체로 문제가 해결되었을 때 다른 것들을 확인하는 데 시간을 잃었습니다 ...

1
0
Artur Carvalho

성명서에서 특정 조치 세트를 제공하는 것은 어렵습니다. 첫 번째 움직임은 다음을 기반으로합니다.

  • 당신이있는 곳
  • 연락 한 사람에게서 정보를 얻을 수있는 양
  • 문제 해결 (또는 정보 추구)을위한 즉각적인 도구
  • 네트워크의 물리적 및 논리적 경로에 대한 지식
  • 당신이 얼마나 많은 도움을 (팀의 일부? 아니면 외로운 닌자?)

분명히, 당신은 침착하고 당면한 문제에 대해주의를 기울여야합니다. 네트워크 문제 해결 경험을 통해 다음과 같은 문제가 발생할 수 있음을 알게되었습니다.

  • 분리 된 케이블
  • 발표되지 않은 유지 보수 (다른 기술 '고정'사항)
  • 치즈 피자를 전자 레인지로 타서 랩탑 무선 연결이 끊어진 후 CEO가 회사를 완전히 파멸시키는 것에 대해 지나치게 반응하는 CEO.

다음과 같은 범주에서 심각한 문제가 될 수 있습니다.

  • 물리적 운송 (연결)
  • 하드웨어 (라우터\스위치\서버)
  • 저장 용량 (액세스 할 수 없거나 손상되었거나 삭제됨)
  • 소프트웨어 (서비스> 잘못 구성된\공격 된\오프라인)

핵심 구성 요소는이 문제에 대해 얼마나 알고 있는지입니다. 당신의 기준은 무엇입니까? ( '시스템 다운'이란 어떤 관점에서?).

0
l0c0b0x

비상 계획이 있어야합니다.

필수 시스템은 자동 장애 조치 또는 문서화되고 테스트 된 복구 계획으로 설계해야합니다.

시스템이 중요할수록 더 많은 복원력이 필요하고 더 자동이어야합니다.

당신이 하나도 없다면, 그것은 중요하지 않았습니다.

0
Guy

단순하게 시작하고 터무니없는쪽으로 일하십시오.

힘?

이더넷?

프로그램이 실행 중입니까?

...

외계인?

0
Robert

DNS를 확인하십시오.

0
Cawflands

이력서 백업이 안전한지 확인하십시오. :) 그런 다음

공통점을 찾으십시오. 영향을받는 모든 시스템에 공통적 인 사항.

변경된 내용을 찾으십시오. 조직에서 공식적인 변경 관리를 진행해야합니다.

새 사람은 어 ... 고 ... 보스는 어 ... 지? 그들 중 하나가 바로 가기를 했습니까? (그것은 단지 빠른 서버 재부팅 일뿐입니다.

0
BIBD