it-swarm-ko.tech

최고의 시스템 관리자 사고

당신이 겪은 시스템 관리자 사고에 대한 재미있는 이야기를 찾고 있습니다. CEO 이메일 삭제, 잘못된 하드 드라이브 포맷 등.

나는 내 이야기를 답으로 추가 할 것이다.

87
Alan H

Linux "killall"명령 (지정된 이름과 일치하는 모든 프로세스를 종료하고 좀비를 중지하는 데 유용함)과 solaris "killall"명령 (모든 프로세스를 종료하고 시스템을 중지 함)의 차이점을 발견하는 것이 재미있었습니다. 피크 시간 중간에 모든 동료가 일주일 동안 당신을 비 웃게합니다).

133
Tim Howland

당시 Netscape의 제품인 회사 웹 프록시를 담당했습니다. 관리자 양식 (웹 기반 인터페이스)에서 놀고있는 동안 사용자 데이터베이스 삭제라고 표시된 큰 (그리고 맹세했습니다) 버튼이있었습니다. 문제 없습니다. 내가 그것을 칠 때 그것이주는 옵션이 무엇인지 보자. 옵션이 없으면 확인 메시지가 나타납니다.

예, 확인이 없습니다. 옵션이 없습니다. 더 이상 사용자가 없습니다.

그래서 솔라리스 Sysadmin에게 가서 테이프에서 복원해야 할 필요가 있다고 말했습니다. "그 상자를 백업하지 않습니다."

"어, 다시 오세요"나는 반박했다.

"저는이 박스를 백업하지 않습니다. 백업 회전에 추가 할 항목 목록에 있지만 아직 그 위치를 찾지 못했습니다."

"이 서버는 거의 8 개월 동안 생산되었습니다!" 나는 비명을 질렀다.

shrug , 그는 대답했다. "죄송합니다."

73
squillman

몇 년 전 제가 근무했던 회사는 NT 4.0 서버를 Jaz drive (고용량 Zip 디스크와 같은)에 야간 백업하는 클라이언트를 가지고있었습니다.

밤새 예약 된 작업으로 실행되는 배치 파일을 설정했습니다. 매일 아침 그들은 드라이브에서 지난 밤 디스크를 수집하고 저녁에 떠나기 전에 다음 디스크를 순서대로 삽입합니다.

어쨌든 배치 파일은 다음과 같습니다 (Jaz 드라이브는 F : 드라이브였습니다) ...

@echo off
F:
deltree /y *.*
xcopy <important files> F:

어쨌든 그들은 어느 날 밤 디스크를 넣는 것을 잊었습니다. 드라이브 F :에 대한 변경이 실패했습니다 (드라이브에 디스크가 없음). 배치 파일이 계속 실행되었습니다. 배치 파일의 기본 작업 디렉토리? 씨:. 처음으로 백업 루틴 이 파괴 된 서버를 파괴하는 것을 보았습니다 .

그날 시스템 관리 (및 예외 처리)에 대해 조금 배웠습니다.

짐.

추신 : 수정? "deltree/y F :\*. *".

66
Jim OHalloran

root @ dbhost # 찾기/-name core -exec rm -f {} \;

나 : "들어올 수 없니? OK. DB 이름이 뭐야?"

Cu : "핵심"

나 : "아."

61
Dave

나는 모든 사람들이 "내가 젊었을 때"로 다시 이야기하지 않는 것처럼 자신의 이야기를 평가하는 방식을 좋아합니다. 가장 노련한 전문가조차도 사고가 발생할 수 있습니다.

내 자신의 최악의 순간이 너무 나빠서 여전히 생각하고 두근 두근합니다.

프로덕션 데이터가있는 SAN. 회사에 중요합니다.) "멘토"는 디스크 공간을 확보하기 위해 파티션을 확장하기로 결정했습니다. SAN 소프트웨어는 생산 시간 내에이 작업을 수행 할 수 있으며 아무도 눈치 채지 못할 것입니다. 알람 벨이 울리기 시작했지만 눈에 띄게 조용했습니다. 전에도 문제가 없었습니다. 그러나 여기에 문제가 있습니다. 그는 "확실합니까?"라는 버튼을 클릭하게했습니다. 회사에 처음 왔을 때이 사람이 자신이 무슨 말을하는지 알고 있다고 가정했습니다. 큰 실수입니다. 좋은 소식은 LUN이 확장되었다는 것입니다. 나쁜 소식은 ... 잘 알았습니다 .Windows 상자에서 디스크 쓰기 오류가 발생했을 때 나쁜 소식이 있다는 것을 알았습니다.

갈색 바지를 입고 다행입니다.

점심 시간에 1TB의 데이터가 사라진 이유를 설명해야했습니다. 정말 정말 나쁜 날이었습니다.

실제로 좋은 원칙입니다. 의심스러운 일을하기 전에 문제가 발생했을 때 경영진에게 설명해야한다고 상상해보십시오. 자신의 행동을 설명하는 좋은 대답을 생각할 수 없다면 그렇게하지 마십시오.

60
PowerApp101

Nagios는 하루 아침 업무 시간이 중요하지 않은 서버에 연결할 수 없다고 말하기 시작했습니다. 좋아, 서버 룸으로 하이킹. 이 서버는 '02 년에 구입 한 Dell 1650 인 오래된 서버이며 1650에 하드웨어 문제가 있음을 알고있었습니다. PFY는 전원 버튼을 찌릅니다. 아무것도. DRAC 없이는 섀시 전원을 켤 필요없이 BMC 로그를 검사 할 수있는 방법이 없으므로 BMC의 오류 보호를 무시하는 '전원을 켜십시오'라는 메시지를 다시 5 초 동안 누르십시오.

기계가 POST를 시작한 다음 다시 죽습니다. 나는 그 위에 서서 "연기 냄새가납니다." 우리는 레일에서 서버를 꺼내고 전원 공급 장치 중 하나가 따뜻하게 느껴지므로 PFY가 서버를 당겨 상자를 닫습니다. "아니요. 전원 공급 장치 연기가 아니라 마더 보드 연기입니다."

케이스를 다시 열고 타는 냄새의 원인을 찾으십시오. 인덕터 코일과 커패시터가 마더 보드의 전압 조정기에서 끊어졌으며 용융 구리 및 커패시터 go이 모든 것을 가로 질러 분사되어 많은 물건을 줄이며 기본적으로 큰 혼란을 초래합니다.

나에게 최악의 부분은 내가 탄 마더 보드의 냄새와 탄 전원 공급 장치의 차이를 인식하기에 충분한 하드웨어를 피 웠음을 인식하고 있었다.

54
Karl Katzke

3 일 전에 (심하게) Windows Server 2008 파일 서버에 서비스 팩 2를 설치하여 학교 서버에 원격으로 로그인했습니다.

교사가 연말 보고서 카드 작성에 로그온하지 않은 늦은 밤에 필요한 재부팅을 예약하기로 결정했습니다. 나는 다음과 같은 것을 입력했다 :

 23:59 "종료 -r -t 0" 

... 잘 작동했을 것입니다.

그러나 나는 나 자신을 추측했다. '종료'구문이 정확합니까? 입력하여 사용 도움말을 보려고했습니다.

 종료/h 

RDP 연결이 즉시 끊어졌습니다. 당황, 나는 구문에 대해 구글을 공격했다. 빠른 검색 결과 Server 2008 버전의 시스템 종료에는/h 스위치가 포함되어 있는데,이 스위치는 컴퓨터를 최대 절전 모드로 전환합니다.

선생님들은 몇 분 안에 전화를 걸어서 더 이상 작업하고 있던 성적표를 열거 나 저장할 수 없다고보고했습니다. 외부에 있었고 서버 룸이 잠겨 있었기 때문에 교장에게 직접 전화하여 기계 전원을 다시 켜는 과정을 안내해야했습니다.

오늘 저는 사과 형태로 모든 사람에게 수제 쿠키를 가져 왔습니다.

47
Brent D

이전에는 회사 내에서 들어 오거나 떠났거나 남아있는 모든 메일을 기록하고 보관하는 훌륭한 자체 시스템이있었습니다.

사서함 전체를 날려 버렸습니까? 문제 없어요! 누군가 일주일/월/년 전에 보낸 메일을 찾고 있지만 누가 메일을 보냈는지 또는 제목이 무엇인지 기억할 수 없습니까? 문제 없어요! 2 월부터 특별 폴더까지 모든 것을 다시 제공합니다.

어느 시점에서 회사의 CEO는 경쟁 업체와 내부 영업 사원 사이에서 전송되는 메일을 모니터링하여 의심의 대상이되었습니다. 그래서 우리는 매일 밤 실행하는 것보다 스크립트를 설정하고 전날부터 CEO에게 관련 메일을 전달했습니다. 문제 없어요!

약 한 달 후, 이중 플러스 긴급 문제에 관한 단어가 계속 높아졌습니다. CEO가 $ OTHERCOMPANY (으)로 보낸 메일 목록을 읽으면서 다음 중 하나를 발견 한 것 같습니다.

To: [email protected]$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)

당연히 CEO는 중요한 사람이며 모두 Outlook에서 "Send Read Receipt"대화 상자를 클릭하기에 너무 바빠서 클라이언트가 모든 것을 보내도록 구성했습니다. 모니터링 필터에 의해 포착 된 메시지 중 하나에 읽기 요청 요청이 있습니다. Outlook이 무엇을했는지 알아? 확실히 '밀폐'모니터링을 강화했습니다.

다음 작업 : 메일 필터에 규칙을 추가하여 CEO로부터 해당 회사로 나가는 읽음 확인을 차단합니다. 예, 가장 쉬운 방법이었습니다. :)

37
MikeyB

아, 내 발은 여전히 ​​젖어 있었을 때 약 10 년 전이었습니다. 나는 모든 프로그래머 컴퓨터에 배터리 백업을 설치하는 기쁨을 가졌습니다. 또한 정전을 경고하고 올바르게 종료하기 위해 소프트웨어를로드하기를 원했습니다.

그래서 컴퓨터에서 모든 것을 먼저 테스트하고 모든 것이 제대로 작동하는지 확인했습니다. 전원 코드를 뽑으면 화면에 메시지가 나타납니다. "외부 전원 손실, 시스템 종료 시작".

그래서 나는 생각했습니다. 그러나 이상한 이유는 기억하지 않습니다.이 메시지를 네트워크 메시지로 보냈으므로 회사의 200 개 이상의 컴퓨터가 모두 100 명 이상의 사용자가 프로그래머가있는 메시지를 받았습니다.

예, 대량 괴물에 대해 이야기하십시오!

나는 잠시 동안 그 장소에서 내 머리를 낮게 유지했다!

36
jherlitz

종종 Solaris 시스템에서 "sys-unconfig"명령을 사용하여 시스템 이름 서비스 I.P를 재설정합니다. 주소 및 루트 비밀번호. 나는 사용자 시스템에 있었고 건물 설치 서버에 로그인하고 루트로 무언가를 찾은 다음 다른 시스템 (비 설명 적 "#"프롬프트)에 로그인 한 것을 잊고 "sys-unconfig"명령을 실행했습니다.

# sys-unconfig     
        WARNING

This program will unconfigure your system.  It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.

This program will also halt the system.

Do you want to continue (y/n) ? y

Connection closed

#

"connection closed"메시지가 천천히 패닉 상태로 바뀌 었습니다. 명령을 실행할 때 어떤 머신에 로그인했는지.

이것의 최악의 부분은 동료들이 나에게 힘든 시간이 아니었기 때문에 한 달 후에 같은 일을했다는 것입니다.

35
Alan H

꽤 좋은 것이 있습니다. 분명히, 그것은 sysadmin으로서 나의 시간 이전이었다. 그러나 아직도 기술과 관련이 있기 때문에 나는 그것을 추가 할 것이라고 생각했다.

당시에는 USAF의 위성 통신/광대역 기술로 일하고있었습니다. 최근에 기술 학교를 졸업 한 후, 나는 한국에 주둔하고 있음을 알았습니다. 정거장에 도착하자마자 한동안 그곳에 있었던 "큰 녀석들"과 함께 남쪽으로 내려가 실제로 실제 장비 (예 : '생산') 장비로 작업 할 수있는 기회가 생겼습니다.

나는 승무원과 함께 내려가 열망하는 젊은 기술자로서 약간의 충격을 받았으며 실제 군용 음성 및 데이터 트래픽을 전달하는 실제 장비에 손을 댈 것이라는 기대에 매우 흥분했습니다.

저를 천천히 시작하기 위해, 그들은 저에게 매뉴얼을 건네고, 예방 유지 보수 섹션으로 돌아가서 몇 개의 큰 디지털 멀티플렉서로 채워진 4 개의 랙 방향을 알려주었습니다. 장비는 충분히 쉬웠습니다. 우리는 기술 학교에서 같은 장비를 다루었습니다.

매뉴얼 읽기의 첫 페이지; "Ditigal 멀티플렉서에 전원을 공급하십시오. 양쪽 후면 스위치를 모두 ON 위치로 돌리고 장비의 전원이 켜질 때까지 기다린 다음 테스트를 시작하십시오." 나는 올려다 보았고 이미 전원이 공급되었습니다!

나는 당황했다. 어떻게 진행해야할지 몰라 나는 최선을 다했다. 으음.

그는 나를 쳐다 보며 웃었다. "아니요, 괜찮습니다. 점검표의 해당 부분을 무시해도됩니다." 그런 다음 그는 내 얼굴을 보았을 때 (학교에서 가르치지 않았으므로 체크리스트의 어느 부분도 무시하지 않았으므로 그렇게하면 특정 사망과 파괴가 발생했습니다) 그는 그의 얼굴을 진지하게 보았습니다. "그 부분 만 무시하고 나머지 부분은 편지에 따라!"

당연히, 나는 다단계 PM 지침)을 밟았으며, 조개처럼 행복하고 그들이 (낮지 만 똑똑한) 기술이이 중요한 일을하도록했다고 자랑스럽게 생각합니다.

이 거대한 멀티플렉서에 대한 5 번째와 6 번째 예방 유지 보수 점검표 사이에서 나는 주변의 활동 수준이 높아지는 것을 알아 차렸다. 전화가 울리고 사람들이 빠르게 움직였습니다. 눈부신 표정이 바뀌 었습니다.

마침내 한 무리의 사람들이 저를 향해 달려갔습니다.

"이봐! 우리는 데이터 트래픽이 급격히 중단되는 것을보고 있으며 현재 작업중인 랙으로 돌아가는 경로를 격리/추적했습니다. 이상한 점이 있습니까?"

(그 시점에서 그는 PM을 수행 한 첫 번째 멀티플렉서 그룹으로 향한 다른 문제 해결사 중 한 사람에 의해 차단되었습니다.)

"거룩하다! 꺼 졌어! 꺼 졌어 !!!"

짧은 순서로, 그들은 서둘러 매뉴얼의 첫 번째 단계 인 "두 후면 스위치를 모두 ON 위치로 돌리십시오 ..."를 보았습니다. 선임 기술이 완료되었을 때, 그는 저에게 와서 내가 생각한 것을 물었습니다. 중요한 장비를 끄면.

내 지혜를 무서워, 나는 그에게 내가 따르고있는 점검표를 건네 주었고, 나는 전혀 벗어나지 않았다고 맹세했다. 그가 지시 한대로 '서한까지'따라 갔다.

잠시 후 그는 웃으면 서 문제가있는 곳을 지적했다.

매뉴얼에서 예방 유지 보수 점검 목록의 최종 단계는 다음과 같습니다.

"최종 프로브 판독 값을 기록하고, 전면 패널을 닦아내고 먼지와 미립자를 모두 제거한 다음 후면 전원 스위치를 모두 OFF 위치로 돌리십시오."

:)

27
Greg Meehan

누군가를 위해 시스템을 다시로드하고 수동 백업 프로세스 중에 "사용중인 다른 프로그램이 있습니까?"라는 질문을했습니다. "컴퓨터에 다른 중요한 일이 있습니까?"

그는 몇 번“아니오”라고 말했다.

나는 드라이브를 확신하고 포맷했다.

약 30 분 후 그는 "오 나의 신"이라고 말하고 양손을 머리에 댔다.

그가 10 년이 넘는 시간 동안 전문 프로그램에서 책을 쓰고있는 것으로 나타났습니다. 프로그램이 프로그램 파일 디렉토리에 사용자 데이터를 저장하는 데 사용되었을 때 다시 나타났습니다.

Ooooo 득.

그는 나에게 화를 내지 않았지만 냉정한 느낌이었습니다.

26
MathewC

그것은 일종의 sysadmin 사고입니다. sysadmins가 때때로 지점 A에서 지점 B까지 많은 수의 기계를 물리적으로 운반 해야하는 한 (A와 B는 항상 엘리베이터가없는 건물의 여러 계단으로 분리되어있는 것처럼 보입니다). 오늘의 n 번째 여행에서, 나는 지하실 적재 레벨에서 3 명의 비행을 멈추고 누군가와 내려가는 사람과 대화를 나누고, 열린 계단의 내부 손잡이에서 훔친 전체 크기의 타워 승/스테이션을 준비했습니다. 그리고 ... 글쎄, 당신은 ... 내 손을 약간 잃어버린 것 같아요. 우물 아래로 똑바로 뛰어 들었고 바닥에 닿았을 때 그 기능은 그다지 많지 않았습니다! 총 회수 가능한 부품 : 2 개의 RAM 스틱, 1 개의 플로피 드라이브 및 1 개의 ISDN 카드 (Hermstedt 엔지니어링 담당자에게 신의 축복을!) 다른 모든 것들은 금이 가거나, 덜걱 거렸거나, 작은 조각으로 부서졌습니다.

하나님의 은혜로 아무도 밑으로 걷지 않았습니다. 저에게 감사하게도 처음으로 상사가 되었기 때문에 제 직업을 유지해야했습니다. 한 시간 정도 매우 아 very습니다.

도덕 : 중력이 항상 이깁니다!

26
avstrallen

내가 개인적으로 좋아하는 것은 실제로 내 것이 아니며, 나는 그것을 매우 기쁘게 생각합니다. 여기를 살펴보십시오.

23
RainyRat

이것은 나에게 일어나지 않았지만…

클라이언트가 제공하는 Linux 컴퓨터에서 실행되는 소프트웨어를 만든 회사에서 일하고있었습니다. 우리는 본질적으로 기계를 '인계'하고 사양에 맞게 완전히 구성하며 모든 관리 및 모니터링을 수행합니다. 기본적으로 우리는 수백 명의 고객을 위해 수천 대의 서버를 관리하는 10-15 명의 시스템 관리자로 구성된 팀이었습니다. 실수가 일어날 수밖에 없었다.

우리 팀 중 하나가 서버에서 몇 가지 문제 (백업, 나는 믿습니다)를 발견하고 서버에서 fsck를 실행하기로 결정했습니다. 그는 모든 관련 서비스를 중지하고 시스템에 최근에 백업을 수행했는지 확인한 다음 fsck를 실행했지만 파일 시스템이 마운트되었다고 불평했습니다. 우리는 원격에 있었고 원격 액세스 (DRAC, ILO 등)가 없었기 때문에 fsck를 수행 할 수 없었지만 조심하면 파일 시스템이 마운트 된 상태에서 안전하게 수행 할 수 있다고 확신했습니다.

그는 루트 파티션에서 fsck를 실행하여 예측 가능한 결과와 함께 직접 시도하기로 결정했습니다. 그는 루트 파티션을 손상시키고 더 이상 부팅 할 수 없었습니다.

혼란스러워서 우리 팀장과 대화를 나 talk습니다. 리드는 자신이 그렇게 할 수 없다고 확신했으며 팀원은 'Sure you can!'라고 말하고 리드의 키보드를 가져 가서 리드의 루트 파티션에서 fsck를 실행하여 할 수 있음을 보여주었습니다. HIS 루트 파티션이 완전히 손상되었습니다.

최종 결과? 팀원의 테스트 덕분에 고객 데이터가 손실되지 않았습니다. 직원의 생산성은 2 일 단축되었지만 고객 시스템의 데이터보다 훨씬 적은 가치가있었습니다. 그리고 기록을 위해? 마운트 된 드라이브에서 fsck를 실행할 수 있지만 데이터를 확인하기 위해서만 가능합니다. 수리하지 마십시오. 그것은 팀원의 실수였습니다.

-

내 이야기를 추가하기 위해 같은 회사에서 일하면서 사용자 비밀번호를 재설정하려고했습니다. Google 시스템은 이전 비밀번호 해시를 추적하고 비밀번호 복제를 거부했기 때문에 필요한 비밀번호로 설정을 거부했습니다. 메커니즘은 간단합니다. 데이터베이스에서 가장 최근의 해시와 비교하여 비밀번호의 유효성을 검사했습니다.

(그리고 기록을 위해, 그것은 공유 계정 이었으므로 모든 사람이 새 암호가 실용적이지 않다는 것을 알리기 위해 이전 암호 여야했습니다)

방금 사용자 데이터베이스로 이동하여 새 레코드를 삭제하여 이전 레코드를 사용하기로 결정했습니다. 그것은 모두 SQL (고대 버전의 Sybase를 실행)이므로 간단합니다. 먼저, 나는 기록을 찾아야했다.

SELECT * FROM users_passwords WHERE username='someuser';

나는 그가 지키고 싶은 오래된 기록을 찾았다. 그 앞에 두 개가 더있었습니다. 나는 영리하고 오래된 레코드보다 새로운 것을 삭제하기로 결정했습니다. 결과 집합을 보면 이전 암호가 데이터베이스에서 ID # 28이고 새 암호가 ID # 수천 (매우 사용량이 많은 시스템)임을 알 수있었습니다. 간단합니다. 모든 오래된 행은 28보다 컸습니다.

DELETE FROM users_passwords WHERE id > 28;

간단한 행 정리를 수행하고 '212,500 개의 행이 영향을받는 것'을 보는 것보다 나쁘지 않습니다. 다행히도 사용자 ID가있는 두 개의 마스터 데이터베이스 서버가 있었지만 Sybase (적어도 우리 버전)는 자동 복제를 지원하지 않으므로 이전 레코드를 자동으로 지우지 않았습니다. users_passwords 테이블의 덤프를 가져 와서 다시 가져 오는 것은 사소한 일이었습니다. 그래도 꽤 큰 'oh f ** k!' 순간.

23
Dan Udey

유형 kill 1 루트로. init와 그녀의 모든 아이들이 죽었습니다. 그리고 모든 자녀들. 등. 죄송합니다.

내가 입력하려는 것은 kill %1

내가 한 일을 깨달은 후 BIG 양모 베일 분류기의 제어판으로 달려가 비상 정지 버튼을 쳤다. 내가 방금 기계를 제어하는 ​​소프트웨어를 죽였 기 때문에 기계가 비트로 리핑하는 것을 막았습니다.

22
Jason Tan

고객의 라이브 후원자 데이터베이스에 WHERE 절이없는 DELETE 문.

22
Ian Boyd

내가 좋아하는 또 다른 것 :

컴퓨터와 컴퓨터에 로컬 레이저 프린터를 설치할 때 컴퓨터의 UPS에 모두 연결하는 것이 좋았습니다. 데스크탑 UPS에 연결되어있을 때 로컬 레이저 프린터로 인쇄하려고 시도한 적이 있습니까? 글쎄, 당신이 모른다면, 그것은 모든 앰프를 당기는 경향이 있습니다 ... 컴퓨터를 다시 시작하는 ... 그리고 인쇄 작업이 끝나지 않습니다 ...!

'인쇄 할 때마다 컴퓨터가 다시 시작되고 인쇄되지 않습니다 !!!'?

죄송합니다!

JFV

22
JFV

우리는 정전 도중에 UPS가 구성된로드의 112 %에서 실행되고 있음을 확인했습니다. 우리가 당시 발전기에서 실행했을 때 이것은 큰 문제가 아니 었습니다.

그래서 우리는 백업 전원 케이블을 뽑아 UPS의 전력 사용량을 줄였습니다 (둘 중 하나는 다른 것보다 훨씬 큼). 우리는 서버 룸을 운영하는 네트워크 스위치에 도달했습니다 (이것은 회사의 모든 내부 서버가있는 서버 룸이었고 고객은 다른 서버 룸의 서버를 향했습니다). 이 스위치는 3 개의 전원 공급 장치가있는 대규모 엔터프라이즈 급 스위치였습니다. 전원 공급 장치는 N + 1이므로 스위치를 실행하려면 두 개만 필요했습니다.

우리는 케이블을 집어 뽑았습니다. 불행히도 우리에게 다른 두 개는 하나의 전원 스트립에 꽂혀 있는데, 두 개의 전원 공급 장치에 부하가 가해지 자마자 폭발했습니다. 시스템 관리자는 패닉 상태에 빠졌고 세 번째 케이블을 꽂았습니다. 스위치의 전원을 켜려고 시도하여 스위치의 전체 부하를 단일 전원 공급 장치에 넣었습니다. 전원 공급 장치가 종료되는 대신 내 얼굴에서 12 인치가 아닌 스파크가 발생하여 서버 랙으로 다시 뛰어 들었습니다.

본능에서 나는 옆으로 점프하려고했지만 불행히도 내 왼쪽에는 벽이 있었고, 두 오른쪽은 매우 큰 6'4 "시설 녀석이었습니다. 랙에 전체를 넣거나 시설 직원을 건드리지 않고 Compaq 랙 (얇은 메쉬 전면이있는 랙).

21
mrdenny

내 경력의 어느 시점에서 나는 회사에서 법적 조사를 수행하기 위해 달리 지시 할 때까지 모든 이메일을 "오늘"부터 유지하도록 요구했습니다. 교환 환경 (매일 1TB)의 일일 전체 백업을 약 1 년 동안 저장 한 후 공간이 부족하기 시작했습니다.

거래소 관리자는 이메일의 매 8 번째 사본 만 보관할 것을 제안했습니다. 이를 위해 며칠 동안 교환 데이터베이스를 복원하고 필요한 이메일을 추출하고 (특정 사람들이 조사 대상으로 플래그 지정)이를 다시 아카이브하도록했습니다. 모든 백업에 대해 8 일마다 이메일을 발송했습니다. 교환에 "삭제 된 항목"이 8 일 동안 데이터베이스에 유지되는 매개 변수 세트가 있으므로 8 일이 선택되었습니다.

그들이 각 아카이브를 마친 후에는 돌아가서 아카이브했던 것보다 오래된 백업을 삭제합니다.

TSM은이를 수행하는 쉬운 방법이 없으므로 백업 데이터베이스에서 오브젝트를 수동으로 삭제해야합니다.

오늘 날짜와 해당 날짜의 차이를 사용하여 날짜 계산을 통해 날짜보다 오래된 모든 백업을 삭제하는 스크립트를 작성했습니다. 어느 날 나는 날짜 계산을 할 때 오타를 만들고 2007 년 6 월 10 일 대신 7/10/2007로 날짜를 입력하고 스크립트를 실행 한 것을 제외하고 약 한 달 분량의 백업을 삭제해야했습니다. 추가로 한 달 분량의 데이터를 삭제했습니다. 우연히 이것은 매우 중요한 소송의 일부였습니다.

그런 다음 스크립트에 몇 가지 단계를 추가하여 데이터 삭제를 확인하고 삭제할 내용을 보여줍니다.

다행히도 그들은 우리가 보존하기 위해 열심히 노력한 데이터를 전혀 사용하지 않았으며 여전히 내 직업을 가지고 있습니다.

20
WerkkreW

하루 종일 또는 성능을 추적하고 거대한 메인 프레임을 조정 한 후 (모든 대기 백업 사이트가 실제로 다시 부팅되고 완전히 동기화되었다는 데 동의하기까지 몇 시간이 걸리는 짐승을 알고 있습니다.) -p 내 노트북에 지금 프롬프트, 뚜껑을 닫고, 멋진 차가운 라거 유리를 기대하면서 메인 프레임에서 직렬 케이블을 잡아 당겼습니다.

노트북이 여전히 행복하게 X를 표시하는 동안 갑자기 메인 프레임을 회전시키는 소리가 들립니다.

컴퓨터가 다시 완전히 온라인 상태가 될 때까지 기다리는 동안 ACPI를 랩톱에서 사용할 시간을 갖도록 결정하여 랩톱을 종료하려는 유혹을받지 않았습니다.

20

실수로 누군가의 계정을 삭제했으며 삭제하려고했던 이름과 이름이 혼동되었습니다. Opps

멋진 부분은 그들이 무슨 일이 있었는지 전혀 모른다는 것입니다. 그들이 로그인 할 수없는 전화를 받았는데, 페니는 내가 삭제 한 계정에 대해 떨어졌습니다.

그들과 전화를하는 동안, 나는 그들의 계정을 재 작성하고, 이전 메일 박스를 다시 첨부했다 (고맙게도 Exchange는 메일 박스를 즉시 삭제하지 않는다).

그런 다음 방금 재설정 한 비밀번호를 잊어 버렸다고 비난했습니다. :)

16
SpaceManSpiff

실수로 내 Gentoo Linux 상자에 tar.gz 파일을 잘못된 위치에 설치했고 파일이 모든 곳에 남았습니다. 이것은 당시 1999, 19 년경이어야합니다 (아래 의견에 감사드립니다)

나는 괴짜이기 때문에 각 파일을 수동으로 진행하는 작업에서 스스로 스크립트를 작성하기로 결정했습니다.

그래서 나는 시도했다 :

tar --list evilevilpackage.tar.gz | xargs rm -rf

Tar가 프로그램이 사용하고있는 모든 디렉토리를 나열하고 ''/ usr,/var,/etc ''와 내가 정말로 가고 싶지 않은 다른 디렉토리를 포함한다는 것을 알아 차리는데 오랜 시간이 걸리지 않았습니다.

CTRL-C! CTRL-C! CTRL-C! 너무 늦었 어! 모든 것이 사라졌습니다. 시간을 다시 설치하십시오. 다행히도 상자에는 중요한 것이 포함되어 있지 않습니다.

16
Andrioid

이 사고는 발생하지 않았지만 언급 할 가치가 있습니다.

새 회로에서 대역폭 테스트를 수행하기 위해 많이 사용하는 데이터 센터로 보냈습니다. 경계 실/IDF에 도착하여 테스트 라우터의 랙 중 하나에서 지점을 발견하고 연결 한 다음 테스트를 시작했습니다. 불행히도, 프로덕션 랙 라우터는 정확히 다음 랙에있을뿐 아니라 테스트 라우터와 동일한 제조사 및 모델이라는 것을 완전히 알지 못했습니다.

테스트가 끝나면 전원 스위치를 오프 위치로 누르기 시작했습니다 (슬로우 모션으로 상상해보십시오 ...). 압력을 가하는 것처럼 라우터가 나에게 달려갔습니다. 생산을 중단했습니다. 내 마음이 멈 췄고 거의 ... 글쎄, 당신의 상상력을 사용하십시오.

나는 데이터 센터의 MDF 으스스하고 창백 해 보였지만) 나는 여전히 직업을 가지고있어서 기뻤습니다!

16
l0c0b0x

전생의 작은 부분으로 회사의 파일 서버 인 넷웨어 4:11 상자를 관리했습니다. 전혀 입력이 거의 필요하지 않았지만 원격 콘솔 창을 열었습니다.

DOS를 항상 사용하는 데 익숙했습니다. 완료되면 자연스럽게 "종료"를 입력합니다. Netware의 경우 "exit"는 OS를 종료하는 명령입니다. 운 좋게도 서버를 "다운"하지 않으면 시스템을 종료 할 수 없습니다. (네트워크/클라이언트에서 사용할 수 없게하십시오.) 콘솔에 "종료"를 입력하면 "먼저 입력해야합니다" 아래로 "종료하기 전에"

콘솔 세션에서 1 : 1 "종료"를 입력 한 후 2 : "종료"를 "종료"하고 "종료"하여 "내가하려는 작업을 완료 할 수 있습니다"

그리고 전화벨이 울리기 시작합니다.

LOL

12
Bob

내가 일했던 마지막 장소, 동료는 서버 룸에서 그와 함께 그의 아이들을 낳았습니다 (왜? 나는 아이디어가 없습니다!).

그는 서버에서 멀리 떨어져 있는지 확인하고 5 살짜리 아이에게 서버의 어떤 것도 건드리지 말고 특히 전원 스위치를 만져서는 안된다고 설명했다.

사실, 그는 문 바로 근처에 그것들을 가지고있었습니다 ... (이것이 어디로 가는지 알 수 있습니까?)

소년은 서버 전원 버튼을 건드리지 않았습니다 ... 아니요, 설명하기가 너무 쉽습니다. 대신 그는 문 근처에있는 BIG RED 버튼을 쳤습니다. 전체 서버 룸의 전원을 차단하는 버튼입니다 !!!

Exchange, 파일 서버 등을 사용할 수없는 이유에 대해 전화선이 즉시 밝아지기 시작했습니다. CEO에게 설명하려고한다고 상상해보십시오!

-JFV

11
JFV

일어나지 않은 또 다른 이야기 (퓨) :

우리는 테이프 드라이브에 매일 종교적으로 증분 백업을하고있었습니다.

우리는 다른 사람에게 배송 할 데이터가 포함 된 테이프를 작성했습니다. 그들은 '테이프를 읽을 수 없습니다'라고 말했습니다. 사실 우리도 마찬가지였습니다. 또는 실제로 모든 테이프.

우리는 또 다른 테이프 드라이브를 구입하여 설치할 때까지 숨을 참았습니다.

이야기의 교훈. 항상 백업을 테스트하십시오.

11
Matthew Farwell

한때 APC UPS 모니터링 소프트웨어와 싸웠습니다. 소규모 회사 인 우리는 두 개의 작은 UPS를 가지고 있으며이를 모니터링하기 위해 다양한 서버가 설치되었습니다. 대부분의 서버는 Linux 였지만 일부는 Windows를 실행하고 있었으므로 APC 소프트웨어는 Windows 전용이므로 사용 된 서버였습니다.

그러나 당시 APC 소프트웨어는 UPS가 통화중인 UPS에 전원을 공급하고 있다고 가정하기 위해 하드 코딩되었습니다! 이 서버에는 해당되지 않았지만 중단하기에는 너무 늦다는 것을 알았습니다. 또한 불행히도 수석 프로그래머는 회사 제품을 파트너에게 시연했습니다 .APC 소프트웨어를 종료하고 싶지 않은 동일한 서버에서 실행되는 웹 기반 앱이었습니다 ...

10
staticsan

북미 지역의 무선 제공 업체에서 일하고 있으며 그룹 내 직원이 작업 지시를 실행하도록 교육을 받았습니다. 나는 첫 두 밤을 지켰다. (우리는 유지 관리 기간 동안 모든 것을한다), 그는 잘 지내고 있었고, 스스로 배워야한다고 말했다. 그래서 나는 그를 내 휴대 전화와 호출기로 내버려 두었다. 다음 날 오전 8시에 일어나서 구성을 확인했습니다.

변경 사항은 BlackBerrys 에 대해 새 IP 주소 풀을 추가하고 있었고 추가 한 풀은 약 10000 개의 주소였습니다. 이를 위해 라우터에서 모든 통화 처리를 수행하는 블레이드의 프로세서 주소를 가리키는 경로를 추가합니다 (본질적으로 프록시처럼 작동 함). 또한 프로세서에 로그인하여 IP 풀을 구성하고 무선 풀에 사용할 IP 풀을 연결합니다. 그러나 테스트를 위해 일반적으로 하나의 프로세서에서 구성하고 (실제로 전화를 부팅하고 모든 기능을 테스트) 구성을 원하는 실제 프로세서로 이동하면됩니다.

2 주 빨리 진행했는데, 제어 센터에서 간헐적으로 발생하는 일부 BlackBerry 문제에 대해 많은 전화가 걸려 왔으며, 그들이 본 BlackBerry 중 일부는 공통 풀을 순환하는 것처럼 보였습니다. 정말 무슨 일이 일어나고 있는지. 이것이 내 동료가 2 주 전에 방금 추가 한 새로운 수영장이라는 것을 깨닫는 데 약 5 분이 걸렸습니다. 또한 라우터에 두 개의 경로가 있는데, 하나는 테스트 프로세서로 가고 다른 하나는 적절한 콜 프로세서로가는 것입니다. 이것은 원래 있던 것이기 때문에 테스트 프로세서에 대한 경로를 삭제하는 것을 잊어 버렸고 올바른 경로를 대체했습니다.

기본적으로 BlackBerry는 네트워크에 연결하고 프록시에 연결하여 IP 주소를 가져오고 프록시는 풀에서 주소를 잘못된 경로로 제공하고 BlackBerry는 RIM 릴레이이며 응답은 테스트 프록시로 라우팅되고 사용자에게 다시 연결되지 않으므로 본질적으로 연결되지 않습니다.

BlackBerry는 릴레이에 연결할 수없는 경우 네트워크에 연결을 끊거나 다시 연결하는 동작이 있기 때문에 운이 좋았지 만 그럼에도 불구하고 일부 RIM 장치는 작동하지 않을 때까지 최대 몇 시간 동안 서비스가 제공되지 않았습니다. 풀. 나는 다시 생각하고 작업을 두 번 확인했을 때이 사람에게 새로운 프록시 구성 만 확인했지만이 사람은 이전에 백본 팀과 함께 있었고 라우팅이 그의 일이기 때문에 라우팅 구성을 확인하지 않았습니다. 죄송합니다!

나는 그것을 고치고 그날 오후에 전화를했는데, 그의 하루는 잘 지내고 있었지만, 미안하지만 시작했지만 일주일 내내 당신을 망치려고합니다. 1 년 후 이야기는 여전히 맥주를 중심으로 이루어집니다.

8
Kevin Nisbet

랙 뒤에 끼워져있는 타워 서버를 넘어서서 Cisco 라우터의 뒷면에 내 머리를 때렸습니다. 따라서 전원 코드가 실제로 Catalyst 65 의 앞면에있는 전원 공급 장치에 얼마나 느슨하게 장착되어 있는지 알 수 있습니다.

네. 우리는 지금 서버 룸에 안전모를 설치했습니다. 내 이름으로.

8
Bill B

새 sysadmin에게 Service Manager 앱 둘러보기를 제공했습니다. "이 서비스를 중단해야한다면이 버튼을 클릭 하겠지만 낮에는 절대로 사용해서는 안됩니다." 그녀의 마우스 버튼이 얼마나 민감한 지 결코 믿지 않을 것입니다!

2 분 후 서비스가 다시 시작되었고 아무도 눈치 채지 못했습니다.

8
Antony

이모가 컴퓨터를 고쳐달라고 부탁했습니다. 그들은 부팅되지 않을 것이며 2 주 동안 그렇게 될 것이라고 말했다. 나는 그것이 BIOS 또는 OS라고 생각했다.

나는 그들의 컴퓨터 앞에 앉았다. 웅크 리고 전원 버튼을 눌렀습니다. 나는 찾는다.

BIOS가 통과했습니다. 잘 됐네요.

OS가 부팅되었습니다. 잘 됐네요.

입력 장치에 문제가 있다고 생각하여 마우스를 움직였습니다. 입력 장치에 문제가 없었습니다.

나는 그녀의 워드 프로세서를 열었다. 달렸다.

프린터를 인쇄 테스트합니다. 인쇄되었습니다.

이 시점까지 나는 일어 서서 이모에게 (누가 나를보고 있었는지) 컴퓨터에 아무런 문제가 없다고 말했다. 그녀는 내가 앉기 전에는 그렇지 않다고 주장했다.

나는 이제 내 가족에게 내가 good이라고 주장 할 수있다. 단지 앞에 앉아 있으면 모든 컴퓨터를 고칠 수있다.

7
MrValdez

내가 수석 관리자에 의해 sysadmin으로 처음 고용되었을 때 ... 첫 주 안에 우리는 완전히 새로운 Dell 서버를 받았습니다 ... Windows Server 2003 ... 자정에 비밀리에 서버 실에 전화 할 때까지 그의 작은 아기였습니다 어느 토요일 밤, 안티 바이러스없이 배포하기 전에 웹을 통해 수 많은 악성 코드를 제거했습니다 !!!

악성 코드 정리는 제가 경험 한 많은 것이지만, 이것이 서버이기 때문에 형식을 설정하고 다시 안전하게 설치했습니다.

나는 그것에 대해 한마디도 말하지 않았다. 그는 왕족이 엉망인 줄 알았습니다.

7
cop1152

시스템 관리보다 개인 스크립팅이 많지만 ...

저는 Banshee 에서 정보를 재생하고 "xte"프로그램을 사용하여 키보드 이벤트로 문자를 입력하는 매크로처럼 동작하는 Perl 스크립트를 작성했습니다. 이렇게하면 특별한 상호 작용없이 프로그램 내에서 작동하도록 할 수 있습니다. 입력 한 것과 같습니다.

글쎄, 나는 거의 완벽하게 코드를 작성했습니다. 나는 임의의 게임에서 그것을 테스트하기로 결정했습니다. 채팅을 시작하는 키 누름은 shift + enter. 이제이 작업을 수행하려면 계속 누르고 있어야했습니다. shift을 누릅니다. enter그런 다음 놓습니다. shift. 불행히도 내 서두에서 "릴리스 전환"을 잊어 버렸습니다. 스크립트를 실행 한 결과 Shift 키가 잠기면 다소 유쾌한 부작용이 발생했습니다. "문제 없어요. 터미널로 가서 수동으로 줄을 입력하여 교대를 해제 할 것"이라고 생각했습니다. 불행히도 모든 사람이 알고 있듯이 Linux는 대소 문자를 구분합니다. 내가 입력 해야하는대로 모든 대문자로 명령을 수락하지는 않습니다. 나는 "카운터 시프트"나 그와 비슷한 것을 할 수 없었습니다.

이로 인해 웹 사이트를 방문하고 마우스를 사용하여 개별 소문자를 터미널에 복사하여 붙여 넣어서 끄는 데 필요한 명령을 구성하는 5 분의 폐품 추적이 발생했습니다.

7
DWilliams

큰 문제는 아니지만 약 10 년 전 'Egg on my face'아침입니다. 이전 하드웨어 인벤토리를 살펴보고 하드웨어를 오프로드 할 준비가 된 디스크를 다시 이미징했습니다. 이를 위해 가장 효율적인 방법을 찾기 위해 Norton Ghost와 적용 할 이미지가 포함 된 CDRom을 작성했습니다. 머신의 전원을 켜고 POST하는 동안 CD를 드라이브에 넣으십시오. 머신이 CD를 부팅하고 자동으로 이미지를 다시 만듭니다. 잘 작동했습니다.

더 많은 기계를 병렬로 사용할 수 있도록 CD 사본을 만들 때 문제가 발생했습니다. 마지막 CD 굽기를 마치고 데스크탑 컴퓨터를 끄고 하루 동안 집으로 돌아갔습니다. 다음날 아침에 무슨 일이 있었는지 추측 할 수 있습니다. 들어 와서 PC를 켜고 커피를 만들어 보았습니다 ...

어떤 이유로 든 내 컴퓨터가 도메인 외부에 있었고 암호를 수락하지 않은 경우 ...

나는 방금 일어난 일을 해결하고 다른 사람들이 하루 동안 도착했을 때 욕을 시작했습니다. 그렇습니다. 그들은 저를 한동안 살지 못했습니다.

7
Sam

그 당시에는 환경이 매우 좋았을 때 아무도 그것을 보지 못한 것처럼 사용자 PC에 AV 소프트웨어를 설치해야했습니다. 그래서 나는 약 40 ~ 50 대의 데스크탑을 파지 않고 원격 설치 방법을 알아내는 데 약간의 시간을 보냈습니다. 원격 설치는 완벽하게 실행되었으며 모든 관리자가 내 사무실에 의해 로그인 할 수 없다는 불만을 제기하기 전까지는 모든 것이 정상으로 보였습니다.

일부 개인은 자신의 시스템에 Symantec AV가 설치되어 있으며, 이것은 내가 사용중인 McAfee 소프트웨어와 공존하지 않으며 로그인 시도 후 시스템을 잠 그게됩니다.

다행스럽게도, 로그인을 시도하기 전에 컴퓨터에 도착하면 서비스를 원격으로 비활성화 할 수 있었으므로 모든 고위 관리 PC를 다시 작성하지 않고 서비스를 수정하기위한 포인트를 얻었습니다.

7
user2278
6
Rook

직원 중 한 명이 완료 한 이유 ... 서버에 레이블을 명확하게 표시 한 이유의 완벽한 예 :

직원을 콜로로 보내 보조 MSSQL 데이터베이스 서버 (현재 데이터가 없음)를 다시 작성했습니다. 1 차적으로 활발히 사용되고있었습니다. 이 이야기의 나머지 부분을 예측할 수 있습니다 ... 일단 서버를 재부팅하고 설치를 시작한 후 드라이브를 다시 포맷하면 전화를 걸고 주 데이터베이스 서버가 더 이상 응답하지 않는 이유 만 묻습니다. (도)

6
skraggy

광산은 6 개월 전에 일어났습니다. 우리는 방금 PHP/MySQL 웹 응용 프로그램을위한 새로운 서버로 전환했습니다. OS를 선택해야했기 때문에 가장 친숙하고 편한 시스템 인 Ubuntu를 선택했습니다.

우리는 매시간, 매일 등 cron에 의해 실행될 많은 백업 스크립트를 가지고있었습니다. 이전 서버에서 새 서버로 MySQL DB를 전송하고 IP를 전환하는 동안 약 2 분의 가동 중지 시간이있었습니다.

그러나 몇 주 후, 나는 커맨드 라인에서 MySQL에서 일하고 더 이상 필요하지 않은 오래된 테스트 레코드를 삭제했습니다. 필자는 먼저 프로그래머 인 sysadmin이므로 세미콜론 (;)을 먼저 입력 한 다음 명령을 입력하는 습관을 들이게되었습니다. 글쎄, DELETE 쿼리에 WHERE 절을 추가하려고 할 때 실수로 enter 키를 쳤다. ... 죄송합니다.

Query OK, 649 rows affected (0.00 sec)

"큰일은 없다"고 생각했다. "시간별 백업은 4 분 전에 완료되었습니다. 3 개의 레코드가 모두 손실 될 수 있습니다. 백업 디렉토리로 빠르게 이동하여 복원했습니다. 문제가 해결되었습니다.

... 그런 다음 백업에서 타임 스탬프를 확인했습니다. 17 일이 지났습니다. 다른 백업은 없었습니다. 17 일 전에 시스템에 입력 한 모든 내용을 지 웠습니다.

우분투의 크론 데몬에 버그가있어 이름의 어느 곳에서든 점 (.)으로 스크립트 파일을 실행하지 않습니다. 오류가 발생하지 않으므로 문제의 증거가 없습니다. 그냥 실행을 거부합니다. 모든 백업 스크립트에는 이름에 점이있었습니다. 그들은 전에는 완벽하게 작동했지만 지금은 그렇지 않았습니다.

내가 배운 교훈 :

  1. 실제로 쿼리를 실행하고 싶을 때까지 세미콜론을 MySQL의 명령 줄에 넣지 마십시오.
  2. 백업 파일에서 타임 스탬프를 확인하십시오 before 복원 중입니다.
  3. 백업 스크립트를 테스트하고 정말 작동하는지 확인하십시오.
6
Andrew Ensley

생각보다 오래 전에 저는 회사의 기술 담당자였으며 일부 컨설턴트와 함께 응용 프로그램을 설치했습니다. 하드웨어는 DEC VAX이며 HSC50 스토리지 서버를 사용했습니다. 컨설턴트들은 하루 종일 설치를했고, 떠난 후 HSC50의 비트 별 복사 유틸리티를 사용하여 빈 디스크에 시스템 디스크를 백업하기로 결정했습니다. 복사가 완료되고 재부팅을 시도한 후, 소스 및 대상 디스크의 이름을 바꾸어 빈 디스크를 비트 단위로 시스템 디스크에 백업했음을 발견했습니다.

시스템 디스크에서 VMS를 다시 빌드하고 많은 응용 프로그램을 다시 설치할 수 있었지만 제대로 작동하지 않았다고 생각합니다. 그 이후로 복사/백업 등을 수행하는 경우 계속하기 전에 소스 디스크를 쓰기 방지합니다. (이제 쓰기 방지 스위치가 더 이상 없기 때문에 before Return 키를 누르십시오.)

6
JonP

모니터링 시스템에 라이센스 파일이 없음을 나타내는 Windows 시스템에서 오는 경고를 조사하기 위해 전화를 받았습니다. 명령 프롬프트를 열고 문제를 조사하기 시작했으며 기본 Windows 명령이 거기에 없다는 것을 알았습니다.

스크립트를 원격으로 실행 한 sysadmin은 del 명령을 사용하여 루트 및 하위 폴더로 지정된 폴더를 환경 변수에 지정된 폴더로 삭제하는 스크립트를 작성했습니다. 환경 변수가 설정되지 않은 경우 전체 파티션을 자동으로 삭제했습니다.

말했을 때, sysadmin은 자신의 노트북에서 해당 스크립트를 실행하여 작업을 확인하여 작업을 확인하여 너무 놀랐습니다.

놀라운 것은 서버를 재부팅 할 때까지 Windows가 제대로 실행되고 있다는 것입니다. 인색 한 모니터링 소프트웨어 만 불평했습니다.

정당의 보조 Active Directory 서버였습니다. 죄송합니다.

5
Stuart Woodward

일부 BitTorrent 다운로드 속도를 높이기 위해 방화벽에 바이 패스 규칙 추가 사용 된 바이 패스 규칙이 너무 안정적이지 않은 시스템으로 밝혀졌고 방화벽이 다운되었습니다. 이것은 도시 내 모든 학교의 인터넷 연결을위한 경계 방화벽이었습니다. 설상가상으로 재부팅하면 방화벽의 하드 드라이브가 죽을 정도로 충분했습니다. 즐거움? 별로. 화려한 실패? 명확히.

4
Mark

광산은 태그 팀 노력이었다.

경영진은 DBA 중 하나를 서버에 로그인하여 일종의 정리 작업을 수행 할 수 있도록 지시를 받았습니다. 그는 쿼리를 실행했고 즉시 두 호출기가 모두 나갔으며, 이는 우리 모두에게 expletives를 자극했습니다.

결과적으로 정리는 실제로 데이터베이스의 한 방울이었고 개발 서버 중 하나에서 수행되어야했습니다. 그러나 내가받은 지침에 따르면 이것이 프로덕션에서 발생 해야하는 사소한 정리 작업이라고 믿었습니다.

다행히도 데이터 손실을 최소화하면서 백업에서 복원 할 수있었습니다.

교훈 : 프로덕션 서버를 망칠 때해야 할 일을 항상 정확히 알고 있어야합니다. 불확실성이있는 경우, 천리를 얻는 것이 가장 좋습니다.

4
Bill B

확인. &는 미국 키보드에서 Shift-7을 누릅니다. 스웨덴어 키보드로 가져 오려면 Shift-6을 누르십시오. 스웨덴어 키보드에서 Shift-7을 누르면 무엇을 얻을 수 있습니까? 당신은 /.

몇 년 전 스웨덴어 레이아웃은 그리 일반적이지 않았습니다. 개인적으로 선호하는 것은 미국 레이아웃을 사용하는 것이 었습니다. 어느 날 디렉토리에서 많은 파일과 하위 디렉토리를 삭제하고 싶었습니다.

나는 명중했다 :

rm -fr *

그러나 너무 느려서 빨리 쳤다.

Ctrl-C rm -fr * &

아니면 내가 했습니까? 글쎄요. 스웨덴 키보드를 사용하고 있다는 것을 깨닫는 데 몇 초가 걸렸습니다. 발생한 내용을 해독하려면 위를 참조하십시오. 그리고 그 재앙은 사실이었습니다.

내가 명령을 배운 날이었습니다.

dd

나는 기본적으로 디스크에서 테이프에 이르기까지 결국 밤새도록 밤새도록했습니다. 다음날 나는 시스템이 다시 설치 될 예정이라는 것을 알게되었다.

운이 좋았지 만 몇 가지를 배웠습니다.

4
fredarin

대부분의 서버 집합이 여전히 Windows NT 인 경우 사용되는 기본 원격 방법은 pcAnywhere입니다. "잘 알려진"버그가있었습니다. 때때로 pcAnywhere를 사용할 때 서버가 갑자기 다시 시작되고 최종 사용자에게이 잘 알려진 버그에 대한 정보가 제공됩니다.

버그는 pcAnywhere (적어도 사용중인 버전)가 "호스트에서 연결 해제"단추 옆에 "호스트 재부팅"단추가 있다는 것입니다. 그래서 가끔씩 ... : D

4
marty

VNC는 200 마일 떨어진 Win 2k Server에 접속하여 IP 주소를 추가했습니다. 시스템 트레이에서 네트워크 아이콘을 마우스 오른쪽 버튼으로 클릭하고 '속성'이 아닌 '비활성화'를 클릭하십시오-DOH! .... 솔루션 .... 차에 타. 행복하지 않아! 그들이 그 메뉴 옵션에 '당신을 확실하게'가지고 있다면!

마이크

4
Mike McClelland

2002 년 여름.

한낮에 16,000 명의 사용자를 강제로 재부팅하여 IE 6.0)을 실수로 배포했습니다.

사실 나는 내 실수를 잡아서 가장 빠른 타이핑을했다 odadmin 종료 모두 (모든 배치 서버를 중지하는 Tivoli 명령).

3
Shawn Anderson

Linux 및 FreeBSD에서 hostname -s는 "짧은 호스트 이름을 표시합니다. 첫 번째 점에서 잘라낸 호스트 이름"입니다.

Solaris 9에서 hostname -s는 호스트 이름을 '-s'로 설정합니다.

따라서 동료 관리자는 Solaris 9에서 실행되는 10 개의 Mission Critical Oracle Database 서버를 포함하여 120 개의 모든 시스템을 감사하는 스크립트를 실행했습니다.

for Host in `cat all-hosts`; do
ssh $Host "hostname -s"
done

모든 Oracle 서버가 즉시 실패했습니다. 이 실패의 속도는 정말 놀랍습니다.이 실수에서 회복하는 데 약 20 초가 걸렸지 만 이미 너무 늦었습니다. 모든 것이 다운되었습니다.

아이러니 한 점은 데이터 센터가 불과 며칠 전에 중대한 정전으로 어려움을 겪었고 향후 정전시 더 빨리 복구 할 수 있도록 "전원 끄기/전원 켜기"스프레드 시트를 업데이트하고 있다는 것입니다.

3
Stefan Lasiewski

내가 아니라 내가 함께 일하는 사람. 프로세스 필드에 *가 포함 된 AV 서버의 정책을 만들었습니다. 평신도의 관점에서 : *라는 이름이 포함 된 프로세스에 대한 읽기, 쓰기, 실행을 허용하지 마십시오.

그런 다음이 정책은 1,500 대의 서버로 복제되어 RDP 및 기타 프로세스가 종료됩니다. 이를 해결하려면 모든 서버 하드 드라이브를 하나씩 마운트하고 정책을 제거해야합니다. 팀 15 명과 48 시간.

3
stuart Brand

저는 프로그래머이므로 모든 실수는 Stack Overflow에 속합니다. 그러나 아래는 내가 목격 한 시스템 관리자 오류 중 일부입니다.

  1. Windows NT 도메인의 모든 사용자로부터 로그온 권한을 취소하십시오. (PDC의 기본 관리자 외에는 슬프게도 도메인을 설정 한 계약자 만이 암호를 알고 있었으며 오래 전에 사라졌습니다.) 실제로 이것이 어떻게 달성되었는지는 알 수 없습니다. 몇 시간 동안 동료 개발자와 앉아서 대화해야한다는 것을 알고 있습니다.

  2. 실수로 구성원 서버를 삭제하십시오. OU . 테이프에서 복원하는 동안 몇 시간 동안 채팅했습니다.

  3. Google 관리자는 모든 도메인 관리자에게 CD 및 플로피 드라이브 액세스 권한을 부여하려고했습니다. (우리는 당시에 SecureNT를 사용하여 이동식 미디어에 대한 액세스를 제어했습니다.) 슬프게도 그룹 구성원 자격을 취소하고 대신 이동식 미디어의 모든 사용자에게 전체 도메인 관리자 권한도 부여했습니다. 일부 테이블은 사용할 수 없었던 사용자가 작성한 프로덕션 SQL 데이터베이스에서 나타났기 때문에 이것을 발견했습니다. 내가 문제의 행정관에게 말했을 때 나는 그의 얼굴이 바뀌는 것을 보면서 즐겼다. 고맙게도 심각한 피해는 없었습니다.

3
pipTheGeek

하, 내 첫 번째 큰 사고는 내부 "개발"웹 사이트를 업데이트하는 데만 사용되는 완전히 안전하지 않은 소프트웨어 인 개발 서버에서 작은 SVN 관리자 패널을 작성할 때였습니다.

때로는 SVN 저장소가 손상되어 PHP 파일을 호출하는 버튼을 작성하여 요청 된 전체 SVN 디렉토리를 정리하고 다음과 같이 보였습니다 ..

<?php
$directory=$_GET['dir'];
$result = Shell_exec("Sudo rm -Rvf /".$direcory);
echo $result;
?>

그것을 보지 못하는 사람들을 위해-Shell_exec에서 철자가 틀린 "$ directory"로 인해 시스템에서 "Sudo rm -Rvf /"...가 실행되었습니다. 처음에는 웹 페이지를 삭제하는 데 시간이 걸린다고 생각했습니다 repo의 모든 파일. 약 10-15 분 후 파일 시스템의 1/2 이상이 손상되었음을 발견했습니다.

죄송합니다.

2
grufftech

훌륭한 고용주 이야기. 무고한 사람들을 보호하기 위해 세부 사항 중 일부가 변경되었습니다. 나는 고용 문제가 있었고, 많은 생산성 문제를 겪고 있었지만 자신을 구속하고 일부 특권을 되찾은 것처럼 보였던 Fred라고 불렀습니다. 문제는 그의 권한이 복원되었을 때 프로비저닝 스크립트의 버그로 인해 추가 권한을 부여하는 것이 었습니다.

나는 큰 프로젝트의 중간에 있었기 때문에 Fred에게 응용 프로그램에 필요한 Windows 핫픽스를 패키지하도록 요청했습니다. (이것은 사람들이 오늘날처럼 종교적으로 패치하지 않았던 블라스트 이전 시대였습니다.) 그래서 Fred는 우리 실험실에서 테스트를 실행하고 모든 것이 잘 작동합니다.

그런 다음 Fred는 몇 가지 질문을합니다.

"Who should I Push it to?" (Mind you, this is a patch for some custom VB app)

"Everyone", I respond

"Ok, what time should it start?"

"How about 2AM?", I answer. (Figuring I'd have time to look over everything before I left for the day!)

그럼 다음에는 어떻게 되나요? 그는 소프트웨어 배포 앱으로 모든 사람에게 푸시 할 수있는 작업을 설정했으며 제품이 지원하는 모든 플랫폼의 확인란을 선택할 수있을 정도로 친절합니다. 그런 다음 과거 약 12 ​​시간 동안 발생한 2AM과 같이 2AM의 시작 시간을 설정합니다.

결과? 모든 것이 재부팅되고 일부 VB5 런타임 패치를 설치하려고합니다. 금요일 오후 약 2:45 PM).

모두? 40,000 대의 PC처럼? 예. 3,000 대의 Windows 서버? 예. 300 HP, Sun 및 IBM Unix 박스? 예. AS/400 클러스터? 예.

AD 녀석은 어떤 이유로 든 응용 프로그램을 비활성화했기 때문에 재부팅하지 않은 유일한 것은 Windows DC였습니다. 거룩한 악몽. 일주일을 지낸 후에도 나는 여전히 고용되어 있다고 믿을 수 없었다.

펀치 라인? 프레드는 더 이상 아무것도 해치지 못한 직장으로 큰 승진을했습니다.

2
duffbeer703

아마도 다른 것보다 심야 뇌 방귀가 더 많을 것입니다.

개발자 중 한 명이 Solaris 상자에서 Java 프로파일 러를 실행하는 데 문제가있었습니다. 프로파일 러는 Libc의 사본이 두 개 (/lib에 하나, /usr/lib. 몇 개의 lds 이후에 모든 것이 /lib을 가리키는 것처럼 /usr/lib에서 하나를 옮겼습니다.

그러나 갑자기 아무것도 효과가 없었습니다. ls, cd, cp 또는 mv 없음 약 20 분 동안 'oh crap, oh crap'을 수행 한 후 개발자 중 한 명이 해당 상자에 현재 실행중인 Emacs 사본을 가지고 있으며 백업 된 /lib Libc 사본을 열 수 있음을 알았습니다. 원래 이름으로 다시 작성하십시오. 그리고 짜잔! 모든 것이 효과가있었습니다. 배운 교훈; Libc를 원하는 곳에두고 오전 2시에 개발자 요청을 변경하지 마십시오!

2
beggs

얼마 전까지는 없었습니다. 일부 Oracle ODBC 브리지 배포 중 약 500 명의 사용자 게시물에서 경로를 수정해야했습니다.

정말 간단한 조작입니다. 그 인용구를 잊어 버렸습니다. 사람들은 이상한 왜곡 된 메시지 (ODBC 설치 실패))를받은 후 울리기 시작했으며 컴퓨터 재부팅이 필요한 것만 큼 생각했습니다.

물론 이전의 다른 설치 PREPENDED (!!!) 시스템 변수의 일부 프로그램 파일 경로 (공백 및 따옴표 제외) 새 경로는 c :\Program (물론 존재)에서 바로 멈췄습니다. % ProgramFiles % 중 일부는 완전히 무시됩니다. 시스템 없음, 시스템 없음 32, 쉘 없음 따라서 로그온 스크립트도 없습니다.

다시 부팅 한 사람들은 더 이상 네트워크에 액세스 할 수 없었으며 자동화 된 스크립트는 손상을 복구 할 수 없습니다. 물론 불만이있는 사용자에게 다가 가서 둘러보고 길을 확인하자마자 나는 .. 싱크대 느낌이 들었다.

약 30 분 안에, 가장 표준적인 경로 값을 가진 다른 스크립트를 모든 사람에게 메일로 보낼 준비가되었습니다 (이메일은 여전히 ​​작동했습니다). 사용자는 이상한 이유가있는 암호 exe를 보내는 데 사용되지 않고 패치가 진짜인지 확인하기 위해 전화를 걸었습니다. 대부분의 사람들은 무슨 일이 일어나고 있는지조차 알지 못했습니다.

첫 번째 버전은 지저분했지만 (각 실행마다 새로운 세미콜론) 사용 가능한 모든 경로 값을 기록 했으므로 가능한 경로가있는 데이터를 신속하게 얻었으므로 모든 것을 확인하기 위해 똑똑한 무언가를 만들어야했고 경로를 멋지게 얻었습니다. 그 자리에.

결국, 그것은 단지 약 45 분 지속되었고, 나는 운 좋게 모든 것을 되돌려 놓은 사람이었습니다. 그러나 여전히 손상된 경로가 나타나면 여전히 비난을받을 준비가되었습니다.)

2
Berzemus

백업 서버가 관리 림보에 있었을 때 가장 좋은 것이 었습니다. 상사는 사무실에 남아 있어야하는지 아닌지, 서버 실 외부에서 (어떤 이유로 백업을하지 않는지) 여부에 대해 "토론"했습니다. 대량의 대역폭을 절약하려면 서버 실에 설치해야합니다. 나는이 림보 상태가 몇 달 동안 존재했음을 기억하는 것 같습니다.

웹 서버에는 웹 사이트 저장을위한 RAID 5 어레이가 있습니다. 세 개의 드라이브 중 두 번째 드라이브가 고장 나기 전에 얼마 동안 성능 저하 모드 (알 수없는 이유나 기억할 수없는 이유를 알려주지 않고)에서 실행 된 것 같습니다. 밤새도록 서버를 다시 연결해야했습니다. 고객은 웹 사이트가 사라져 자신의 백업에서 복원해야한다고 생각하지 않았습니다. 특히 자신의 백업이없는 사람.

상사가 나에게 물었던 질문은 "어떻게 RAID 어레이가 실패 할 수 있습니까? "웹 서버 백업이없는 이유는 무엇입니까?"

그러나 교훈은 무시되지 않았습니다. 필자의 메일 서버 업그레이드에는 핫 스페어가있는 RAID 1 어레이가 포함되어야한다고 제안했을 때 상사는 협조적이었다 (보통 그가했던 추가 비용에 대해 논쟁하는 대신). 물론 백업 서버는 짧은 순서로 작업을 제대로 수행하고있었습니다.

2
Ernie

Exchange Server 2007 "사서함 제거"와 "사서함 비활성화"기능의 차이점을 배우는 것은 어떻습니까? 특히 손상된 데이터베이스를 처리하기 위해 모든 사람의 오래된 사서함을 제거 할 때?

...

Exchange 서버에서 복원 ... 재미 있지 않음 ... Exchange 서버 및 Active Directory를 복원해야합니다.

금요일 아침 11시에 해 .. 귀중한.

2
IceMage

사이트 RedHat 5 웹 서버의 기본 파티션에서 약간의 공간을 확보하려고했습니다. 나는 리눅스를 처음 접했지만 오래전부터 DOS를 사용하고 있었다.

전체/bin 폴더를 다른 파티션으로 옮기고 프로덕션 웹 사이트를 꺼내고 액세스 가능한 시스템 명령없이 내 자신을 떠났습니다. 나는 도움이되는 실행 파일을 모두 이동했기 때문에 이름을 바꾸거나, 복사하고, 이동할 수 없었습니다.

고맙게도 나는 부트 디스크를 사용하고 나의 작업을 취소 할 수 있었다.

2
Darth Continent

RAID 5를 처음 사용했지만 여전히 작동 방식에 대해 배우고있었습니다. 당시 저는 아주 작은 회사에서 유일한 IT 전문가였습니다. 모든 사람이 액세스 한 모든 파일은 하나의 서버에만 저장되었습니다. 서버의 공간이 부족 해지고 RAID 어레이에 3 개의 드라이브 만 있었으므로 4를 추가하면 공간과 응답 성이 향상 될 것이라고 생각했습니다. 업무 시간 동안이 작업을 수행했습니다. 시간 외 유지 관리의 개념을 배우지 못했습니다.

어레이는 재 구축을 시작했으며 36 시간 내에 완료 될 것이라고 말했습니다. 나는 그것이 너무 길다고 생각했다. 재 구축 우선 순위를 제어하는 ​​슬라이더를 찾았으며 가장 낮은 설정으로 설정되었습니다. 중간으로 설정했습니다. 시간은 8 시간으로 줄었습니다. 하드 드라이브 표시등이 조금 더 빠르게 깜박 이었지만 여전히 80GB의 데이터에는 너무 길다고 생각했습니다. 그래서 우선 순위를 높게 설정했습니다. 하드 드라이브 표시등이 단단 해져서 "그게 더 좋다"고 생각했습니다. 그런 다음 사용중인 GUI가 응답을 멈췄습니다. 상자에 원격으로 연결되었습니다. 다시 가져 오려고했지만 서버를 찾을 수 없습니다.

나는 복도에서 사람들이 서버에 들어갈 수 없다는 불평을 듣기 시작했다. 나는 무슨 일이 일어나고 있는지 확인하기 위해 서버에 갔다. 빈 화면이 배경으로 바뀌는 데 5 분이 걸렸습니다. 로그인 프롬프트가 표시되기까지 5 분이 더 걸렸습니다. 키를 누를 때마다 5 분이 걸렸습니다. 서버가 아무것도 응답하지 않도록 우선 순위를 너무 높게 설정했습니다. 어레이를 재 구축하는 데 2 ​​시간이 걸렸습니다. 운 좋게도 점심 식사 한 시간 전 이었으므로 아무도 그렇게 많이 신경 쓰지 않았습니다. 당시 저의 매니저는 정말 멋진 여성이었고 큰 문제는 아니라고 말했습니다. 헤드 디자인 엔지니어는 나에게 의미있는 모습을 주었다. 나는 총알을 2 시간 동안 땀을 흘리고 있었다. 교훈을 얻었습니다.

2
Joseph

직원에게 노트북이 느리다는 불만이 있었기 때문에 하드 드라이브 조각화를 확인했으며 지금까지 내가 본 최악의 상황이었습니다. 여유 공간이 충분하지 않아서 드라이브 조각 모음을 시도 할 때 성과가 없었습니다. 임시 파일을 정리하려고 시도한 이유는 무엇입니까 (일시적으로 서버로 물건을 옮기지 않은 이유는 확실하지 않음). 전체 Outlook.pst가 실제 전자 메일이 아닌 전자 메일의 백업이라고 생각하여 완전히 삭제했습니다. 그는 나를 용서했지만 결코 잊지 못하게 했어요.

(이것은 몇 년 전에 대학을 졸업 한 직후에 일어났습니다. 지금은 훨씬 더 유능합니다.)

2
Scott

매우 바보 같은 실수. Linux 워크 스테이션에서 여러 파일을 처리하는 스크립트를 작성하고 있었지만 파일이 많기 만하면 어떤 파일인지는 중요하지 않았습니다. 따라서 테스트를 수행중인 디렉토리에 /etc를 복사하는 것이 좋습니다. 문제가 발생하면 사본을 삭제하고 /etc를 테스트 디렉토리에 다시 복사했습니다. 그것은 한동안 잘 갔다가

rm -rf /etc 

대신에

rm -rf etc/  

그래도 걱정할 필요가 없습니다. 나는 여전히 내 워크 스테이션에서 일을 할 수 있었고 다른 워크 스테이션이나 다른 것에서 복사하여 그것을 부활시킬 수 있다고 생각했습니다. 또는 하루가 끝나면 다시 설치하십시오. 먼저, 마실 것을 마시고 회사 정책 때문에 화면을 잠갔습니다. 젠장, 잠금을 해제하려면 암호가 필요하며/etc/....에 있습니다.

바보 같은 실수 :

  • 너무 많은 근본을하고 있습니다 (O : 좋은 이유가 있습니다).
  • /etc 대신 etc/ 입력
  • 테스트 목적으로 /etc 사용
2
blauwblaatje

유닉스 박스에서 "bin"사용자를 실수로 삭제했을 때가 있었다. 물론 사용자를 삭제하면 홈 디렉토리도 제거됩니다.

Bin의 홈 디렉토리가 무엇인지 추측 할 수 있습니까?

/큰 상자

1
Barry Brown

몇 회사 전에는 모든 것을 실행하는 주 서버로 Windows NT 4 박스가 있었고 백업으로 미러 하드 드라이브가있었습니다.

실수로 중요한 파일 몇 개를 삭제했지만 문제없이 상자를 다시 시작하고 SCSI 메뉴에서 디스크 2를 선택하면 1 분 안에 복사본에서 백업 및 실행됩니다.

그런 다음 미러 드라이브를 다시 빌드하라는 명령을 시작했습니다. Windows에는 이제 새로운 C : 및 D : 드라이브가 있었지만 영리한 미러링 소프트웨어는 그에 속지 않을 것입니다. 소스와 대상에 SCSI ID 번호를 사용했으며 행복하게 1-> 2를 복사했습니다.

Adaptec 감사합니다!

1
Martin Beckett

일주일 내내 거의 모든 사람들이 건물 밖으로 나가서 주말 동안의 전체 백업을 위해 새 테이프를 오토 체인저에로드하기 위해 서버 룸으로갑니다. AC가 너무 차갑다 고 생각하고 전원을 끕니다 (서버 룸은 벽면에 AC가 장착 된 방일뿐입니다. 테이프를 넣고 TBU에서 바코드를 확인한 다음 밖으로 나갑니다.

다음 날 아침에 숙취로 잠이 듭니다 (주말입니다!). 내 전화기를보고 많은 SMS 메시지 "$ server down down")를 봅니다. 다른 하나는 "메인 UPS 추락"입니다.

열쇠를 잡고 사무실로 운전하고 서버 실을 열어 약 60c 정도의 거리에 있으며 모든 장비가 꺼져 있습니다.

UPS와 40+ 서버 및 통신 장비는 물론 AC 작동을 시작하기 전에 몇 개의 팬을 드래그하여 열기를 배출했습니다. 그리고 물론 사무실에서 주말을 보내고 있습니다. 주변 온도가 너무 높으면 모든 것을 멋지게 끌어낼 수있는 스마트 UPS 장치에 대한 모든 신에게 감사합니다. 나는 항상 까마귀를 지키고 AC를 절대로 끄지 않습니다.

1
dyasny

10 년 전 플러스 SOCKS 프록시가 필요한 프로젝트를 진행하고있었습니다. 나는 SOCKS 프록시 외에도 WinGate라는 프로그램을 사용하여 NAT, DHCP 및 기타 다른 기능을 갖춘 멋진 작은 인터넷 게이트웨이 기능을 제공했습니다. 이것은 Windows가 인터넷 연결 공유를하기 전 이었으므로 WinGate를 사용하면 전화 접속 모뎀을 이더넷 네트워크와 공유 할 수 있습니다.

소프트웨어를 설치하고 SOCKS 클라이언트 기능에 대한 작업을 시작했습니다. 그날 나중에 인터넷 연결이 끊어졌습니다. 갑자기, 그것은 막 멈추고 아무도 회사 밖에서 접근 할 수 없었습니다. 우리는 ISP에 전화를 걸었고 모든 연결에 문제가 없었습니다. 라우터가 제대로 작동했습니다. 우리는 단지 무엇이 잘못되었는지 알아낼 수 없었습니다. TCP/IP에 대한 지식이 있었기 때문에 어느 시점에서 경쟁했지만 아무런 진전도 없었습니다.

다음날 우리 IT 담당자는 DHCP 서버가 라우터 주소를 다른 사람의 컴퓨터에 제공했으며 모든 사람이 기본 게이트웨이로이 주소를 사용한다는 것을 알아 냈습니다. 그날 나중에 우리 IT 담당자가 사무실로 들어 와서 "누가 잘못된 IP 주소를 누가 냈는지 알아 냈습니까?" 그는 "그래, 너야!"

WinGate는 기본적으로 DHCP 서버를 실행하도록 설정했으며 이전 주소가 만료 된 첫 번째 클라이언트에 라우터 주소를 제공했습니다. 나는 한동안 꽤 붉은 얼굴이었다.

1
David Smith

어렸을 때 초기에 '도움이 되려고'했으며 128kbit/s 라인을 통해 250MB의 데이터를 동시에 86 개의 다른 사이트에 복사하려고했습니다. -업무 시간 동안. 내가이 일을하는 동안 나는 왜 모든 것이 오래 걸 렸는지 묻는 사람들을 들었습니다.

말할 것도없이, 나는 이적을 죽였고, (운이 좋게도) 그것이 나를 알지 못했다!

1
JFV

우리는 Unix 박스에 고객을위한 턴키 IVR 시스템을 구축했습니다. 한 번 개발자가/devel에 모든 코드를 가지고있었습니다. 그들은 개발 디렉토리와 박스를 제거하고 일요일 오후에 서버를 공항으로 가져 가라고 요청했다 (내 쉬는 날!). 서둘러/dev/*를 삭제했습니다. 즉시 내 실수를보고 잠시 앉아 숙고했습니다. 커널에 시스템 장치에 대한 후크가없는 경우 시스템이 죽을지 확실하지 않으므로 동일한 시스템의/dev 디렉토리를보고 mknod [c | b]를 마이너 마이너스하여 키보드, tty, scsi 드라이브를 복원했습니다. 그런 다음 fd0과 null은 다른 시스템/dev에 플로피를 만들고 나머지를 얻기 위해 로컬로 마운트하고 복사했습니다.

내가 혼자서 떠난 경우 어떻게 될지 여전히 알지 못하지만 재부팅 할 때 불행했을 것입니다. :)

교훈-개발 디렉토리는/devel이라고 할 수 없습니다.

1
schemathings

이것은 내가 uni에서 첫 번째 지원 작업을 시작했을 때 발생했습니다. 고객의 2003 서버에 연결되어 사용자가 연결 문제에 대해 불평 한 후 사용자의 컴퓨터 중 하나에 접속하려고했습니다.

기본적인 문제 해결을 통해 그녀와 대화를 나누고 정적 IP가 있음을 알았으므로 DHCP로 설정하여 대화를 시작했습니다. 어떻게해야하는지 이야기하면서 서버의 LAN 연결 속성을 열었습니다. 그녀가 DHCP로 다시 설정을 시도한 후에도 여전히 고정 IP가 있었으므로 연결을 비활성화하고 다시 활성화하도록 요청했습니다.

이제이 시점까지 실제로 설정을 변경하지 않고 서버에서 그녀에게 말한 모든 작업을 수행했습니다 .LAN 연결을 마우스 오른쪽 버튼으로 클릭하고 비활성화를 클릭 한 다음 계속 진행했습니다.

방금 한 일을 깨닫기 위해 0.5 초 정도 걸렸습니다.

다른 엔지니어가 고객 사이트에서 NIC을 다시 활성화하기 위해 한 시간 동안 운전을 시작하기 전에 나에게 웃기 시작하는 데 10 분이 걸렸을 수 있습니다.

1
Darren Mac

나는 각각 잘 정의 된 개발 및 테스트주기를 가진 많은 데이터베이스 서버를 돌 보곤했습니다. 우리의 역할은 개발자가 제공 한 변경 사항을 테스트 환경의 문서를 사용하여 시작하기 전에 고객 테스트를 위해 고객의 테스트 환경으로 롤오버하는 것이 었습니다. 그 일부로 고객 테스트 환경은 가장 최근의 라이브 환경 백업으로 구축되었습니다.

고객이 변경에 서명 한 후 변경 사항을 실제 환경에 적용하는 프로세스와 함께이 내용이 모두 깔끔하게 문서화되었습니다.

우리는 우리 팀에서 새로운 출발을했으며 그가 몇 달 동안 우리와 함께한 후 우리는 그에게 운명의 밤을 보낼 때까지 여러 번의 변화주기에 앉게했습니다. 고객 테스트는 순조롭게 진행되었으며 고객은 행복하게 변경에 서명했습니다.

새로운 시작은 테스트 환경에 변경 사항을 적용 할 때마다 자신이 한 일을 정확히 수행했으며, 우리가 나머지 문서를 따를 필요가 없음을 확신했습니다. 1 단계, 이전 백업에서 다시 빌드 ...

다음날 아침 고객은 전날의 작업이 누락되었다는 사실을 알게되었으며, 발생한 일을 찾는 데 오랜 시간이 걸리지 않았습니다. 다행히 데이터베이스에 변경 로깅이 활성화되어 모든 활동을 복구 할 수있었습니다. 새로운 시작은 최소한 문서의 가치를 평가하고 앞으로 그것을 따르는 법을 배웠습니다.

1
Cry Havok

나는 지난주에 새로운 좋은 일이 일어났다.

내 직원 중 한 명이 우리가 구축하고있는 테스트 플랫폼을 위해 임시 DNS 서버를 만들도록했으며, DNS 직원에게이 새로운 임시 DNS 서버를 가리 키도록 특정 테스트 도메인을 업데이트하도록 요청했지만이 사람은 테스트 서버가 아닌 라이브 레코드를 업데이트했습니다. .

갑자기이 서버 한 대 (다행히도 새로운 사양이므로 합리적인 사양)는 거의 5m 사용자에 대한 거의 모든 DNS 요청을 제공합니다. 첫날 4 억 건이 요청되었습니다! -운 좋게도 TTL는 24 시간 밖에되지 않아서 대부분 물이 빠졌습니다.

1
Chopper3

완전히 다른 차원이지만 여전히 시스템 관리자 사고입니다.

죄송합니다 : 이것을 얻으려면 이탈리아어 속어를 이해해야합니다. 번역 할 수 없습니다. 마음으로 알아야합니다]

이탈리아 나폴리에있는 Solaris 서버에서 문제를 해결하라는 요청을 받았습니다. 나는 루트 암호가 필요했고 당시에는 이탈리아어를 많이하지 못했습니다. 사람들은 그것이 무엇인지 말 해주길 꺼려했습니다. 마침내 그들 중 하나가 반 속삭였습니다.

- sticazzi

나는 말했다 : Aha, 'sticazzi'. 어떻게 철자를 쓰나요? 그리고 그에게 종이 + 펜을 줬습니다.

1 년 후 나는 M.*o B.* 다시 (안녕!-이 글을 읽는다면). 당시 내 이탈리아어는 훨씬 나았습니다. 나는 그에게 이탈리아 사람을 더 알고 있다고 말했다.

그것은 큰 웃음이었다.

이야기의 교훈은 : 알지 못하는 언어로 루트 암호를 요구할 필요가 있다면, 더 나은 웃음, 얼굴을 붉 히고 동시에 모욕적 인 표정을 갖게되면 말입니다.

1
fredarin

우연히 누군가 'rm -rf /'가 있습니다. 내 마지막 데이터 구조 할당이 있기 2 일 전에 내 디렉토리에서 여분의 파일 중 일부를 삭제하려고했습니다.

전문적으로 나는 지금까지 치명적인 스크류 업을 갖지 못할 정도로 능력이 있습니다.

1
sclarson

이것은 나에게 일어나지 않았지만 정말 좋은 이야기라고 생각합니다.

이 사람들은 내가 알고 있듯이이 회사가 보유한 여러 Informix 데이터베이스에 대한 데이터베이스를 보유하고있는 오래된 Solaris 풀 타워 서버 중 하나와 협력하고있었습니다. 이것은 기본 유틸리티 회사이므로 얼마나 많은 데이터가 의미하는지 상상할 수 있습니다.

서버를 통한 여러 구성이 플로피 디스크에 복사 된 다음 서버에서 서버로 전달되는 지점이있었습니다. 서버로 작업 한 후 플로피 디스크를 꺼내고 다음 디스크로 넘어갑니다.

Sysadmin 그룹의 다른 사람과 함께이 사람은 무작위 구성에 대해 이야기하면서 이러한 구성을 작업하고있었습니다. 그는 자신의 발걸음을 마치고 버튼을 눌러 플로피를 꺼냅니다.

- "잠시만! 버튼을 놓지 마십시오!"

다시 살펴보면, 꺼내기 버튼이 아니라 오류가 발생한 경우 재설정 버튼을 눌렀습니다. 그가이 버튼을 놓은 순간, 회사의 전체 데이터베이스 시스템이 즉시 종료되었습니다. (이 버튼들이 즉각적인 줄 알았는데 ... 이야기가 진행되는 방식입니다.)

따라서 모든 sysadmin은 부서 관리자에게 전화하여 "시스템에서 로그 오프하도록 모든 사람에게 알리십시오"라는 작업을 중지합니다. 이 사람은 손가락으로 서버에 연결된 모든 것을 본다.

1
Alpha

데비안 박스에서 /etc/network/interfaces에 고정 IP 주소를 설정하는 동안 somebody 실수로 IP 주소 라인과 게이트웨이 라인에서 IP 주소를 전환했습니다.

코어 스위치의 IP를 "훔칠"경우 어떤 일이 발생합니까?

1
prestomation

오, 어느 날 우연히 PostgreSQL 데이터베이스를 삭제하고 로그 파일에서 복구했습니다.)

0
maciek

고맙게도 내가 당신과 공유하려고하는 것을 쉽게 회복 할 수있었습니다. 악의에 대해 들었습니다

rm -rf /
델 트리/y/s/b \

내 문제는 내가 이것을 입력하고 그것이 잘못되었다는 것을 알았 기 때문에 백 스페이스 키를 누르 러 갔지만 뚱뚱한 손가락으로 그것을 대신 입력 키를 누르십시오! 내가 한 일을 깨닫는 데 문자 그대로 2 초가 걸렸으므로 ctrl-c를 반복적으로 눌러 작업을 중단하기 시작했습니다. 중단했을 때 파일 시스템의 절반이 사라졌습니다.

구출 백업, 친구들! 재부팅 외에는 다른 다운 타임이 없었습니다. 한 번의 의미에서, 나는 그 날에 큰 백업이 있었기 때문에 그 날 정말 운이 좋았습니다.

0
jftuga

시스템 관리 초기에 소매점에서 재고 처리 (재고 처리)를 수행하는 새로운 방법을 개발했습니다. 나는 랩탑을 많이 가져다가 바코드 스캐너를 연결하고 모든 기사를 종이에 펜으로 작성하여 평소보다 10 배 빠르게 처리했습니다. 또한 Symbol PDT DOS 핸드 헬드 단말기도 구입했습니다. Symbol 터미널의 배터리 수명을 연장하기 위해 자체 배터리 팩과 연결된 전선을 수동으로 만들었습니다. 그날 밤과 다음날 아침에 나는 너무나 자랑 스러웠으며 사무실을 돌아 다니는 공작이 내가 얼마나 똑똑했는지를 자랑스럽게 생각했습니다.

주식과 목록을 계산하고 비교하기 위해 서버에 데이터를 보낼 때 악몽이 시작되었습니다. 여분의 배터리 팩이 장착 된 Symbol 장치 중 하나가 전선 중 하나가 고장 나서 장치가 오랫동안 에너지없이 방치되어 플래시되었습니다.

이제 약 100 명의 고용주가 수행 한 모든 작업이 물에 빠졌습니다. 13 개 또는 15 개 장치의 목적과 장치가없는 경우 해당 장치 목록은 무엇입니까? 누락 된 재고가 무엇인지 어떻게 알 수 있습니까?.

내 재난을 자세히 설명하기 위해 우리는 일년 중 며칠 만 쉬었습니다. 우리가 상점을 닫고 재고를 찍을 때가되었고, 그로 인해 회사에 많은 돈과 노력이 들었습니다.

운 좋게도 그 재심의 우리의 디렉터이자 요리사는 합리적이고 그해 컴퓨터에있을 때 재고 목록을 받아 들였습니다.

그 후에는 작업이 진행되는 동안 항상 두 개의 데이터 복사본을 만들고 인벤토리 프로세스를 마친 직후에는 더 이상 자랑하지 않습니다.

0
adopilot

나는 서버에 호스트 된 30-40 개의 사이트 만 가지고있는 초보자/취향이 적은 sysadmin이므로 그렇게 나쁘지 않았습니다./bin/xxx 디렉토리의 모든 파일에 대한 실행 권한을 제거하고 모두 시작했습니다.

분명한 행동을 취하면서

chmod -R a-x .*

와. bin 디렉토리에서 실행 권한을 제거하면 정리하기가 매우 어렵습니다. 데이터 센터 기술자는 라이브 CD로 부팅하여 수정해야했습니다. 가장 좋은 부분은 그것을 고치는 방법을 안내해야한다는 것입니다. 최악의 부분은 여전히 ​​나를 비웃을만큼 충분히 알고 있다는 것입니다. : P

0
Brandon Wamboldt

인터넷 초기에는 SGI Challenge S 서버에서 모든 것을 실행했습니다. 어느 시점에서, "미술 부서"는 IKON으로부터 데모 렌더링 인쇄 서버를 주문했습니다. 어느 날 아침, 재미있는 연기에 도전하고, 관리자가 서버 룸에 전화를 걸었고, 일상적인 진단을 수행했습니다. 마침내 전원 공급 장치가 있어야한다고 말했습니다. 물론 우리는 여유가 없습니다. 나는 본사로 다시 걸어 들어갔다.-대출자 기계를보고 깨달았다-그것은 또한 SGI이기도하다-그것을 열고, 전원 공급 장치를 풀고, 서버를 재부팅하십시오-빙고! 우리는 하룻밤 동안 여분을 주문하고, 담당자가 데모를 어떻게 좋아하는지 묻기 위해 FedEx가 ​​나타날 때까지 30 분 동안 hummada를 hummada해야합니다. 며칠 만에 일합니다.

0
schemathings

오래 전에 데이터 파티션의 마운트 지점을 변경하기로 결정했습니다. 그래서 새 디렉토리를 만들고/etc/fstab에서 마운트 지점을 변경하고 이전에 마운트 된 디렉토리를 삭제했습니다.

문제는 노틸러스가 나에게 진행률 표시 줄을 표시했을 때 파티션이 여전히 이전 디렉토리에 마운트되었다는 것을 깨달았습니다 (4Kb 삭제의 경우). 고맙게도 큰 피해가 발생하기 전에 취소 할 수 있었지만 파일이 일부 손실되었습니다.

0
Flávio Amieiro

공동 위치에서 유지 관리하는 동안 주 DNS 전원 케이블을 뽑았습니다. 당시 보조 장치를 교체하고 있었고 랙을 닫기 전에 케이블을 잡아 당겼어야합니다. 우리 사이트는 모두 빨리 떨어지기 시작했고 어리석은 것을 다시 연결하기 위해 공동 위치로 돌아 가야했습니다.

0
Snipper

첫 번째 설치 작업 (수년 전, DOS 시대)에서 공공 기관의 이사에 속한 컴퓨터에서 거의 모든 시스템 파일과 절반의 응용 프로그램 파일을 실수로 삭제했습니다. 그러나 그것은 내 잘못이 아니었다. 공간을 확보하기 위해 C :/TEMP 폴더에서 중요하지 않은 파일을 삭제하려고합니다. 잠시 후 삭제가 시작됩니다 ... 잠깐 후 루트와 DOS 폴더에서 친숙한 이름이 화면에 스크롤되는 것을 볼 수 있습니다 ... 단단한 Ctrl + Break ...하지만 너무 늦습니다 ...

FAT 파일 시스템에서 크로스 링크 파일 문제가 무엇인지 배우는 것이 더 어려운 방법이었습니다.

0
miHost

우리는 미네소타 북부에있는 엔지니어들을 위해 냉간 시험 시설을 갖추고 있습니다. 약 10 년 전에 우리가 가지고 있던 T1은 죽었습니다. 우리는 더 빠른 회선을 설치하여 거의 모든 것이 쓸모 없기 때문에 해당 시설에서 주요 데이터 센터로 서버를 이동했습니다. 미네소타 중부의 일부 농부가 농장 장비를 가지고 섬유를 통과했음을 알게됩니다. 우리는 광섬유가 그 장비에 접근 할 수 있고 훨씬 더 깊이 묻히지 않았다는 것에 너무 행복하지 않았습니다 ...

0
squillman

커피 한 잔을 상상해보십시오. 설탕이 담긴 컵입니다. 랙의 수납 식 키보드 트레이에 잘못 놓인 그림. 서버로 가득 찬 랙. 트레이가 어떻게 든 랙에 들어갑니다. 컵이 랙에 들어간 다음 넘어집니다.

그건 내 잘못이었고 그때까지 노련한 관리자 였기 때문에 변명의 여지가 없습니다. 근처에 화장실이 있었고 종이 타월로 대부분의 엉망을 청소할 수있었습니다. 운 좋게도 커피가 서버에 들어 가지 않아서 종료하고 잘 청소했습니다. 400 명의 사용자 만 영향을 받았습니다. 휴!

그런 다음 또 다른 사고가 발생했습니다. 제 친구에게 일어난 일입니다. 그는 지난 10 년 동안 자신의 회사를 설립했습니다. 직원은 ~ 15 명이며 회사의 모든 데이터는이 단일 서버에있었습니다. 여기에는 과거와 현재의 모든 프로젝트, 수많은 코스튬 데이터, 안전을 위해 계약 한 정보, 모든 연락처 정보 등이 포함됩니다. 모두 LUKS로 멋지게 암호화되었습니다. 나는 그를 백업하기 시작하기 위해 오랫동안 그를 괴롭 히고 있었지만 그는 결코하지 않았다. 너무 바빠서 자금이 부족하면 아이디어를 얻습니다. 그는 RAID1이 그를 구할 것이라고 확신했습니다. 그의 마지막 백업은 8 개월이었습니다. 그것도 그의 서버 가동 시간이었습니다. 그는 8 개월 전에 마지막 재부팅 직전에 LUKS 비밀번호를 변경했습니다. 이제 서버를 다시 부팅 한 후 새 비밀번호를 적지 않았 음을 기억하고 기억하지 못했습니다. 그가 기억할 수있는 것은 그것이 매우 길었다는 것입니다. 그리고 몇 가지 단어가 대략 어떤 방식으로 약간의 대문자와 어쩌면 기호로 배열되어있었습니다.

그의 직원들 사이에서 탈선의 정도와 처리를 위해 정보를 다시 보내야하는 의상을 입는 사람들의 분노를 상상할 수 있습니다. 따라서 데이터를 "일시적으로"이용할 수 없었습니다. 간단히 말해, 약 40 시간의 작업, 14 일의 런타임 및 백만 개 이상의 암호를 생성하고 테스트하여 그의 LUKS 암호를 찾기위한 전문화 된 프로그램이 필요했습니다.

0
joechip

몇 년 전 당시의 iSeries 관리자는 IBM iSeries 서버가있는 컴퓨터 실에서 정리 작업을하고있었습니다. 이것은 아침 8시 반 정도였습니다. 그 당시 내가하고 있던 일에 착수하기 시작한 것처럼. 몇 초 후에 전화가 걸려 오기 시작했습니다.

그가 테이블을 움직일 때 전원 코드가 다리를 감싸서 테이블을 움직일 때 나올 정도로 나왔다는 것을 알게되었습니다.

약 2 시간 후 시스템이 전원 차단에서 스스로 복구 된 후 사람들은 다시 작업 할 수있었습니다.

0
Mike Wills

몇 년 전에 약간 혼란 스러웠습니다. 오전 중반에 사용자는 SQL Server 호스팅 앱에 액세스 할 때 잠금과 관련된 많은 오류를보고하기 시작했습니다. 이 앱은 완전히 중단됩니다. 아무도 할 수 없습니다. 문제의 원인을 파악하는 데 시간이 걸리지 않고 긴급 재부팅을 수행하고 모든 것이 다시 작동하기 시작합니다. 그런 다음 다양한 로그를 통해 코인을 시작하여 트리거 된 항목을 확인하고 모든 것이 배가되기 직전에 해당 COMMIT없이 기본 테이블에 대해 열린 명명 된 트랜잭션을 찾습니다.

동료가 기본 테이블의 일부 잘못된 데이터를 수정하기 위해 Query Analyzer에서 일부 SQL을 작성했으며 트랜잭션에 넣었습니다. 그러나 F5를 눌러 실행하는 대신 모든 것을 강조 표시 한 다음 F5를 누르십시오. 그는 quite 모든 것을 강조하지 않았다는 것을 제외하고는 ... 실제로 테이블을 잠그고 트랜잭션을 커밋 한 끝을 놓쳤다.

0
MartW