해당 내용은 Udemy의 Certified Kubernetes Administrator (CKA) with Practice Tests 강의를 공부한 내용입니다. 내용을 그대로 번역하기보다는, 제가 이해하기 쉬운 대로 수정한 부분들이 있습니다.
⚠️ 영어 독해가 많이 부족합니다. 틀린 내용이 있으면 알려주시면 감사하겠습니다.
이번 강의에서는 워커 노드 장애를 해결하는 다양한 방법을 살펴보겠습니다.
Check Node Status
이번에도 클러스터의 노드 상태를 확인하는 것부터 시작합니다.
kubectl get nodes
노드가 모두 Ready로 보이나요, 아니면 NotReady가 보이나요?
NotReady가 있는 경우, kubectl describe node 명령을 사용하여 노드에 대한 세부 정보를 확인합니다.
kubectl describe node worker-1
각 노드에는 노드가 실패한 이유를 알려줄 수 있는 Conditons가 있습니다. Status는 True 또는 False 또는 Unknown으로 설정됩니다. 노드에 디스크 공간이 부족하면 OutOfDisk 플래그가 true로 설정됩니다. 노드에 메모리가 부족하면 MemoryPressure가 true로 설정됩니다. 디스크 용량이 부족하면 DiskPressure 플래그가 true로 설정됩니다. 마찬가지로 프로세스가 너무 많으면 PIDPressure 플래그가 true로 설정됩니다. 마지막으로, 노드 전체가 정상인 경우, Ready 플래그가 true로 설정됩니다. 크래시로 인해 워커 노드가 마스터와의 통신을 중단하면 이러한 상태는 Unknown으로 설정됩니다. 이는 노드의 손실 가능성을 나타냅니다. LastHeartbeatTime 필드를 확인하여 노드가 크래시된 가능성이 있는 시간을 알아보세요.
Check Node
이러한 경우에는 노드 자체의 상태를 확인합니다. 노드가 온라인 상태(?)이거나 크래시된 경우, 크래시가 발생한 경우 노드를 다시 시작합니다. 노드에 가능한 CPU 메모리와 디스크 공간이 있는지 확인합니다.
Check Kubelet Status
kubelet의 상태를 확인합니다. kubelet 로그에서 가능한 문제를 확인합니다. kubelet 인증서를 확인합니다. 만료되지 않았는지, 올바른 그룹에 속해 있는지, 인증서가 올바른 CA에서 발급되었는지 확인합니다.
'MLOps > Doker & Kubernetes' 카테고리의 다른 글
Udemy CKA 강의 정리 267: Mock Exam -2 (0) | 2023.02.02 |
---|---|
Udemy CKA 강의 정리 257: Network Troubleshooting (0) | 2023.02.01 |
Udemy CKA 강의 정리 251: Control Plane Failure (0) | 2023.01.31 |
Udemy CKA 강의 정리 248: Application Failure (0) | 2023.01.30 |
Udemy CKA 강의 정리 247: Download Presentation Deck (0) | 2023.01.28 |
댓글