Match score not available

Site Reliability Engineer

unlimited holidays
Remote: 
Hybrid
Contract: 
Work from: 
Seoul (KR)

Offer summary

Qualifications:

Understanding of Linux and Networking., Experience with AWS and cloud environments., Proficient in Python or Golang programming., Familiarity with container technologies..

Key responsabilities:

  • Build and maintain high-availability systems infrastructure.
  • Respond to service outages and conduct root cause analysis.
Tinder logo
Tinder Information Technology & Services SME https://www.lifeattinder.com/
201 - 500 Employees
See more Tinder offers

Job description

[Platform Department 소개]

Hyperconnect Platform Department는 SRE팀, DevOps팀, Platform개발팀, Data Engineering팀 구성원들이 모여 Azar, 신규 프로덕트 등 전사 모든 서비스에 인프라와 공통 플랫폼 기술을 제공하여 비즈니스 임팩트를 만들고 있습니다. 또한, 기술 silo화를 방지하고 전사적으로 훌륭한 엔지니어링 문화를 만들어가는데 기여하고 있습니다.


Platform Department에서는 이렇게 일하고 있습니다.

- 개발팀에서 필요한 인프라를 단순히 생성하는 것이 아니라, 비즈니스 요구사항과 기술적인 요구사항을 모두 포괄하여 알맞은 시스템 설계를 제공하고 있습니다. 이 과정에서 전사 개발팀 뿐만 아니라 필요 시 다른 직군의 이해관계자와 질의 응답을 진행하는 전반적인 process를 리딩하고 있습니다.
- 기술적 지표, 로그 및 소스코드 등 다양한 정보를 스스로 탐색하여, 개발팀 또는 SRE/DevOps팀의 사각지대에 위치한 문제를 찾아 정의해내고 해결하고 있습니다.
- 기본적인 설계 방법 및 모범 사례에 대한 문서를 작성하여, 개발팀이나 다른 SRE/DevOps팀 동료가 스스로 문제를 해결 할 수 있도록 돕고 있습니다.
- 현재 기술 스택에 안주하지 않고, 문제를 더 잘 해결 할 수 있는 새로운 기술을 탐구하여 적극적으로 도입하고 있습니다.


SRE Team 소개

SRE팀은 하이퍼커넥트에서 개발되는 모든 서비스를 안정적으로 유지함으로써 사용자들이 하이퍼커넥트가 제공하는 특별한 경험을 불편 없이 즐길 수 있도록 하는 것을 목표로 하고 있습니다.
- 장애 대응, 사후 분석, 예방 활동, 장애 대응 메뉴얼 개선의 활동을 전사적인 관점에서 관리하고, 서비스가 안정적으로 제공될 수 있도록 하는 모든 활동을 수행합니다.
- 개발팀의 어려움을 다양한 경로를 통해 수집하고, 비즈니스 미션을 함께 달성할 수 있도록 적극적으로 지원합니다.
- 시스템 가용성, 신뢰성, 확장성과 관련된 다양한 지표들을 분석하고 모니터링하며 서비스팀과 함께 이를 점진적으로 개선해나갑니다.
- 개발자들이 Devops/SRE가 제공하는 시스템을 잘 사용할 수 있도록 적극적인 교육과 가이드를 제공합니다.
- 모든 개발자들이 두려움 없이 배포할 수 있도록 지원하며 이를 위한 다양한 플랫폼을 DevOps팀과 함께 관리하고 개선합니다.


팀에 합류하신다면,

- AWS, K8S, Service mesh 등 현대화된 컴퓨팅 및 네트워크 인프라를 모든 서비스와 시스템에 적극적으로 사용하고 경험해볼 수 있습니다.
- 단순한 인프라 관리 및 프로비저닝 지원 수준을 넘어서, 백엔드 엔지니어링에 깊게 기여 할 수 있습니다.
- 실시간성이 요구되는 비즈니스 특성 상 고성능 / 저지연 시스템에 대한 깊은 고민을 함께 해볼 수 있습니다.
- 글로벌 환경에서의 대규모 인프라, multi-products, B2B와 B2C를 아우르는 복잡한 production 환경을 관리하기 위한 다양한 know-how와 best practice들을 경험할 수 있습니다.


HyperLink 세션에서 SRE팀이 어떻게 일하고, 어떤 문제를 해결하는지 살펴보세요!



[업무 내용]

Public 클라우드 환경에서의 고가용성 시스템 인프라 구축 및 운영
- AWS로 구성된 클라우드 환경에서 서버 시스템의 인프라를 구축하고 운영합니다.
- 클라우드 제공자가 제공하는 콘솔에서 작업하는 것보다는 코드로서 관리하는 것을 선호하기 때문에 Terraform, Helm, ArgoCD 등을 사용하고 있으며, 애플리케이션 배포는 Spinnaker 기반 IDP(internal developer platform)을 통해 Kubernetes 기반의 컨테이너 환경에 배포하고 있습니다.

시스템/애플리케이션 로깅, 모니터링 및 자동화
- 안정적인 로깅과 모니터링은 서비스 안정성의 필수요소입니다. Zabbix와 Prometheus를 통해 최대한 모니터링을 자동화하여 사람의 개입 없이도 인프라 리소스를 auto-discovery하고 적절한 알람이 설정되도록 아름답게 시스템을 구성합니다.
- OpenTelemetry와 Elasticsearch를 적극적으로 사용하여 300+개의 마이크로서비스의 애플리케이션 모니터링을 수행하고 있습니다.
- 이 과정에서 자동화 도구가 필요하다면 자체적으로도 개발하고 사내에 공유하고 있습니다.
- 또한 Grafana Mimir를 활용하여 엔터프라이즈 규모의 시계열 메트릭 관리 및 수집을 안정적으로 수행하고 있습니다.

서비스 장애 대응 및 포스트모텀 문화 리딩
- 서비스 개발팀과 함께 장애 발생 시 적절한 조치를 취하고, 그에 대한 근본적인 원인 분석을 수행하여 재발을 방지하는 전략을 함께 계획하고 수행합니다.
- 또한, 이러한 모든 활동이 전사적으로 잘 수행될 수 있도록 다양한 프로세스와 도구를 개발하고 운영하며, 이를 지속적으로 개선하고 발전시켜 나가고 있습니다.

SLO/SLI 기반 서비스 개선 포인트 및 문제점 발굴, 최적화
- 서비스 운영 중 발생하는 문제점을 지속적으로 모니터링하고, 서비스의 성능, 안정성, 확장성 등 다양한 측면에서 개선할 수 있는 포인트나 문제점을 파악하고 개선하는 작업을 수행하고 있습니다.
- 특히, 하이퍼커넥트에서 가장 중요한 저지연/고성능의 코어 시스템과 글로벌 미디어 시스템에 주요하게 기여하고 있습니다.
- 이러한 개선 작업에는 클라우드 인프라, CDN/Network, Application 최적화, 신규 솔루션 도입 등 다양한 기술 영역을 포괄하고 있습니다.

신기술 PoC 및 프로덕션 적용 
- 신뢰성 향상을 위한 다양한 도구들을 새로 개발하거나 연구하여 실제 운영 환경에 적용하고 있습니다. 새로 개발되는 도구를 개발환경에 적극적으로 적용하고 장점과 단점에 대해 의논하며, 철저한 검증을 통해 안정성을 유지하면서 운영 환경에 적용합니다.



Requirements
  • Linux 및 Network를 중심으로 하는 CS 전반에 대한 이해가 있으신 분
  • Container 기술 전반에 대한 이해가 있으신 분
  • Python, Golang 등 프로그래밍 언어를 사용한 기본적인 개발이 가능한 분
  • AWS 등 public cloud 환경에서 Linux 계열 서버 관련 실무 경험이 있으신 분
  • 다양한 조직과 협업에 필요한 뛰어난 커뮤니케이션 스킬과 문서 정리 능력을 갖추신 분
  • 서비스에서 발생하는 다양한 문제점을 인지하고, 주도적으로 해결책을 제시하는 분
  • 기술 트렌드를 따라, 새로운 기술을 학습하는 것에 즐거움을 느끼시는 분



  • Preferred Qualifications
  • Kubernetes에 대한 기본적인 이해 및 실무 경험
  • Infrastructure-as-a-Code 도구 사용 경험 및 실무 경험
  • Java/Kotlin, Spring Framework 관련 문제 해결 경험
  • 실시간 시스템/확장성이 높은 시스템을 운영해본 경험
  • 프로덕션 환경에서 발생하는 다양한 장애에 대한 트러블슈팅 경험



  • How We Work
  • 정의되지 않은 과제를 정의하고 스스로 해결책을 찾아 해결할 수 있습니다.
  • 팀 단위 프로젝트를 성공적으로 리딩할 수 있으며, 팀간 협업을 이끌고 다른 기능의 직군 파트너와 협업을 할 수 있습니다.
  • 팀 안팎으로 커뮤니케이션하며 내 메시지를 청자에 맞추어 적절한 수준에서 명확하고 간결하게 제시할 수 있습니다.
  • 팀간의 협업을 돕고 결과를 만들어낼 수 있도록 지원합니다.
  • 프로젝트의 결과물을 팀 목표와 align할 수 있습니다.



  • 고용형태/채용절차
  • 고용 형태: 정규직
  • 채용 절차: 서류전형 > Technical Competency Test > Recruiter Call > 1차 면접 > 2차 면접 > 3차면접(해당 시) > 최종합격 (* 필요시 면접 전형 등이 추가로 진행될 수 있습니다.)
  • 서류 전형의 경우 합격자에 한하여 개별 안내드릴 예정입니다.
  • 지원 서류: 자유 양식의 상세 경력기반 국문 또는 영문이력서(PDF)



  • 기타
  • 하이퍼커넥트는 증명사진, 주민등록번호, 가족관계, 혼인여부 등 채용과 관계없는 개인정보를 요구하지 않습니다.
  • 수습기간 중 급여 등 처우에 차등이 없습니다.
  • 제출해 주신 내용 중 허위 사실이 있을 경우 채용이 취소될 수 있습니다.
  • 관련법 상 근로제공에 결격사유가 있는 경우 채용이 취소될 수 있으며, 필요 시 사전에 안내된 채용 절차 외에도 추가 전형 및 서류 확인이 진행될 수 있습니다.
  • 필요 시 지원자의 동의 하에 평판조회 절차가 진행될 수 있으며, 평판조회 결과에 따라 채용이 취소될 수 있습니다.
  • 이 포지션은 산업기능요원 보충역 편입/전직, 전문연구요원 현역 전직, 전문연구요원 보충역 편입/전직 채용이 가능합니다. 병역특례요원의 경우, 병역특례 관련법에 따라 복무관리를 진행합니다. (*전문연구요원 현역 신규편입 현재 마감되었습니다)


  • 하이퍼커넥트가 채용하는 포지션에 지원하는 경우, 개인정보 처리에 관하여서는 본 개인정보처리방침이 적용됩니다: https://career.hyperconnect.com/privacy


    #HPCNT

    Required profile

    Experience

    Industry :
    Information Technology & Services
    Spoken language(s):
    Nepali
    Check out the description to know which languages are mandatory.

    Other Skills

    • Teamwork
    • Communication
    • Problem Solving

    Site Reliability Engineer (SRE) Related jobs