FuriosaAI

FuriosaAI and OpenAI showcase the future of sustainable enterprise AI. Read the announcement.

Software - Software Engineer (Inference Engine)

Seoul, South Korea (Global Remote Available) (Hybrid)

View other positions

About the job

Software Engineer (Inference Engine)는 FuriosaAI NPU에서 구동되는 대규모 언어모델 및 멀티모달 모델을 위한 고성능 추론 엔진을 개발하고 최적화합니다. 최신 추론 최적화 기술을 선도적으로 연구조사 하여 엔진에 적용하며, 컴파일러팀, 하드웨어팀과 긴밀한 협업을 통해 엔진의 성능을 고도화하는 역할을 수행합니다. 본 직무의 결과물은 FuriosaAI SDK의 핵심 구성요소로서 고객의 AI 서비스 성능과 안정성, 그리고 성공에 직접적인 영향을 미칩니다.

Responsibilities

  • 대규모 언어 모델(LLM) 및 멀티모달 모델을 위한 vLLM·SGLang 수준의 고성능 NPU 기반 추론 엔진을 설계하고 구현
  • 컴파일러 팀과 긴밀히 협력하여 FuriosaAI NPU을 이용한 효율적인 추론 실행을 공동으로 설계 및 최적화하고, 시스템 전반의 처리량, 지연 시간(latency), 메모리 사용률을 개선
  • Speculative Decoding, KV 캐시 관리, 모델 병렬 처리, 메모리 관리, 요청 스케줄링 등 고급 추론 최적화 기술을 NPU 기반 추론 엔진에 통합하고 적용
  • 최신 추론 최적화 기술 동향과 LLM 서빙 프레임워크의 핵심 기능을 선제적으로 연구 및 평가하여 추론 엔진에 구현

Minimum Qualifications

  • 컴퓨터 과학, 공학 또는 관련 분야 학사 학위 또는 그에 준하는 실무 경력
  • Rust 또는 C++ 프로그래밍 언어에 대한 높은 숙련도
  • 딥러닝, LLM, 또는 생성형 AI 모델에 대한 지식과 열정
  • 뛰어난 문제 해결 및 데이터 분석 능력
  • 원활한 커뮤니케이션 및 협업 능력

Preferred Qualifications

  • 배칭, 스케줄링, 캐싱, 로드 밸런싱 등을 포함한 대규모 모델 추론 서빙 시스템 구축 경험
  • 시스템 성능 최적화에 대한 깊은 이해
  • C++/CUDA 또는 Triton 커널 개발 경험
  • vLLM, SGLang, TensorRT-LLM 등 오픈소스 추론 프레임워크에 대한 기여 경험

Contact