Full-time · Seoul, South Korea
[회사 소개] 트웰브랩스(Twelve Labs)는 영상이해 인프라 기반의 B2B 영상검색, 분류, 요약 등의 영상이해 API 플랫폼을 제공하는 AI 기술 스타트업입니다. 현재 미국 내 여러 다양한 기업에 대규모 영상 DB 내에서 이용자가 원하는 장면을 빠르고 정교하게 찾아주는 영상검색 API 를 제공하고 있습니다. Index Ventures, Radical Ventures 등으로부터 1,700만 달러 규모의 시드 투자유치, 최근 엔비디아, 인텔 등으로부터 1,000만 달러 규모의 전략적 투자 유치까지 총 2,700만 달러(약 360억 원) 규모의 투자를 유치했습니다. 또한 오라클(Oracle Cloud Infrastructure)과 전략적 파트너십 체결을 통해 다년 간 활용 가능한 수 천 대의 A100 및 H100 GPU로 구성된 대규모 클러스터를 확보했습니다. 현재 트웰브랩스는 영상이해에 특화된 수십억 파라미터 규모의 초대형 파운데이션 모델의 상용화를 위한 학습 및 배포에 박차를 가하고 있습니다.
[Internship Details] • 팀 / 포지션: ML Modeling Team / Research Intern • 근무기간: 6개월 (입사일 추후 협의) • 근무 형태: Full-time (On-site 근무 기반, 월-금 10am-7pm) • 근무 장소: 서울시 용산구 이태원로27길 39-11, 2층 • 채용 절차: P&C Meeting > 1차 기술과제 > 2차 직무역량 인터뷰 > Reference Check > 최종 합격 • 제출 서류: 자유 양식의 상세 경력 및 아래 사전질문 답변, Github 등을 포함한 CV (하나의 PDF 파일 권장) (파일명 예시: 김OO_Research Intern_CV.pdf)
[필수 사전질문] (각 질문에 대하여 2-3줄 정도로 간략하게 기재해 주시면 됩니다.) • 트웰브랩스 합류에 있어서 지원자분께서 가장 기대하고 계신 부분과 우려되는 부분이 있다면 무엇인가요? • 지원자분께서 갖고 계신 지식과 역량, 종전의 경험 등이 트웰브랩스에 어떤 기여를 할 수 있다고 생각하시나요? • 현재 시점에서 생각하고 계신 향후 커리어 패스 또는 커리어 골(Goal)은 무엇인가요? • 지원자분의 회사 선택의 기준(우선순위대로 3가지)과 일에서의 동기부여는 무엇인가요?
[Why we're hiring for this role] 트웰브랩스 ML Research Scientists 들과 직접 협업하며 Cutting-edge Video Foundation Model 및 Video Language Foundation Model 개발을 함께 하실 리서치 인턴을 찾습니다. 리서치 인턴으로 합류하시면 데이터 처리, 모델 학습 방법론, 아키텍처 설계 등 연구 과정의 다양한 방면에 참여하시게 됩니다. 또한 팀에서 이전에 연구했던 가설을 더 발전시키거나 프로젝트의 필요에 따라 새롭고 독립적인 가설을 검증하는 업무를 맡게 되실 수도 있습니다.
[Twelve Labs’ Product Vision] 저희는 Foundation Model을 기반으로 모든 개발자가 Video Understanding API를 사용하는 것을 목표로 하고 있습니다. 트웰브랩스의 API는 개발자의 역량을 강화하고, 그들의 제품이 고객에게 놀라운 비디오 경험을 제공할 수 있도록 지원합니다. 트웰브랩스의 총체적인 기술은 인류가 복잡한 비디오 데이터와 상호작용하는 방식을 변화시키는 새로운 텍스트 기반의 인터페이스입니다.
[Related work] • Masked Autoencoders As Spatiotemporal Learners: https://arxiv.org/pdf/2205.09113.pdf • Unmasked Teacher: Towards Training-Efficient Video Foundation Models • TubeViT: Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning • Flamingo: a Visual Language Model for Few-Shot Learning: https://arxiv.org/pdf/2204.14198.pdf • LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning): https://arxiv.org/pdf/2304.08485.pdf • InternVideo: General Video Foundation Models via Generative and Discriminative Learning: https://arxiv.org/pdf/2212.03191.pdf
[In this role, you will] • Video Foundation Model 혹은 Video Language Foundation Model에 기여하기 위해 필요한 AI 연구 프로젝트에 참여, 가설 검증 및 연구 개발 • Model Training에 필요한 데이터 수집 및 Annotation 전략 설계 및 논의 • 진행 중인 프로젝트에 대해 프로젝트 리드를 포함하여 팀원들과 함께 정기적으로 소통하며 피드백 제공
[You should have] • Python 및 PyTorch 에 익숙하신 분 • Video Representation Learning, Large Language Model, Large Vision Language Model, Video Understanding, Action Recognition 혹은 유사한 분야에서의 연구 경험 및 관심사를 가지신 분 • 본인의 직무에 대하여 자부심을 갖고 책임감 있게 능동적으로 업무를 수행하시는 분 • 프로젝트 리드 및 다른 연구자와 효과적으로 작업할 수 있는 커뮤니케이션 기타 협업 역량이 있으신 분
[It’d be great if you also have] • 제품에 적용되거나 연구가치(오픈 소스 포함)가 있는 Real-world 딥러닝 프로젝트 경험이 있으신 분 • 탑티어 AI 컨퍼런스 (NeurIPS, ICML, ICLR, AAAI, NAACL, ACL, EMNLP, CVPR, ICCV, ECCV, KDD, SIGGRAPH 등)에서 Computer Vision, Video Understanding, Language Model, Vision Language Model 등 연구 출판 기록이 있으신 분 • 탑티어 AI 컨퍼런스 챌린지, Kaggle 대회, 국내/외 AI 대회에서 상위권 입상 경험 있으신 분 • AI, ML 혹은 이와 유사한 분야에서 석사과정 혹은 박사과정 1년차 이상의 분 • 원활한 영어 작문 및 커뮤니케이션 역량을 보유하신 분
Open roles at Twelve Labs