Twelve Labs
Research Internship 2024

Research Internship 2024

Full-time · Seoul, South Korea

Job description

[회사 소개] 트웰브랩스(Twelve Labs)는 영상이해 인프라 기반의 B2B 영상검색, 분류, 요약 등의 영상이해 API 플랫폼을 제공하는 AI 기술 스타트업입니다. 현재 미국 내 여러 다양한 기업에 대규모 영상 DB 내에서 이용자가 원하는 장면을 빠르고 정교하게 찾아주는 영상검색 API 를 제공하고 있습니다. Index Ventures, Radical Ventures 등으로부터 1,700만 달러 규모의 시드 투자유치, 최근 엔비디아, 인텔 등으로부터 1,000만 달러 규모의 전략적 투자 유치까지 총 2,700만 달러(약 360억 원) 규모의 투자를 유치했습니다. 또한 오라클(Oracle Cloud Infrastructure)과 전략적 파트너십 체결을 통해 다년 간 활용 가능한 수 천 대의 A100 및 H100 GPU로 구성된 대규모 클러스터를 확보했습니다. 현재 트웰브랩스는 영상이해에 특화된 수십억 파라미터 규모의 초대형 파운데이션 모델의 상용화를 위한 학습 및 배포에 박차를 가하고 있습니다.

[Internship Details] • 팀 / 포지션: ML Modeling Team / Research Intern • 근무기간: 6개월 (입사일 추후 협의) • 근무 형태: Full-time (On-site 근무 기반, 월-금 10am-7pm) • 근무 장소: 서울시 용산구 이태원로27길 39-11, 2층 • 채용 절차: P&C Meeting > 1차 기술과제 > 2차 직무역량 인터뷰 > Reference Check > 최종 합격 • 제출 서류: 자유 양식의 상세 경력 및 아래 사전질문 답변, Github 등을 포함한 CV (하나의 PDF 파일 권장) (파일명 예시: 김OO_Research Intern_CV.pdf)

[필수 사전질문] (각 질문에 대하여 2-3줄 정도로 간략하게 기재해 주시면 됩니다.) • 트웰브랩스 합류에 있어서 지원자분께서 가장 기대하고 계신 부분과 우려되는 부분이 있다면 무엇인가요? • 지원자분께서 갖고 계신 지식과 역량, 종전의 경험 등이 트웰브랩스에 어떤 기여를 할 수 있다고 생각하시나요? • 현재 시점에서 생각하고 계신 향후 커리어 패스 또는 커리어 골(Goal)은 무엇인가요? • 지원자분의 회사 선택의 기준(우선순위대로 3가지)과 일에서의 동기부여는 무엇인가요?

[Why we're hiring for this role] 트웰브랩스 ML Research Scientists 들과 직접 협업하며 Cutting-edge Video Foundation Model 및 Video Language Foundation Model 개발을 함께 하실 리서치 인턴을 찾습니다. 리서치 인턴으로 합류하시면 데이터 처리, 모델 학습 방법론, 아키텍처 설계 등 연구 과정의 다양한 방면에 참여하시게 됩니다. 또한 팀에서 이전에 연구했던 가설을 더 발전시키거나 프로젝트의 필요에 따라 새롭고 독립적인 가설을 검증하는 업무를 맡게 되실 수도 있습니다.

[Twelve Labs’ Product Vision] 저희는 Foundation Model을 기반으로 모든 개발자가 Video Understanding API를 사용하는 것을 목표로 하고 있습니다. 트웰브랩스의 API는 개발자의 역량을 강화하고, 그들의 제품이 고객에게 놀라운 비디오 경험을 제공할 수 있도록 지원합니다. 트웰브랩스의 총체적인 기술은 인류가 복잡한 비디오 데이터와 상호작용하는 방식을 변화시키는 새로운 텍스트 기반의 인터페이스입니다.

[Related work] • Masked Autoencoders As Spatiotemporal Learners: https://arxiv.org/pdf/2205.09113.pdf • Unmasked Teacher: Towards Training-Efficient Video Foundation Models • TubeViT: Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning • Flamingo: a Visual Language Model for Few-Shot Learning: https://arxiv.org/pdf/2204.14198.pdf • LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning): https://arxiv.org/pdf/2304.08485.pdf • InternVideo: General Video Foundation Models via Generative and Discriminative Learning: https://arxiv.org/pdf/2212.03191.pdf

[In this role, you will] • Video Foundation Model 혹은 Video Language Foundation Model에 기여하기 위해 필요한 AI 연구 프로젝트에 참여, 가설 검증 및 연구 개발 • Model Training에 필요한 데이터 수집 및 Annotation 전략 설계 및 논의 • 진행 중인 프로젝트에 대해 프로젝트 리드를 포함하여 팀원들과 함께 정기적으로 소통하며 피드백 제공

[You should have] • Python 및 PyTorch 에 익숙하신 분 • Video Representation Learning, Large Language Model, Large Vision Language Model, Video Understanding, Action Recognition 혹은 유사한 분야에서의 연구 경험 및 관심사를 가지신 분 • 본인의 직무에 대하여 자부심을 갖고 책임감 있게 능동적으로 업무를 수행하시는 분 • 프로젝트 리드 및 다른 연구자와 효과적으로 작업할 수 있는 커뮤니케이션 기타 협업 역량이 있으신 분

[It’d be great if you also have] • 제품에 적용되거나 연구가치(오픈 소스 포함)가 있는 Real-world 딥러닝 프로젝트 경험이 있으신 분 • 탑티어 AI 컨퍼런스 (NeurIPS, ICML, ICLR, AAAI, NAACL, ACL, EMNLP, CVPR, ICCV, ECCV, KDD, SIGGRAPH 등)에서 Computer Vision, Video Understanding, Language Model, Vision Language Model 등 연구 출판 기록이 있으신 분 • 탑티어 AI 컨퍼런스 챌린지, Kaggle 대회, 국내/외 AI 대회에서 상위권 입상 경험 있으신 분 • AI, ML 혹은 이와 유사한 분야에서 석사과정 혹은 박사과정 1년차 이상의 분 • 원활한 영어 작문 및 커뮤니케이션 역량을 보유하신 분

Org chart

Manager

Minjoon Seo

Chief Scientist

Peers

Jenny Jayoung Ahn

Head Of People And Culture, APAC

RaeHyuk Jung

ML Research Scientist

Hyeongmin Lee

ML Research Scientist

View in org chart

Open roles at Twelve Labs

Software Engineer, Lead Frontend

Engineering · San Francisco, United States

Software Engineer, Infrastructure (cloud)

Engineering · San Francisco, United States

Operations Manager

Operations · Seoul, South Korea

The Org
helps you hire
great candidates

It takes less than ten minutes to set up your company page.
It’s free to use - try it out today.