FLEXY by PKSHA FLEXY by PKSHA

無料登録
株式会社サーキュレーション

募集中 【Python/Kubernetes】AIインフラでのLLM性能評価・最適化の開発支援(フルリモート)

社名:非公開

職種:その他エンジニア
稼働日数:週4〜5日新日本橋
報酬:〜128万円/月

業務内容 ・最新のOSS LLM / Local LLM を複数ベンダーのAI半導体(NVIDIA Blackwell、AMD、Cerebras、SambaNova等)上で動作させ、学習・推論性能の評価・ベンチマーク設計
・vLLM / SGLang など商用規模の推論フレームワークの動向把握と、スループット・レイテンシを最大化するためのチューニング
・GPUスケジューリング技術や、LLM評価指標の検討・実装など、実運用を見据えたインフラ・基盤技術の研究開発
・社内R&Dチームとの連携を通じた、当該企業コンテンツへのフィードバックとプロダクト反映
・開発知見のOSS公開、各半導体ベンダーとの技術ディスカッション、技術記事執筆や登壇

■募集背景
AI時代の安全な情報インフラを目指す事業において、NVIDIA、AMD、Cerebras等の最新AI半導体上でOSS LLM/Local LLMを動作させ、そのポテンシャルを最大限に引き出すための性能評価・ベンチマーク設計・最適化を担うエンジニアを募集します。

■その他歓迎スキル
・LLMの評価指標設計(品質評価・安全性評価)や、NIST 等の標準化動向への興味・知識
・OSSプロジェクトへのコントリビューション経験(Issue / PR / 自作ライブラリの公開など)
・英語での技術文書の読解や、海外ベンダーとのコミュニケーション経験
勤務地

新日本橋

必須要件 ・PyTorch を用いたモデル学習・推論パイプラインの構築・運用経験
・LLM もしくは大規模モデル(Vision/言語問わず)の学習または推論基盤の開発・運用経験
・GPU を用いた高速化(CUDA / ROCm / cuDNN など)に関する基礎知識
・Kubernetes 等を用いたコンテナベースの分散実行環境の利用・運用経験
・Linux 環境での開発スキル(シェル、基本的なオペレーション、リソースモニタリングなど)
・ベンチマーク結果やログを元に、ボトルネックを特定し改善方針を立てられる分析力
・技術的な議論を日本語で行えるコミュニケーション能力
歓迎要件 ・vLLM / SGLang / TensorRT-LLM など、LLM向け推論フレームワークの実運用・チューニング経験
・GPUクラスタ上での大規模学習・分散学習(Data Parallel / Model Parallel / Pipeline Parallelなど)の設計・運用経験
・CUDA等を用いた低レイヤーでの性能最適化経験、あるいはC++による高パフォーマンスな実装経験
・AIアクセラレータ(TPU, IPU, 専用AIチップなど)におけるモデル移植・ベンチマーク経験
など

担当者コメント

・NVIDIA最新世代GPUやCerebras等の最先端AI半導体・多様な計算資源にアクセスできる稀有な環境
・国家レベルの研究開発プロジェクト(NEDOポスト5G事業等)に参画できる
・LLMの実運用に直結するベンチマークや評価指標を自ら設計し、業界へ発信できる

コーディネーターがさらにご希望や状況に合った案件をお探しすることも可能です。お気軽にお問い合わせください。

PICK UP

LANGUAGE

FRAMEWORK

CLOUD

OCCUPATION