LLM強化学習（RLHF）対応可能なエンジニアの募集について

投稿日 2026年2月16日
更新日 2026年2月17日
著者 appr20111101lp
カテゴリー Tech

株式会社アプリズムでは、
LLMの振る舞い調整（RLHF：Reinforcement Learning from Human Feedback）に関する案件が立ち上がっており、対応可能なエンジニアを募集しております。

一般的な「生成AI開発」や「ChatGPT API連携」ではなく、
LLMの学習プロセス自体を扱う案件となります。

■ 必須に近い要件
・PyTorchでの学習コード実装経験（Trainer利用ではなく、loss関数や学習ループのカスタム実装経験）
・Transformerモデル（attention / tokenizer / context length）の理解
・PPO（Proximal Policy Optimization）またはpolicy gradient系アルゴリズムの実装経験
・HuggingFace Transformers または TRL を用いたLLMのfine-tuning / RLHF実装経験

■ 可能であれば確認したい内容
・LoRA/PEFTによるLLM微調整経験
・複数GPUでの学習（DeepSpeed / FSDP / DDP いずれか）
・報酬モデル（reward model）の作成、またはランキングデータの学習経験

※「生成AIのアプリ開発経験」のみの方は本案件の対象外となります。

ご経験者の方は是非ともご応募お願い致します。