株式会社アプリズムでは、
LLMの振る舞い調整(RLHF:Reinforcement Learning from Human Feedback)に関する案件が立ち上がっており、対応可能なエンジニアを募集しております。
一般的な「生成AI開発」や「ChatGPT API連携」ではなく、
LLMの学習プロセス自体を扱う案件となります。
■ 必須に近い要件
・PyTorchでの学習コード実装経験(Trainer利用ではなく、loss関数や学習ループのカスタム実装経験)
・Transformerモデル(attention / tokenizer / context length)の理解
・PPO(Proximal Policy Optimization)またはpolicy gradient系アルゴリズムの実装経験
・HuggingFace Transformers または TRL を用いたLLMのfine-tuning / RLHF実装経験
■ 可能であれば確認したい内容
・LoRA/PEFTによるLLM微調整経験
・複数GPUでの学習(DeepSpeed / FSDP / DDP いずれか)
・報酬モデル(reward model)の作成、またはランキングデータの学習経験
※「生成AIのアプリ開発経験」のみの方は本案件の対象外となります。
ご経験者の方は是非ともご応募お願い致します。
