募集職種詳細

研究開発

2266 Site Reliability Engineer (Machine Learning Platform)【グローバルイノベーション/デジタルテクノロジー開発研究所】

職務内容
【事業・組織構成の概要】
私たちは、国内企業で最大規模となる580PFLOPS(FP16)のAIスパコンを開発・運用を行っている、世界でも有数のAIプラットフォームエンジニアのグループです。概要はプレスリリースを参照頂ければと思います。

NEC、国内企業で最大規模となるAI研究用スーパーコンピュータの構築を開始〜社会価値を共創するAI研究のセンター・オブ・エクセレンスへ〜

刺激的な先端技術の開発に取り組み、新しい問題の探求をしつつも、結果を重視したプロジェクトの計画と実行のバランスを取りながら、世界最高峰の技術開発を行っています。世界で最高のモノづくりにこだわり、世界で最高のものを作り、社会にイノベーションを起こしたい方を募集しています。

NECでは、AIの研究を全研究所で行っており、既にNECの数百名のAI研究者がAIスパコンの利用を開始しています。生体認証・画像認識・データ分析・言語・ロボット制御等、多種多様な分野でAIの研究開発を行っており、事業の応用分野も多岐に及んでいます。AIスパコンは、NECの全てのAI研究を支える重要なシステムであり、NECのAIの研究開発全体を強化するべくAIスパコンの開発・運用を共に行い、世界トップを目指して勝負して頂ける方を求めています。


【職務内容】
最新のハイエンドGPU928基を備える国内企業で最大規模のAIスーパーコンピューターを開発・運用を共に行って頂くSite Reliability Engineer (Machine Learning Plaftorm) を数名募集します。スケーラブルかつ洗練されたGPUサーバーを用いた世界有数のAIスパコンを開発・運用し、AIの技術開発に革新をおこしたい方を募集しています。NECのAI研究用スーパーコンピュータについては、以下をご覧ください。

社会価値の創造を加速するNECのAIスーパーコンピュータ
NEC、国内企業で最大規模となるAI研究用スーパーコンピュータの構築を開始

以下のように、コンピューターアーキテクチャ・ソフトウェアアーキテクチャに精通し、世界に誇れるAIスパコンを共に開発・運用して頂ける方を求めています。
・世界最高のプラットフォームを作るための情熱および技術への愛情を持ち合わせ、国内で最大のAIスーパーコンピューターの開発・運用を推進すること
・AI(深層学習・機械学習)の可能性を信じ、技術が描き出す未来を信じ、未来を切り開くこと
・謙虚に学び、チームとして解決策を模索し、素早いフィードバックサイクルを学ぶことで、優れたソフトウェアをチームで開発できること
・傾聴力と共感力を備えており、機械学習の研究者とのコラボレーションを行いながら技術要件へと落とし込み、プラットフォームを設計・開発すること
・ソフトウェアの設計と実行、機能を超えた仲間との明確なコミュニケーション能力、技術的なリーダーとしての役割を果たすこと
・ソフトウェア開発におけるコードの価値を信じ、優れたコードを書くこと
・ソフトウェア開発のプロフェッショナルとして、堅牢なインターフェースを書き、設計原則を考慮したうえで、クリーンなテストを書くこと
・プロジェクトを成功に導き、継続的に動作するソフトウェアを迅速かつ確実に生み出すこと


【ポジションのアピールポイント・想定キャリアパス等】
・世界の先端のAI技術開発に携わることができ、AIが紡ぎだす未来を自らの手で作れます。
・現代のAIの技術開発には高度な分散システムが必要であり、先端のSW/HWに精通できます。
・AI/HPC/分散システムのスペシャリストとしてのキャリアパスを想定しています。 
応募資格
【MUST】
下記を全て満たすこと。
・ 5年以上のソフトウェア開発・運用の実務経験
・ Kubernetesの利用経験。特にCRI、CNI、CSIについては深い理解があることが望ましいです。

【WANT】
・運用監視ツールの開発経験(Prometheus、Ganglia等)
・認証・認可への基本的な理解
・CI/CD(Anbile、Jenkins等)の開発経験
・コンピュータサイエンス/機械学習の修士号、または博士号、または同等の実務経験がある方
・大規模な分散システムの設計・開発経験
・英語の技術文書が読めること
・複数のGPUサーバーを用いた分散学習プラットフォームの開発・運用経験
・大規模サイトなどでのSREとしての経験、ベアメタルサーバーでの作業経験があれば尚良いです。
・コンピュータアーキテクチャに精通しており、アーキテクチャに基づき性能ボトルネックを推測できること(各種HWのアーキテクチャ・スペック、各種インターコネクトの仕様)
・Kubenetesの拡張を開発したことのある経験。特に、ジョブスケジューラ、Admission Webhook、Controller、Operator等の拡張を開発できることが望ましいです。
・数PB規模の分散ファイルシステム(Lustre等)を用いたストレージの開発・運用の実績。
・スケーラブルなLDAPサーバーの構築・運用経験
・各種の学習フレームワークへの理解(PyTorch、TensorFlow等)
・GPU関連処理技術への理解(CUDA、NCCL、MPI等)
・分散学習における各種手法への理解
・ Go言語での開発経験

【求める人物像(ソフトスキル)】
・新しいテクノロジースタック群を追い続けられるだけの強い技術への好奇心を持っている方
・コンピュータサイエンスに精通し、細部にこだわりを持ちプロとしての仕事ができる方
・高い自主性を持ち、プロジェクトをともに推進して頂ける方
待遇
【採用形態・ランク】
・正社員を想定
・エキスパート(課長相当)を想定

【想定報酬】
・年収900万 〜 1100万円程度
 月給50万〜65万円程度(月額基本給 50万〜65万円程度を含む)
 ※前職年収を考慮、当社規定による
勤務地
神奈川県川崎市(中央研究所)

職種一覧に戻る

関連タグ
関連職種
ピックアップ