| 岗位要求 |
1.计算机科学与技术、软件工程等相关专业;2.年龄为1990年1月1日以后出生;3.具备3年以上Linux系统运维经验,有GPU管理、优化经验,有医疗AI项目运维经验者优先;4.精通Linux操作系统,熟悉Shell、Python等至少一种脚本语言,熟练掌握Docker容器技术,有实际的K8s集群部署和运维经验。熟悉常用的监控工具(如Prometheus,Grafana,Zabbix,ELK等),了解数据库(如MySQL,PostgreSQL,MongoDB等)的日常运维;5.了解机器学习/深度学习基本概念,有支持AI模型训练/推理平台运维经验者优先。 |
岗位职责 |
1.基础设施管理:设计、部署、维护用于AI模型训练和推理的高性能计算集群(包括GPU服务器)及存储系统;负责服务器资源的规划、配置、监控和成本优化;管理和维护容器;2.CI/CD与自动化运维:构建和维护CI/CD流水线,实现代码、模型、数据的自动化构建、测试和部署;开发和维护自动化运维工具和脚本,提高运维效率,减少人工干预;3.数据管理与安全:参与医疗数据的存储、备份、恢复策略的设计和实施,确保数据安全和完整性;协助进行数据脱敏、访问控制和审计追踪等安全工作;4.技术支持与协作:为AI研发团队提供日常技术支持,解决基础设施、环境配置、模型部署等相关问题;与研发团队紧密合作,理解其需求,优化研发和实验环境;写和维护运维相关的技术文档;5.性能优化与故障排除:对系统和应用进行性能分析和调优,保障AI研发和运行环境的高效稳定;负责线上系统的故障排查、应急响应和问题根源分析。 |