AI服务器管理软件系统(清采比选20252134号)采购公告
招标
发布时间:
2025-11-12
发布于
北京海淀
收藏
公告内容
项目编号
立即查看
项目预算
立即查看
采购单位
立即查看
供应商
立即查看
采购代理
立即查看
公告详情
您当前为:【游客状态】,公告详情仅对登录用户开放,
登录/注册
后查看完整商机。全国免费咨询热线:400-888-7022

AI服务器管理软件系统(清采比选20252134号)采购公告

发布时间:*开通会员可解锁* 21:12:33

项目信息

采购项目名称:AI服务器管理软件系统

采购项目编号:清采比选20252134号

公告开始时间:*开通会员可解锁* 21:12:32

公告截止时间:*开通会员可解锁* 22:00:00

对外联系人:

联系电话:

签约时间要求:成交后3个工作日内 (如不按时签订合同,采购单位有权取消或变更采购结果)

交货时间要求:签订合同后3个工作日内

采购单位:清华大学

最高限价:

国内合同付款方式:货到付款100%

交货地址:北京市清华大学

供应商特殊资质要求:

物资名称:AI服务器管理软件系统

采购数量:1.0

计量单位:台

质保期:36个月

技术参数及配置要求

1.多架构支持:支持x86、ARM、GPU和Power等混合架构调度管理; 2.支持通过web界面统一管理系统用户。支持与LDAP、AD域用户或者统一身份认证集成,支持用户组织架构管理和用户审批;支持二级管理员功能,可以对学院/部门内的用户进行管理;可以查看作业情况、计费和报表等功能; 3.提供完善的权限分级功能,支持基于角色的访问控制(RBAC)机制,实现用户权限的精细化配置与安全隔离。支持自定义角色的新增、编辑及删除,管理员可在权限配置界面中分配角色对应的功能模块和资源访问范围,实现灵活授权。 4.支持部门/项目/用户维度的资源使用限制,包括CPU核心数、GPU卡数、内存使用量、作业数量等,支持用户存储使用量限额配置,支持的文件系统包含NFS、Lustre、GPFS、BeeGFS、OceanStor、NextData等; 5.可监控当前集群整体使用情况,包括CPU使用率、GPU使用率、内存使用率、磁盘剩余量、网络流量和负载等,支持对单机基本信息和使用情况进行监控,包括对CPU型号、核心数、主频、睿频和峰值计算能力、单精度/双精度浮点计算能力进行监控,支持磁盘和主机能耗监控,可实时查看GPU的温度、使用率、已用显存、处理器频率和读写带宽等性能指标 6.支持镜像管理,可拉取云端镜像,支持本地镜像上传,提供容器镜像隔离能力,支持为不同用户分配相应的访问权限,实现用户组间权限隔离,支持为用户自定义镜像安装代码开发环境依赖包; 7.支持短信和邮件方式的系统报警功能,支持服务器的网络通信异常、机柜、机箱、系统服务和进程状态告警,支持智能配电柜、UPS、环境空调、列间空调、烟感水浸告警、可设置CPU使用率、GPU使用率、内存使用率、负载、磁盘容量等信息的普通告警和紧急告警阈值,支持告警的处理操作; 8.采用主流的作业调度软件,支持Slurm、PBS、SGE和LSF调度器,支持常用高性能计算软件的应用模板,与第三方科学工程软件集成,可通过拖拽式编辑方式,生成个性化应用模板,应用模板中应包含应用提交、作业列表、作业操作、应用终端输出显示、作业提交目录数据查询、应用交互页面显示、应用运行占用CPU/内存等信息查看; 9.支持队列管理功能,可通过可视化界面对调度系统的队列进行统一管理。管理员可在页面上完成队列的新增、编辑、删除及查看操作,能展示队列名称、状态、CPU/GPU 总数、默认队列标识、用户组及限制策略等关键信息,并支持按名称搜索。可设置队列优先级、默认队列、共享状态、状态(UP、DOWN、DRAIN、INACTIVE)、运行时间限制及节点范围等参数,实现多队列资源的灵活调度与精细化控制。 10.支持WEB界面的作业提交、查询、终止、挂起、释放、设置最大运行时长和调整优先级等操作,可以根据作业ID,作业名,用户名,状态等查看作业记录。 11.支持作业运行实时监控与性能分析,实现了对作业运行全周期的资源使用情况进行细致追踪。在作业执行期间,系统能够实时捕捉并展示CPU、内存等关键资源的使用情况,当检测到资源使用率低于设置阈值时,将触发告警机制,确保管理员和用户及时获知潜在的性能瓶颈。作业完成后,系统则自动收集并分析执行数据,生成性能曲线,帮助开发者和管理员识别并优化性能问题,从而不断提升作业的执行效率与系统稳定性。 12.支持监控多个许可证服务器,可以查看许可证服务器的状态(Down、UP)、过期时间、feature的总数量、使用数量、故障率。可以按License Server 、Vendor、License Feature、License Total Count、License Expire Date、License Usage Count、License UT等信息进行筛选。 13.支持不同架构GPU/NPU等多种异构算力设备完成模型训练,支持按任务配置训练资源; 支持PyTorch、TensorFlow、MindSpore、PaddlePaddle等国内外主流AI框架; 可通过在线Notebook、VS Code进行代码开发、训练、评估; 14.支持VS Code、PyCharm等开发IDE通过SSH信息或密钥方式访问代码开发环境,方便开发者进行远程调试; 15.模型开发过程可视化查看,支持集成使用第三方工具链,包括TensorBoard、MindInsight等; 16.平台支持conda,可在代码开发中按需选择并激活进入conda虚拟环境,进行模型开发/训练; 17.支持创建推理服务,可配置GPU/NPU、CPU等不同算力创建推理任务,提供在线预测服务,支持用户进行在线预测; 18.提供推理服务接口调用指南,展示推理服务的API接口地址、模型信息、输入参数、输出参数等信息,用户可以通过复制API接口地址,调用中心推理服务;支持API鉴权,包括API Key和AK/SK两种方式; 19.提供图形交互式作业模式,用户可以在计算过程中看到软件运行界面,可以修改作业参数,运行中的图形作业可以上传/下载数据; 20.文件管理器可以关联应用软件,通过关联的应用软件直接打开文件进行后处理操作; 21.招标人的每个作业都需要提供运行特征文件,记录硬件配置、应用软件以及运行时长,当作业运行异常是可以随时调用查看; 22.支持多学科仿真优化(MDO),MDO用于平衡冲突性能需求、实现设计目标最优解。它能在短时间内调用大量计算资源,通过响应面分析识别关键参数,经多轮调整应对复杂研发约束。 23.针对CAE仿真数据量大、查看后处理结果耗资源且效率低的问题,我们集成了轻量化解决方案。平台搭载3DLite基于网页的轻量化工具,实现对3D数据和仿真结果的在线查看与后处理。通过数据压缩与Web端运行,用户可随时随地便捷访问,有效支撑在线协同。 24. 供应商具有算力服务相关的资源调度、性 能监控、算力服务平台发明专利或软件著作权,未提供视为无效报价 25.供应商具有信息系统安全等级保护备案证明(云服务平台相关,等级3级及以上) 信息系统安全等级保护备案证明(云服务运营管理系统相关,等级3级及以上),同时需具备:ISO9001质量管理体系认证;ISO27001信息安全管理体系认证;ISO27017云服务信息安全管理体系认证;ISO14001环境管理体系认证;增值电信经营许可证(互联网数据中心业务),未提供视为无效报价 26.供应商必须是高新技术企业;北京市“专精特新”企业;北京市“小巨人”企业

潜在客户预测
点击查看详情>
合作机会