核心功能

⚙️

算力切分与算力池化

在计算颗粒度层面,平台的多种能力有效保证隔离性和安全性,轻松应对不同颗粒度的算力资源需求。

  • 显卡多实例运行:提升单个GPU的利用效率
  • 显卡直通技术:确保高性能计算任务的无缝对接
  • 多节点并行计算:将算力扩展至前所未有的高度,满足大规模计算需求
📊

数据平台

提供统一的、多元的数据存储、数据管理、弹性伸缩的存储服务,通过容器环境自动挂载存储目录。

  • 无缝集成,自动为用户提供公共存储服务,提供共享数据控制、租户级隔离、并行读写控制、SFTP支持等能力
  • 提供直观易用的可视化页面,用户可在线申请与查看、页面上传下载,轻松管理资源
  • 支持按需扩容缩容,用户可根据业务需求灵活调整存储容量,无需担心存储空间不足或资源浪费的问题
🔄

模型训推全生命周期

提供从模型开发、模型训练、模型部署、模型推理到模型优化等一系列工作的全生命周期支持。

开发环境服务

在线秒级创建开发环境,可按CPU核心、内存、GPU型号、数量、系统盘等创建开发机,支持无卡开机、在线开发与定时释放等资源回收策略。

分布式训练服务

用户可启动训练任务、微调服务进行模型的调整以增加更多精细业务场景的训练,支持多模态训练、预训练DLC、SFT精调等。

模型效果评估

根据测试数据集测试大模型的表现、效率和适用性,可根据性能指标、泛化能力、推理速度和延迟、资源消耗、可解释性、可扩展性、模型大小、数据依赖性等方面进行评估。

在线推理

支持一键部署与私有模型灵活部署,提供实例全生命周期管理、弹性扩容缩容及日志检索查询。

模型优化

提供专业的模型调优服务,通过模型评估机制,帮助用户科学对比模型效果,确保模型选择与业务需求的精准匹配。同时,不断探索推理加速技术,致力于在保持模型精度的同时,大幅提升推理速度。

📡

智能监控与故障自愈

基于PowerVerse Infra的监控管理服务,提供可视化的监控数据、可配置的告警服务、自动化的故障处理,简化运维,实现服务运维智能化。

智能监控与多维度资源可视化

通过统一运维管理平台,对计算、存储、网络等资源进行规范化可视化管理,支持节点/GPU/容器多维度及NVLink、TensorCore监控。

告警配置与通知

支持自定义告警规则,触发后通过webhook、邮件等渠道向指定接收人发送告警通知。

故障检测与修复

自动检测硬件、软件或资源瓶颈等故障,通过故障隔离、任务迁移与重试、节点重启或下线维修等自愈机制保障业务连续。

🌐

边缘计算

提供边缘计算能力,构建一个高度可扩展、开放且智能的云边协同基础设施平台,精准击破边缘计算场景下的多重难题,实现边缘计算与AI场景化应用的深度融合。

  • 提供从账户创建到资源申请、一键开通与自动释放的全流程自助服务,支持共享按任务计费或专属按配置计费。
  • 多租户资源与业务隔离,子账号与精细化权限管理,确保各租户互不干扰。
  • 可视化页面提供枚举、线性、阶梯等灵活定价策略,满足不同成本偏好与使用场景。
  • 全生命周期客户管理,覆盖注册、认证、充值、消费,支撑精准营销与个性化服务。

核心特性

算力池化

灵活的算力切分与池化管理,支持公共和专属算力池

模型训推

完整的AI模型开发、训练、部署、推理全生命周期支持

智能监控

自动化故障检测与自愈机制,保障服务稳定运行

数据平台

统一的数据存储与管理服务,支持弹性伸缩