产品简介
什么是天羽蜂泛在计算平台
天羽蜂泛在计算平台是基于去中心化分布式异构计算技术将“云、边、端”泛在算力通过软件定义的网络构建成的一体化计算平台。该平台提供了应用部署及管理接口、集群管理接口、任务部署及监控接口,简化了基于泛在计算的开发与运维难度,帮助用户定义标准化的业务流程。
为什么选择天羽蜂泛在计算平台
适配各种异构硬件
- 分布式异构硬件自主加速:在不同的异构硬件(GPU、FPGA、NPU等)上实现分布式的异构计算,消除了异构计算集群开发的技术壁垒。
- 最大化资源利用率:在满足延时性的基础上,多模型并发增加了数据吞吐量,从而达到最高100%的硬件资源利用率。
人工智能模型推理
- 异构并发:异构硬件上并发执行多个模型。
- 预加载:系统能根据模型的运行频率精确地装载即将运行的模型或是卸载暂不运行的模型,提升终端设备的利用率。
- 动态融合:灵活连接多个模型并动态匹配输入和输出,形成模型推理流水线,满足同时处理多个人工智能模型推理的需求,适配不同使用场景。
- 标准化的部署流程:平台提供统一的系统接口并支持主流的人工智能框架,帮助团队制定标准化的部署流程。
- 交互与协同:不同种类的模型可在终端硬件设备上实现共享、交互与协同以满足不同类型的开发测试等需求。
- 多模式数据:满足不同的场景需求,支持不同模式的数据推理,包括实时数据、批量数据、流式数据和流水线融合数据。
集群运维
无需手动维护集群节点,降低运维成本。(待开放接口)
减碳节能
云-边-端的融合统一,打破了服务器对算力供给的垄断又为云服务去中心化赋能。 使用PUE值接近于1的宽温终端设备来代替算力供给,在同等算力供给下,可减碳节能近3/4。
产品架构
系统运行环境
操作系统:主流Linux(CentOS, Ubuntu, Debain, Redhat, Fedora)及支持标准POSIX标准接口的操作系统
硬件环境:内存 >500MB,CPU >1core, ARM/x86
产品优势
- 统一的开发环境 在统一的开发环境下支持创建批量数据或流式数据的流水线,并对流水线进行规划,开发,测试,部署和监控。同时,也支持多数据流水线的融合。
- 简化系统运维和开发 支持无服务器技术消除系统工程的运维成本,让团队专注于业务开发,而不必管理集群服务器。
- 自动的分布式异构硬件加速 可以在不同的异构硬件(GPU、FPGA、ASIC等)上实现分布式的异构计算,消除了异构计算集群开发的技术门槛。
- 最大化的硬件利用率 可在系统上实多模型并发,在满足延时性的基础上,增加吞吐量和利用率以最大化节约成本。
- 标准化的分布式人工智能推理 支持主流的人工智能框架,通过统一的系统接口,提供标准化的部署流程。
- 多模型的人工智能交互与协同 不同种类的模型可在边缘计算硬件设备上实现共享、交互与协同以满足不同类型的需求。
- 多模式数据下的人工智能推理 支持不同模式数据的人工智能推理,包括实时数据、批量数据、流式数据和流水线融合数据。
应用场景
大规模城市级摄像头的智能分析
挑战
以城市级摄像头应用方案的技术实现方式为例,按照现有的方案中的摄像头铺设达到100%的规模后,大量的视频数据将回传到指挥中心进行分析和处理,这需要数千台GPU服务器进行分析,会新增数千万或者上亿元的能耗和宽带传输成本。
解决方案
将终端设备安装在现场并将设备连接起来形成算力网络,利用算力网络调度其他终端设备的闲置算力资源,实现对摄像头采集数据实时的智能分析,将大幅降低能耗及宽带成本。在同等算力条件下,6000个终端设备相比1000台服务器每年将能节约10,000,000千瓦的电费。
无线电传感器
挑战
为了扩大无线电监测范围,无线电行业开始采用低成本的传感器部署在道路侧的路灯上来接收无线电信号,随着部署规模的扩大,传感器采集到的无线电数据由于带宽限制大部分数据在传输途中已丢失,失去了监测的意义。
解决方案
采用终端设备组成的算力网络在无线电传感器产生数据的终端上进行实时计算,根据不同的时间地点产生的数据量或任务需求的算力不同,可以调度周围的终端设备算力来参与并完成实时的计算任务。
智慧煤矿
挑战
在矿井下的极端环境中,服务器的架设成本极高带宽传输速度有限,运行人工智能模型对环境进行实时检测和分析从而调节设备的作业异常难实现。
解决方案
连接数百个安装在井内的终端设备形成动态自组网来参与计算,根据环境变化来动态地调节支撑在煤矿隧道里的数百根机械支柱的高度从而进行连续的挖煤作业,与此同时通过动态调度终端设备的闲置算力来对矿井内安装的摄像头的视频图像进行智能分析,实现指挥采矿机的作业路线及其他作业流程。
产品功能
任务服务
功能模块 | 功能描述 |
---|---|
任务服务 | 可以灵活地新建和编辑数据处理流水线。同一任务下可创建多个子任务,然后进行分布式流式/批量数据处理。提供了CPU和GPU两种芯片类型的选择,CPU注重于对数据的处理,而GPU则更注重于人工智能模型的推理,让端侧设备具备分布式数据处理和分布式人工智能推理能力。实现对任务运行状态的实时监控。 |
应用服务
功能模块 | 功能描述 |
---|---|
应用管理 | 监控已安装或已部署应用的运行状态及对该应用删除,应用启动之后便可以获取并展示出对应任务推理出来的结果。 |
集群服务
功能模块 | 功能描述 |
---|---|
集群管理 | 可以根据需求使用匹配的计算节点来新建和编辑集群,实现对各集群的运行状态和资源利用率的监控,以及对该集群所部署的任务信息进行查看。 |
节点详情 | 实现对每一个计算节点的状态以及资源利用率的实时监控。 |
系统环境 | 显示系统的运行环境。 |
仓库
功能模块 | 功能描述 |
---|---|
应用仓库 | 支持将第三方代码仓库中的应用代码下载到本地仓库中进行管理和安装。 |
算法模型仓库 | 支持将第三方代码仓库中的算法和和AI模型下载到本地仓库进行管理和部署。 |
环境仓库 | 开发中 |
组件版本
天羽蜂泛在计算平台 | 平台后端 | Musys系统 | OS |
---|---|---|---|
1.1.0 | 1.1.0 | 1.1.0 | Ubuntu 18.04.4LTS |
插件支持N/A
限制说明
集群在创建或运行后将会被限制某些操作,建议您在使用之前,提前认真阅读并了解以下使用限制与说明。
集群状态限制
集群状态 | 操作限制 |
---|---|
创建中 | 不允许进行任何操作,仅支持点击查看 |
运行中 | 允许任何操作 |
关闭中 | 不允许进行任何操作,仅支持点击查看 |
已关闭 | 只允许查看、启动、删除 |
启动中 | 不允许进行任何操作,仅支持点击查看 |
删除中 | 不允许进行任何操作,仅支持点击查看 |
更新中 | 不允许进行任何操作,仅支持点击查看 |
异常 | 不允许进行任何操作,仅支持点击查看 |
欠费 | 只允许查看、续费、删除 |
服务&应用&任务状态限制
服务状态 | 操作限制 |
---|---|
运行中 | 允许任何操作 |
已停止 | 只允许查看、启动、删除 |
更新中 | 不允许进行任何操作,仅支持点击查看 |
部分异常 | 允许任何操作 |
基本概念
本文为您介绍使用天羽蜂泛在计算平台过程中遇到的常用名词的基本概念和简要描述,以便于您更好地理解天羽蜂泛在计算平台产品。
集群(Cluster)
集群指数据处理及分析所需要的资源组合,主要关联了若干终端节点,实现了分布式网络架构;亦可关联服务器节点等算力资源,分类纳入分布式网络架构,以满足负载均衡或专有网络等需求。
天羽蜂泛在计算平台支持完全管控集群,可对集群进行更细粒度的监控,根据场景规划集群规模,只需要具备简单的运维能力便可操作。
节点(Node)
节点是组成集群的基本元素,可以为虚拟机或物理机。天羽蜂泛在计算平台主要包含以下节点类型:
- 监控节点(Provision Node):天羽蜂泛在计算平台会运行在某个监控节点(Provision Node)上,专门用于对系统功能的调用以及系统运行的监控,并不会参与应用与任务的数据处理,所以监控节点不会被添加到任何集群内部。
- 工作节点(Worker):集群中承担工作负载的节点,可以是虚拟机也可以是物理机。工作节点承担实际的资源调度以及与节点间的通信等。
任务(Task)
任务是指将分布式系统中异构硬件进行池化,来运行异构计算的流水线任务。
仓库(Storage)
主要分为应用仓库算法模型仓库以及环境仓库。通过创建应用或模型与第三方代码库中的项目生成虚拟链接,点击安装可直接下载并部署相关代码。
服务及应用(Service)
应用及服务是运行在监控节点上的应用程序。每一个应用及服务后面都有一个或多个对应的任务来提供支持。
集群监控指标
监控项 | 指标含义 |
---|---|
CPU | 统计CPU 的使用率 |
GPU | 统计GPU的使用率 |
内存 | 统计内存的使用率 |
硬盘 | 统计硬盘的使用率 |
节点监控指标
监控项 | 指标含义 |
---|---|
valid | 可用 |
joining | 正在加入集群 |
invalid | 不可用 |
leaving | 正在离开集群 |
exited | 已经离开集群 |
down | 宕机 |
名词中英对照
中文 | 英文 |
---|---|
天羽蜂泛在计算平台 | UCP |
集群 | Cluster |
节点 | Node |
任务 | Task |
仓库 | Storage |
服务及应用 | Service & Application |
节点端口 | Port |
弹性伸缩 | Elastical Scale |
接入地址 | EndPoint |