AI算力与大模型软件深度融合技术,将开悟多模态大模型与中台软件与AI算力硬件进行深度适配,进行大模型算力性能优化,实现注意力机制的高效计算,有效降低大模型训练和推理的计算复杂度和资源消耗,提供更高的大模型推理性能;通过AI算力良好调度和优化,实现更好的算力利用效率。
基于AI算力与大模型软件深度融合技术,公司的开悟云边端AI一体机将AI算力和大模型软件融为一体,高效实现大模型部署和交付,满足用户开箱即用的需求,实现AI算力和大模型应用的一站式交付。
大模型训练推理平台技术,可以支持各种不同阶段的大模型训练,包括预训练、监督微调训练、奖励模型训练及强化模型训练,以及便捷化的推理部署。大模型训练推理平台技术实现了对自由文本、标签化数据及排序类数据等多种类型数据的高效治理,广泛支持业界主流架构基础模型,可以对训练算力集群进行灵活调度,进行有效的分布式训练管理,实时检测模型训练性能表现,并实现训练成果的一键优化推理部署。
大模型推理增强技术,运用标量字符检索及语义向量检索技术对大模型的信息源进行增强,高效利用客户私有化知识和实时开放的世界知识进行有效融合,消除大模型在处理知识类业务场景下的事实性和实时性方面缺陷,有效控制大模型幻觉问题,实现大模型推理输出内容的可控和可信,满足高精确性、高准确度、高可行度、高事实性的大模型应用场景。
大模型性能实时监控技术,结合公司实时数据监控和智能分析算法,持续跟踪大模型的多方面性能指标,其中包括响应速度、准确性和资源使用等多种指标。通过大模型性能实时监控技术,系统实时发现性能下降等各方面系统级异常情况,确保了大模型的全时高效运行。同时,大模型性能实时监控技术也为大模型及大模型应用的持续优化提供全面的数据支持,支持大模型及大模型应用的持续迭代优化。
大模型服务快速部署技术,通过自动化的部署流程和云计算资源的灵活调度,实现了大模型从开发环境到生产环境的快速迁移和服务上线。该项技术支持多种部署环境,包括私有云、公有云、混合云和边缘计算设备等多种运行环境,确保大模型及应用服务能够在多环境中平稳运行。大模型服务快速部署技术显著缩短大模型及应用服务的上线时间,有效提升业务系统部署运维效率。
多模态内容生成技术,以Transformer架构和Diffusion架构为基础,利用多领域的文字、图片、视频、音频等多模态数据进行训练,通过低秩适配、控制网络等技术形成具有应用特点的多模态插件模型,实现可控多模态引导生成,支持丰富的文生图、文生视频、图生图、图生视频等多种跨模态的内容生成能力,实现高效、准确、创新地完成智能化内容生产和创作。
基于先进的人工智能技术,知识模型融合的错敏文本识别技术综合运用知识规则模型、统计语言模型与深度学习模型,构建全方位的智能化错敏文本分析体系。利用AC自动机等技术进行多模式文本匹配,以适应特定的监管规则。利用Fasttext等技术进行快速文本篇章段落级分类,实现异常内容检测。采用N-Gram统计语言模型结合知识图谱进行词语提取,实现领域高频词与新词持续发现。利用大规模预训练深度语言模型及字音字形混淆集生成策略,结合政务、法律、金融等领域真实数据进行微调,实现高精度实体识别、错别字定位纠正。
高性能音视频内容分析与理解技术基于深度卷积神经网络与Transformer等先进的图像、视频、音频内容提取与理解技术,形成了图像分类、目标检测、图像分割、目标识别、视频分类、行为识别、语音识别、情感识别等核心技术模块。依托丰富的政务业务场景,构建了持续更新的政务领域音视频数据库,保障了算法的不断进步和应用的实战效果。典型应用包括图像文本识别、人物形象识别、违规图像与音视频监测等内容安全服务。
垂直领域智能语义分析与检索技术基于计算语言学及认知语言学等学科理论,利用机器学习技术将词汇、句子、段落、篇章等不同语言单位进行多层次解析,形成适合计算处理的语义结构。在具体的语义检索场景中,通过语义索引构建和查询语义分析技术,让计算机从语义层面理解用户的检索意图,并利用概念间的关系和推理规则进行辅助检索,从根本上解决了传统基于文本匹配的检索中经常出现的查不全、找不准、排不前等问题。在专利审查、文件比对等垂直应用领域,相对于传统布尔检索,语义分析与检索技术可极大提高检索覆盖度和精准性。
混合模态检索可适应文本、图像、语音、视频等多种不同模态交叉混合的索引与查询方式,充分利用多种模态之间的相关性和互补性,从而学习到更加精确和鲁棒的特征表示。在混合模态检索推理过程中,借助训练得到的特征表达模型对各模态非结构化数据进行抽象,形成多维结构化向量,基于高效的索引结构和乘积量化技术,实现快速准确的召回,赋能图文搜索、智能问答等多种业务场景。
虚拟数字人重建、驱动与交互技术基于人脸图像、视频数据,通过人脸检测、人脸关键点检测、人脸分割等技术,结合通用的人脸三维模型,实现特定对象的虚拟数字人人脸三维模型重建生成。基于自然语音或合成语音驱动,结合三维人脸网格,通过深度神经网络拟合语音特征与融合变形参数关系,实现高同步、高写实的三维虚拟数字人人脸序列动画。利用基于政务、能源、金融等领域知识图谱,并结合语音识别、数字人驱动、图形渲染等技术,实现虚拟数字人在特定领域的交互问答与业务处理。
虚拟电厂调度指令分解控制技术以虚拟电厂参与电力交易服务的各类数据为基础,构建利润计算模型;研究售电/购电量价、储能充放、风光出力、可控分布电源出力、柔性负荷控制等相关关系和约束影响,综合运用机器学习技术进行滚动/周期数据预测,结合运筹优化技术构建以效益最大化为目标的控制策略,从而实现交易过程中量价上报方案最优及聚合资源调度综合效益最优,实现虚拟电厂及所聚合资源的多方共赢。基于本地的低时延状态数据,综合评估资产运行风险,对前置控制单元接收的调度指令进行安全校验和分散控制,精准执行调度指令,在满足各被聚合资产约束条件前提下,实现调度指令的安全、稳定、准确执行。
电力市场交易策略预测技术能够预测各类设备的功率曲线和需求,会同虚拟电厂参与的交易品种价格,作为交易策略优化模型的输入,准确评估虚拟电厂调节能力,基于虚拟电厂相关交易品种要求报价报量参与出清,通过非线性问题求解,设计最佳平衡收益与风险的报量报价策略,实现虚拟电厂收益最大化。
综合能源分布式负荷预测技术能够基于基础负荷数据(包括电、热、气负荷历史数据、电价、气价以及气象条件温湿度等数据),构建基于数据驱动的综合能源系统离线计算-在线预测框架,通过离线计算挖掘负荷特性,实现对电、热、气负荷的精细化建模;通过离线计算与在线预测相结合,实现综合能源系统负荷预测的精确性和时效性的统一;通过构建综合能源系统负荷预测误差模型对负荷预测结果进行修正,提高综合能源系统负荷预测精度,有利于综合能源系统安全可靠运行。
海量资源汇聚分析技术具备海量分布式资源汇聚能力,深入分析资源运行特性,考虑不同资源的协同和互补特性,合理规划聚合集群,夯实虚拟电厂实现多业务目标基础,对各类聚合资源进行等值建模,计及各种能源设备运行约束条件,考虑不同资源的协同和互补特性,合理规划聚合集群,实现多设备各自调节能力空间、调节成本在内的多场景等值计算。
海量大数据处理技术采用分布式架构,支持线性实时横向扩展,解决数据量和计算性能等系统瓶颈问题,能够最大限度地汇总和利用数据。对于可能的单点都进行了双活冗余的设计,达到了真正的高可用;防止单台宕机影响整个平台,满足系统平稳运行需求;支持PB级数据秒级处理效率,图数据库支持对超10记录的大数据表检查,单机环境下在半小时内完成对大图(3,000万个节点、10亿条边)的加载,单机环境下在1秒之内完成大图(3,000万个节点、10亿条边)k-NN两步域查询。
大数据数据质量管控技术能够固化数据管理流程及管理成果,完成数据资产的全过程线上运营管控,支持多源数据接入并可灵活扩展,一站式监控各类数据资源,及时发现异动并实时告警,解决集约治理瓶颈问题;能够准确定位问题数据,做到动态可溯源,并自动调度,执行问题消缺处理,解决原来人工、线下、不及时处理异常问题的弊端;提供灵活的规则自定义分类和配置,可根据业务需求设定规则稽核频度,解决人工规则配置和校验导致效率低下的问题;全面监测数据资源状态情况、掌握数据问题明细、跟踪问题发展趋势、分析数据共享态势。建立了数据质量问题工单机制,根据问题自动分类生成工单,自动触发工单流转,从而实现数据质量在线稽核、通知、整改、反馈、监察的闭环管理。
探索式实现数据分析技术预置多种多维数据模型和机器学习算法,如广义线性建模(线性回归,逻辑回归等),朴素贝叶斯,主成分分析,k均值聚类和word2vec等。同时,还提供分布式随机森林,梯度提升和深度学习等高级算法。另外,通过堆栈集成方法,可实现使用堆栈过程找到预测算法集合的最佳组合。全面支持Echarts、D3等图形化框架,快速适应复杂业务环境。支持多种可视化呈现方式,满足不同业务场景需要。提供灵活的拖拽式在线可视化设计工具,所见即所得。
大规模高速度多形态数据采集技术采用基于深度学习的链接自动分类技术、基于网页节点间互信息的页面内容智能抽取技术、动态网页自动解析渲染技术、海量链接实时消重和分发技术、动态分治分布式数据采集集群技术等,构建了大规模高速度多形态数据采集平台技术体系。可以有效适应数量巨大、形态多样、更新频繁的网站及新媒体采集场景,解决其中的异构动态数据源采集的技术复杂性、大规模网页高频采集的实时性和大规模分布式采集调度的扩展性等问题。
批量与流式数据实时分析处理技术全面集成各种异构数据源,实现各类数据的实时汇聚、处理与分析。采用先进的实时数据分析处理技术,将实时数据处理与实时数据分析融合,实现数据处理与分析一体化;将批量数据分析与流式数据分析融合,实现流批分析一体化。构建新一代实时数据分析处理引擎,利用复杂事件处理与机器学习能力,在实时异构数据汇聚、清洗和转换,实时数据入库和实时数据分析与统计,复杂事件检测和提取等方面为各类客户的大数据业务提供全业务场景支撑。
数字内容资产全生命周期管理技术对结构化及非结构化数字资源进行重定义,通过元数据链接、知识图谱等基础技术,重新定义、盘点和规划数据,形成数据资产。提供全局统一的数字内容资产管理门户,将富含业务知识的分析模型、内容报表、内容主题、内容集合等逻辑资源封装为数据产品。以高效、安全的内容数据服务方式,构建主题明确、服务完善、流程清晰的数字内容生命周期管理体系。在创建、存储、分发、运营和检索富媒体以及管理数字权利和权限的业务流程中,通过优质的内容体验赋能客户数字化和智能化业务场景。