数据膨胀时代计算技术的变革在哪里科技汇聚动

本站原创 2024-03-11 17:32:00

随着计算能力和技术的发展，基于大数据和人工智能技术融合的数据智能逐渐在商业环境中落地。为了应对复杂、大规模的实施问题，业界不断引入从底层存储到上层算法的新技术。

在此背景下，6月28日，DeepTech与迪普科技联合发起“技术聚势，数据为先”线上技术研讨会，就大数据背后的多重技术应用进行深入探讨，旨在弥合产业界与学术界的差距。障碍。

点击图片观看活动回顾视频

出席会议的嘉宾包括5名高校专家和2名迪普科技的专家代表。

迪普科技产品管理部总经理在交流会上表示：从行业角度来看，企业的数据量不断增加，未来会有更多的PB级数据存储需求等待解决。同时，让数据流动起来，为业务运营各个阶段提供决策帮助也至关重要。

如何收集、管理和使用数据？未来AI技术的热点研究方向有哪些？这次技术研讨会可以带来一些新的答案。

数据库的未来

1、数据库和大数据技术取得长足进步。海量、多模式数据的存储和处理是否存在融合趋势？

（北京航空航天大学软件学院教授级高级工程师）：

我认为数据库和大数据不必在技术上整合。

虽然从大的背景来看，整个计算机学科正在走向融合，包括通信网络、软件和硬件的融合，但从信息哲学的角度来看，这都是为了追求结构的紧密耦合和高性能。

但数据库和大数据技术面向的是海量多模式、更复杂的场景。更困难的是从非结构化到结构化的过程。构建是目的。有些非结构化维度非常高，需要对其进行抽象和降维非常困难，所以现阶段仍然使用元数据映射来表达从非结构化到结构化的处理。

另一方面，从非结构化到结构化的过程也是对数据进行分类的读、写和重组的过程。这两种业务技术交替发展，波涛汹涌，互为基础。

20世纪60年代，IBM首先提出了一种结构化的方式来表达人类对信息的管理和组织。 2000年后，互联网快速发展，Google开始推广NoSQL，使用键值对来表达非结构化数据。两者互相学习，交替发展，都存在瓶颈。

我个人认为没有必要收敛。不同的技术路线需要与业务场景相关。目前人类还无法将大量的场景串起来形成一条业务场景线。当前，大数据和不同场景的数据库正在快速发展。

2、企业成长过程中，会出现数据烟囱问题。不同的业务系统需要选择不同的数据库和分析平台。有没有统一的机会？

（西安电子科技大学计算机科学与技术学院副教授）：

在 20 世纪 90 年代，我们通过引入信息管理系统引入了结构化数据。当时，关系数据库占主导地位。通过不断的积累，我们可以分析这些数据来辅助决策。

2010年左右，Google为自己的搜索业务设计了一套大数据系统，就是现在的分布式文件系统GFS。之后，非结构化数据越来越多，数据库的概念应运而生。

至于是否会向一体化方向发展？企业要根据自己的需求来决定。在技术层面，非关系型数据中的一些技术已经被运用到关系型数据库中。

对于企业来说，当拥有关系数据和非关系数据时，如果两者的目标不一致，就没有必要进行整合管理。即使强行实行一体化管理，也未必有效率。

混合数据库只有在某些条件下才可行。例如，如果OLTP和OLAP相关，或者大部分数据一致，就可以进行混合管理。如果企业或业务的数据不一致且用途不同，混合管理的效率就不会高。

（迪普科技产品管理部总经理）：

大数据和数据库技术最终还是要落地到现实场景中。从企业角度来看，以HTAP为代表的数据库更适合中小型结构化数据分析。大型企业的数据密度更高、更复杂，因此可能需要使用数据湖进行处理。同时，单独的数据湖可能无法满足数据分析的需求，必须引入湖库一体化架构。

另外，在与AI结合方面，数据湖架构自然可以更好地支持AI分析。目前，业内越来越多的企业选择了这一解决方案。对于企业来说，搭建平台的第一步就是要考虑清楚自己的数据特征和场景。单一的架构很难满足所有企业场景的需求，所以还是需要按照常规的方式来进行。

3、大数据系统中有多种针对不同场景的计算引擎。未来有可能有统一的SQL引擎和语言吗？

（迪普科技产品管理部总经理）：

事实上，在数据库领域，SQL语言已经非常标准化。使用SQL语言进行大数据的出发点是解决开发效率和编程效率的问题。可以说，大数据借用了SQL语言来帮助分析场景。例如，OLTP中高并发业务场景下使用SQL来优化性能。

不同的业务系统需要选择不同的数据库。这不仅是由技术决定的，也是由市场和具体业务场景决定的。目前还没有一个数据库或平台能够覆盖所有场景。

我认为在这件事上没有必要让一种语言主宰世界，即使有，也只是暂时的结果。

4、如今非结构化数据和半结构化数据在人工智能中将会有更多的应用场景。数据存储有哪些新的突破可以更好地支持对这些数据的科学分析？

（迪普科技产品管理部总经理）：

从工程角度来看，企业在实施工程时会引入业界的新技术，比如统一存储引擎。无论是结构化还是非结构化数据，分布式文件系统还是对象存储架构，都可以使用统一的表引擎将多模式数据放在一张表中进行读取。这是工程方面的。改进。

为了支持业务侧分析，企业存储多模态数据后，会不同程度地加工成结构化数据，进行融合分析。虽然这不是底层技术的突破，但作为工程阶段的突破，它也可以支持AI分析。

AI+图计算：应对更复杂的场景

5、在我国，AI技术已经在很多场景落地，那么AI基础设施和技术的机会在哪里？

（西北工业大学计算机学院副教授）：

制作应用程序比制作基本系统更容易。这可以反映在论文数量上，前者的数量要多得多。因为AI的应用中存在各种可以轻易验证的问题，目前业界流行的语音和图像处理、文本识别、自然语言处理、自动驾驶等，都是AI在不同场景下的应用。

在基础设施研发方面，我国始终有居安思危的意识，强调核心技术和系统的自主可控。比如国内的存储系统，尤其是大规模存储系统，华为、浪潮、曙光等公司都有自主研发的大规模存储系统。

在计算架构方面，国外我们多采用tensorflow，但华为也开发了自己的计算框架MindSpore，提供AI模型开发、模型运行、模型部署能力，更适合自己的芯片算力。在数据库方面，据说有400多家公司正在开发自己的数据库系统。我认为国内还有很多企业和研究人员在基础领域取得突破，未来会得到更广泛的应用。

6、图数据库有哪些比较适合解决生物医学等问题的特性或算法？

（北京航空航天大学软件学院教授级高级工程师）：

我从5年前就开始关注这个问题。医学影像可以直接使用图数据库的算法。当前生物医学问题的研究热点和关键点是基因大数据。遗传大数据的特点是文件格式比较简单，同时文件非常大。

例如，在人类基因组测序数据中，一个样本的遗传数据有90G。我们如何使用 ATCG 来比较这么大的文件中的基因序列？我们正在做另一个关于遗传大数据的专题项目。一个90G的基因将产生超过20,000个特征。所以我们也开始尝试用图数据库来表达。

这里分为两部分：如何存储和如何计算。

在存储方面，我知道一些存储基因组测序数据的方法实际上是从开源数据库修改而来的，但成熟度仍然需要提高。

在计算方面，由于基因表达了很多特征，所以我们使用图数据库来嵌入图或使用图神经网络来表达它们。目前该方法已投入使用。

还有一种应用是使用图数据库来表达的。比如我提取了2万多个人类基因。我可以将它们转换成基于多个样本的图，然后使用CV来进一步抽象识别该图吗？目前，这个方向也在探索中。

此外，加入基于基因生物学功能的监督预测算法，例如结合基因参与的生物学途径以及上下游基因的功能，可以大大提高准确性。

7、图像相关的AI检测领域目前正处于从实验室走向工业化的过程中。如何平衡成本、效率和期望之间的差距？

（北京工商大学计算机学院教授）：

首先，任何人工智能技术成熟后，最终都会赚钱。从之前大厂商探索这方面的经验来看，我们可以看到很多烟囱都存在问题，而且还涉及到是做中间平台还是各个平台自己做的选择。

比如阿里巴巴早期，有几个独立的团队在做AI算法和平台。后来，他们开始将技术与中央平台统一起来。但他们发现这并不能为每个业务线提供足够的支持，因此他们开始尝试建立单独的团队进行改进。原因是客户的业务，尤其是大客户的业务，需要一些基于公共系统的定制化研发来满足他们的需求。

作为一个观察者，我看到互联网行业在过去的一年半里正在经历整合。过去，大家都愿意大量投入一项先进技术，而不看短期回报，但在目前的形势下，很多无利可图的业务都会被砍掉，所以需要做出更多的平衡和权衡。

目前，能够在成本和收入上实现盈亏平衡的前沿业务线并不多，包括一些工业大脑和智慧城市业务，大多处于亏损状态。未来大家可能会更关注某些问题，解决某个技术点，而不是指望通过一个大平台来解决大部分问题。

例如，可以用一个小的技术系统来解决一个特定的问题，企业可以为这个可复制的解决方案付费，从而保证一个业务线产品的健康发展。

8. 成熟的人工智能大规模应用的标准是什么？

（西北工业大学计算机学院副教授）

总的来说，AI在早期阶段的成本肯定是非常高的，因为算法本身不成熟，对数据的要求非常高。只有算法逐渐成熟，才有可能降低对数据精度的要求，降低数据采集的成本。

刚才提到的人工成本也是如此。早期，大家都比较关注先进技术。未来算法改进的空间会更小，人力成本可能会下降。因此，降低成本是成熟的表现。

成熟的另一个标志是大规模应用。但对于AI应用来说，没有必要在经过充分训练后才应用。我觉得发展的过程应该是，只有AI大规模应用之后，我们才能获得更多的数据集，发现更多场景下的问题，然后对模型进行修改和优化。

成熟的另一个标志是，用户可以对人工智能抱有现实的期望，并习惯于用人工智能代替体力劳动。比如现在的智能音箱都是有NLP技术支持的。如果大家都知道这个音箱的能力和边界，并且习惯用它来实现一些功能，我认为这是成熟的标志。

计算机视觉和模型泛化：像人眼一样看世界

9、关于人脸识别，不同场景应用的人脸识别算法和模型是否具有通用性？

（北京航空航天大学软件学院副教授）

我的回答是：不。

为什么人脸识别的通用性还是这么差？我们首先需要了解人脸识别的关键方面。首先是场景数据的质量；二是看模型；三是模型训练和优化的结果。

首先，数据取决于应用场景，不同场景下的数据分布是不同的。从公司里几千人刷脸签到的系统，到几万人刷脸的系统，再到几十万、几千万人的城市使用的身份识别系统人，难度成倍增加。这里的应用场景也分为静态/动态、单人/多人、有/无遮挡等，场景非常多样。

虽然我们看到通用的人脸识别算法的水平已经很高了，在公开数据上可以达到98%的准确率，超过了人类的水平。但在具体场景下，就会体现出局限性，那就是需要依赖场景和数据。这个因素决定了，总体来说，人脸识别算法模型在不同场景下的通用性并不是很强。

10、关于下一代大数据系统的研究，学术界的研究热点有哪些？

（北京航空航天大学软件学院副教授）

在我关注的深度学习领域，我认为未来5-10年的研究热点将是下一代基于生物神经元的深度学习，或者说深度学习2.0。

我们目前处于1.0阶段。基于人工神经网络深度学习的模型的人工成分非常大，可以理解为对大脑神经网络的大幅简化。因为我们还没有弄清楚大脑是如何工作的，所以我们无法模拟神经元如何工作。

现在很多大学都成立了研究团队来研究脑科学和认知科学。我相信未来人工智能的重要发展方向是深度学习与脑科学、认知科学和神经科学紧密结合形成的交叉学科，可能会带来革命性的突破。

11.人工智能技术发展和实施的挑战和机遇。

（迪普科技首席技术专家）：

从产业角度来看，人脸识别已经是产业化最好的技术之一，包括打卡、手机解锁等，这需要在通用数据集训练的基础上进一步训练或者调优。满足使用要求。

所以，产业化涉及到一个大问题：成本。因为我们不可能每个站点都安排各种算法工程师去进行优化，成本太高了。所以我觉得整个行业可以有更好的分工。比如有的公司做通用算法，我们拿好的模型，根据场景做二次训练。

这里我们需要一套流程和工具链来连接不同的角色。有的人负责AI算法，有的人负责偏向工程应用的算法。结合应用落地场景，可以通过更精细、更顺畅的社会分工来降低成本。其次，拓展人工智能应用市场。

打破壁垒，塑造更智能的现实世界

讨论至此，“技术聚势，数据为先”线上技术研讨会落下帷幕。激烈的意见交流和信息极其密集的交流过程甚至超出了我们的预期。

在时间维度上，研讨会内容贯穿了数据库与计算技术过去几十年的发展历史、关键节点以及当前的研究热点。也展望了未来技术演进的方向；在行业深度层面，研讨会内容囊括了从底层技术，到流数据的流转，再到具体场景的实施过程的方方面面。

由于嘉宾背景不同，讨论脱离了单一视角，结果正如圆桌会议的初衷：打破壁垒，让学术界和工业界听到彼此的声音。

正如迪普科技首席技术专家在分享中提到的，“AI应用离不开多重角色，参与从底层技术到场景落地的各个阶段，健康的流程有助于提升效率。” 产业发展也是如此。，在碰撞中相互渗透影响，消除产学研之间的距离，最终塑造更加智能的现实世界。

数据膨胀时代计算技术的变革在哪里科技汇聚动

AI赋能看智能工业机器人如何应用于仓储物流

无忧二代智能手机遥控器仍需改进

60后70后80后90后00后大学生入学必备的三件物品

热门文章

最新推荐

超全能远程控制软件

AI赋能看智能工业机器人如何应用于仓

从理念到实践赛格创品汇无人机主题

AI一键生成PPT 这4个办公神器别错过

无忧二代智能手机遥控器仍需改进

数据膨胀时代计算技术的变革在哪里 科技汇聚动

热门文章

最新推荐

数据膨胀时代计算技术的变革在哪里科技汇聚动