正规配资炒股 高质量语料将愈加枯竭?如何为大模型加注“燃料”

发布日期:2024-09-13 08:13    点击次数:187

继算力短缺之后,高质量语料枯竭,又成为发展人工智能的障碍?一份报告显示,高质量语料预计于2028年枯竭。

为减缓这种情况的出现,近日,50余家单位在上海共同发起“语料生态服务大模型可持续发展倡议”,倡导携手为我国大模型产业发展持续提供高质量语料。

大模型训练关键“燃料”

当下,大模型争夺战愈演愈烈,但这背后绕不开的是语料数据。

语料数据,可以理解为是大模型训练的“燃料”,高质量的语料对于大模型在各行各业的应用十分关键,有助于大模型更好地适配实际应用场景,加快实现人工智能赋能千行百业的愿景。

尤其是在自然语言处理和机器学习领域。这些数据不仅为模型提供了必要的训练材料,使其能够通过识别和学习数据中的模式和关联来进行预测和分类,还用于模型的评估和验证,确保模型能够在实际环境中表现良好。

更重要的是,丰富多样的语料数据集可以极大地提高模型的泛化能力,使其能够应对各种未见过的情形和数据。

此外,随着技术的进步和新需求的出现,持续更新的语料库支持了新应用的开发和现有模型的改进,从而推动了整个领域的创新和发展。

高质量语料4年后枯竭?

然而,似乎从来没有人想过,语料枯竭会成为一个问题。

根据亿欧智库发布的《2024语料风云榜及优秀案例报告报告》显示,与算力和电力的解决方案不同,高质量语料的解决方案无法用金钱短期内解决。

事实上,高质量语料短缺是国际性的普遍性问题,非中国独有。

在全球范围内,从学术研究到商业应用,人工智能的发展都严重依赖于大量高质量、多样化且公正的数据。这些数据是训练精确、可靠和公正的AI系统的基础。

首先,数据的采集往往受限于版权、隐私保护法规以及数据来源的限制,使得无法广泛地收集到多样的数据样本。

此外,数据的标注工作不仅成本高昂,而且需要大量的人工参与,这在很大程度上限制了数据集的规模和多样性。标注数据的准确性和一致性的维护也是一个挑战,因为不同的标注者可能会有不同的理解和判断标准。

亿欧智库报告显示,高质量语料预计于2028年枯竭。那么,为什么会出现枯竭呢?

这是因为互联网语料内容的持续下降,根据过往研究发现,互联网语料数据增速已经从90年代将近100%的年增速率下降至2010年的两位数增长率,预计本世纪末,增长率将会下降至1%。

延缓枯竭困境关键角色是?

面对高质量语料枯竭这一难题,如何破局?成立语料机构有望成为延缓高质量语料枯竭困境的“关键角色”。

近日,国内50余家单位共同发起“语料生态服务大模型可持续发展倡议”,此举旨在进一步强化语料生态全产业链各主体间的交流合作,营造有利于我国大模型产业生态健康发展的环境。

世界人工只能大会期间还发布2024中国语料风云榜Top10,包括北京海天瑞声科技股份有限公司、北京云测信息技术有限公司、标贝(青岛)科技有限公司等上榜。

数据标注是为机器学习模型提供训练基础的过程,涉及对各种数据(如图像、文本、语音或视频)进行精确分类和标记。这一过程不仅帮助模型识别和学习数据中的复杂模式,而且对于提升模型的预测精度至关重要。

通过对原始数据添加有意义的标签,数据标注为算法提供了学习的“答案”,使其能够在未来处理未知数据时,做出更为准确和有效的反应。这是人工智能开发中不可或缺的一步,直接影响到技术的性能和应用范围。

以云测数据为例,在业务端,先后推出“云测数据标注平台”“AI数据集管理系统”等技术成果。通过结构创新、智能化、工程化、标准化的标注平台产品赋能AI训练数据行业,助力企业AI数据训练综合效率提升200%、标注精准度最高达99.99%,促使着人工智能产业加速发展,显著提升了Al应用的规模化落地效果。

目前,云测数据为大模型产业化落地中的高质量数据服务提供了可借鉴的解决方案,包括在行业垂直大模型落地、自动驾驶加速发展等等方面发挥越来越重要的数据支撑价值。

南方+记者 郜小平