• 点赞
  • 评论
  • 收藏
市政协委员黄海清:勇立“人工智能+”潮头,筑牢高质量语料数据基座
政协联线  
来源:政协联线 | 2025-05-01 13:01 字号
习近平总书记4月29日在上海“模速空间”考察时,要求“上海总结好以大模型产业生态体系孵化人工智能产业等成功经验,加大探索力度,力争在人工智能发展和治理各方面走在前列,产生示范效应”。库帕思作为“模速空间”的入驻企业,备受鼓舞、倍感振奋,也深感责任重大、使命光荣,更加坚定了在未来人工智能道路上奋楫争先的决心和动力。
国内外人工智能领域总体发展现状
人工智能的发展主要依赖算法、算力和语料三要素。算法方面,国内外大模型的性能已相差无几,以DeepSeek为代表的国产大模型走向国际领先,大模型正在向低成本、高性能、强推理方向不断跃升。
算力方面,近年来我国在高性能计算、智能计算等领域实现关键突破,但在市场占有率、性能优化等方面仍有待提高。叠加美国高端芯片出口禁令,高端算力“卡脖子”的困境短期内仍无法规避。
语料方面,中文语料的质量和规模均大幅低于英文语料。高质量的中文语料数据尤为稀缺,中文语料库在整个语料数据中的占比不足5%。同时,以公开渠道获取大批量、高质量的中文语料数据的难度较大。
总体来看,国内外在人工智能领域最大的差距在于算力和语料数据。当前,国内在算力方面仍面临诸多限制。因此,语料数据是国内人工智能领域“换道超车”的关键一环,高质量语料数据决定大模型能力的上限,也能极大降低大模型对算力的需求以及推动算力成本降低。同时,在总书记考察上海重要讲话精神的指引下,库帕思作为立足上海、服务全国的人工智能语料公司,将瞄准国内外差距,进一步加大探索力度,立足于我国完整的产业链、庞大的数据资源和政策支持体系,以及丰富的应用场景,筑牢高质量语料数据基座。
对语料数据行业发展趋势的研判
从发展趋势来看,语料数据行业正呈现以下变化:一是行业垂类语料库建设。千帆齐发的行业垂类大模型会成为创业者的主战场。二是长思维链CoT推理数据集,基于长思维链CoT的推理语料库将会有很大的市场空间及需求。三是从WEB向学术密集型转变,形成知识密度显著提升的语料数据体系。四是原生数据向数据合成转变。五是从两维平面向立体高维转变,比如物理AI,通过多模态特征融合实现语义空间的深度构建。
与此同时,必须充分认识到语料数据行业仍面临一些痛点问题。一是数据版权争议。版权方关于大模型合理使用范围及相关定价没有相关界定。二是标注成本高。特别是针对多模态融合标注及行业垂类的标注目前还是人工为主,依赖于行业资深专家。三是数据稀缺难题。以中式价值观类语料短缺为例,许多语料库中缺乏反映中国文化价值的内容。四是收益分配机制不健全。缺乏有效的数据分享及定价机制,政府、企业、个人的权责界定与价值分成尚未形成共识。
相关发展建议
一是探索合理使用版权作品进行大模型训练的制度创新。建议版权法里适当增加关于大模型训练语料数据的合理使用范围以及相关的定价规则,对于经过“清洗、标注和注释”处理后,不会对原始数据进行原样展示的高质量语料赋予新的权利,解决创新主体用数据难的问题。
二是加强语料运营平台建设,构建符合行业特点、覆盖“采洗标测用”全环节的语料工具链。开展语料关键技术攻关,重点攻关数据合成、物理 AI、多模态采集与思维链CoT、大模型价值对齐、AI 数据库及智能体输出、跨域部署的语料操作系统等语料关键技术,打造自动化算子体系。
三是创新数据共享模式,构建众包众创机制和平台。搭建安全、可靠、跨领域的统一数据共享平台,制定统一的数据格式和接口标准,支持不同领域数据的上传、下载和共享。通过积分制、揭榜挂帅和赛事机制等,鼓励不同领域的研究机构、企业之间开展合作,实现数据的共享和互补。
四是探索收益分配机制创新。基于“谁贡献、谁受益”的原则,探索建立“大模型计量、区块链记账”的新型收益分配机制,将有效Token数作为计量基准,构建覆盖语料采集、加工、流通、应用等环节的智能合约模式。
(黄海清系上海市政协委员、上海库帕思科技有限公司首席执行官)
 
责任编辑:谷钦慧
转载请注明来源
  • 点赞
  • 评论
  • 收藏