首页 手机网 财经号下载
入驻财经号 登录 客服 |
首页> 财经> 正文

专家访谈丨熊德意:国内大模型发展迅速,“角色化”是落地应用重要一环

财经号APP
红星资本局红星资本局 2024-07-24 18:50:13 1069
分享到:

作为生成式人工智能的代表,大模型已经进入全新的发展阶段。

红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,已于本月正式启动。2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。

日前,红星资本局专访了天津大学智能与计算学部教授、博士生导师熊德意。作为天津大学“语言智能与技术”中外联合研究中心(天津市“一带一路”联合实验室)主任,他向记者介绍了今年来大模型的进展表现,以及目前大模型在伦理、安全等方面的情况。

7.24.png

熊德意对红星资本局表示,目前大模型亟待突破的是类人推理能力,这个问题是否能解决,关系到大模型能否跃迁到更高阶段、能否向通用人工智能迈出关键一步。国内大模型研究与应用在对齐方面也需要长远布局和持续加强,并提出我们自己的技术路线图。

国内多个大模型中文能力超过GPT-3.5

红星资本局:您认为此次通用大模型评测结果相较去年有什么变化?评测维度上又有哪些不同?经过一年这些大模型的总体表现有何进步和关键进展?

熊德意:今年的评测,和去年相比,最大的变化是我们扩充了评测范围,在去年通用评测基础上,新增了行业评测、专项挑战评测和应用场景评测。行业评测覆盖金融、医疗、法律、交通、水利和科学;专项挑战包括角色大模型、大模型道德对齐及智能体;应用场景评测采取与企业合作方式进行。

通用评测方面,评测维度将逐步扩展,以涵盖更多推理、对齐、安全等方面的评测基准。在过去一年,大赛对国内外大模型中文能力进行了持续评测和进展跟踪,国内大模型在学科知识、数学推理等方面取得了非常显著的进步,多个大模型中文能力超过GPT-3.5。

红星资本局:截至目前,国内外大模型发展情况都有了新的进展,国内的大模型技术有了哪些提高哪些亮眼的地方?我们也注意到OpenAI正在开发一个新模型,称其推理能力接近人类水平,我们与国外大模型的主要差距还存在哪些方面?

熊德意:过去一年,国内大模型发展十分迅速,在研究和产业应用方面,均有出色的表现。在大模型研究方面,国内相继开源了一批大模型,如通义千问系列,在国际大模型开源上仅次于美国,形成了广泛的影响力;在产业应用上,国内多个大模型中文能力超过GPT-3.5,在数字人、人形机器人等领域及多个行业上开展了丰富的落地应用。

目前,大模型亟待突破的是类人推理能力,这个问题是否能解决,关系到大模型能否跃迁到更高阶段、能否向通用人工智能迈出关键一步。国际上,很多大模型研究机构和企业在这方面进行了布局,提出了技术路线图;国内也有部分大模型企业在复杂推理方面进行尝试和探索,但需要加强和战略技术规划。

另外一个重要发展方向是大模型的对齐能力,对齐是前沿人工智能安全治理的重要技术基础。对齐与推理密切相关,相辅相成,在技术上存在很多共通的地方。国内大模型研究与应用在对齐方面也需要长远布局和持续加强,并提出我们自己的技术路线图。

“角色化”是落地应用的重要一环

红星资本局:在“角色大模型专项挑战赛”时,您认为参赛者的大模型如何充分展示角色知识理解和应用的?在未来,角色大模型在实际应用中的前景如何,您对此有怎样的展望?

熊德意:大模型角色化是大模型落地应用非常重要的一环,尤其是在数字人、人形机器人、需要个性化服务等应用场景上。今年设置的角色大模型评测主要聚焦角色知识和基于角色知识的多步推理方面,角色覆盖国内外知名人物和文学作品中的角色人物,角色知识包括人物的个人信息、关系、能力、经历等。未来,角色大模型将与智能体深度结合,以实现智能体的角色化,如基于角色设置定制化智能体功能。

红星资本局:对于“Agent大模型专项挑战赛”,您认为在真实场景下应用大模型有哪些挑战和机遇?

熊德意:除了角色化,Agent化也是大模型真实场景应用中非常重要的部分,甚至是不可或缺的部分。但目前大模型Agent化还处在非常初步的阶段,还存在诸多挑战,如高效的Agent框架、场景化Agent数据、大模型与Agent的深度耦合、推理与规划、学习与记忆等。虽然存在挑战,但这些挑战也是机遇,解决好这些挑战,不仅可以推动大模型赋能千行百业,同时也能推进大模型本身的快速迭代与发展。

红星资本局:在“大模型道德对齐专项挑战赛”中,评估参赛作品在中文道德伦理对齐方面的表现时,主要的衡量标准和指标有哪些?

熊德意:道德对齐是大模型价值安全的重要元素,此次评测将评测大模型在明晰场景及两难困境下的推理能力,测试数据来自于真实场景及社会广泛讨论的热点问题,大赛将通过定量化评测大模型在这些场景中的表现,考察其与传统美德及社会规范的对齐能力。

红星资本局:本次测评还提到了大模型伦理、安全,目前我们在这方面还存在哪些欠缺,从何完善?

熊德意:大模型伦理安全是人工智能安全治理的重要方面,是前沿人工智能安全治理的重要体现。目前,大模型在知识与能力方面(“智”),发展迅速;但在伦理安全方面(“善”),发展速度相对滞后。这一方面是因为大模型伦理安全是学科交叉问题,技术挑战非常大,另一方面,国内外在伦理安全很多问题上的共识也在逐步形成中。因此,本次大赛强调大模型伦理安全测评,旨在进一步推动“智能向善”理念落到实处,以评测为抓手,推进大模型伦理安全发展。 

红星新闻记者 王田  实习生 刘川蒙

编辑 肖子琦

(下载红星新闻,报料有奖!)

财经号声明: 本文由入驻中金在线财经号平台的作者撰写,观点仅代表作者本人,不代表中金在线立场。仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。同时提醒网友提高风险意识,请勿私下汇款给自媒体作者,避免造成金钱损失,风险自负。如有文章和图片作品版权及其他问题,请联系本站。

0条评论 网友评论文明上网,理性发言

中金登录 微博登录 QQ登录

    查看更多评论

    举报此人

    X
    确认
    取消

    热门视频换一批

    温馨提示

    由于您的浏览器非微信客户端浏览器,无法继续支付,如需支付,请于微信中打开链接付款。(点击复制--打开微信--选择”自己“或”文件传输助手“--粘贴链接--打开后付款)

    或关注微信公众号<中金在线>底部菜单”名博看市“,搜索您要的作者名称或文章名称。给您带来的不便尽请谅解!感谢您的支持!

    复制链接

    鲜花打赏 X

    可用金币:0

    总支付金额:0

    您还需要支付0
    我已阅读《增值服务协议》
    确认打赏

    1鲜花=0.1元人民币=1金币    打赏无悔,概不退款

    举报文章问题 X
    参考地址

    其他问题,我要吐槽

    确定

    温馨提示

    前往财经号APP听深入解析

    取消 确认