11月19日,2024年世界互联网大会“互联网之光”博览会在乌镇隆重开幕。
“互联网之光”博览会以人工智能为重点,设置展示展览、新产品新技术发布、产业人才引智、产业合作对接、“新光”系列推介等五大活动,其中“网络空间安全治理”是新产品新技术主题发布的重要活动之一。
网易易盾作为网络空间安全治理的践行者,应大会之邀,亮相“网络空间安全治理”新产品新技术发布会,并展示全新升级的数字内容安全体系。网易易盾内容安全负责人饶晓艳从“安全服务专业化、技术升级场景化、运营经验工具化”三个方面为现场各领域的专家代表进行介绍。

| 网易易盾内容安全负责人 饶晓艳
在评估现状差距环节,网易易盾提供内容安全成熟度评估和大模型内容安全评估;在合规咨询与规划环节,网易易盾提供包括内容安全体系建设咨询、大模型上线备案、算法备案在内的安全咨询服务;在安全流程实施环节,网易易盾提供安全培训课程与安全实战考核服务。通过这些服务,网易易盾打造了一套专业的服务以覆盖企业方方面面的安全需求,形成数字内容安全“金钟罩”。
此外,网易易盾还将自身技术能力与行业进行共创共建,发挥行业智库作用,积极主动参与多地标准建设,支撑行业科学有序发展,例如与广州互联网协会联合发布的《生成式人工智能服务安全合规指引》。
在此基础上,网易易盾也为客户提供安全智库服务,服务内容包括:内容安全舆情日报、重大事件专项分析、监管政策解读、行业定制情报,以自身之安全技术能力赋能客户。
近一个月时间,中央网信办多次部署开展清朗专项行动。
2024年10月3日,中央网信办部署开展“清朗·整治违规开展互联网新闻信息服务”专项行动;2024年10月11日,中央网信办部署开展“清朗·规范网络语言文字使用”专项行动;2024年11月15日,中央网信办部署开展“清朗·同城版块信息内容问题整治”专项行动。
不难看出,中央层面部署网络空间安全治理中有关内容生态的治理行动并非广撒网式,而是集中力量对某一个场景下的疑难问题进行专项解决,力求在最短的时间内以最高效的方式完成定期的网络空间内容治理。
以网易易盾最新的端云一体检测链路为例:在端侧审核,提供文本、图片Lite版审核,最小200Kb,弱网/无网环境下亦可使用,sdk异常率不到万分之一;在云侧审核,可提供API快速接入,检测耗时短至50ms,提供策略7*24h更新布控,检测准确率大于99.6%;人工环节,由专业团队进行嫌疑/高危数据人审、举报投诉数据人审、多轮质检和大模型语料标注等操作;在线上巡检环节,网易易盾可提供重点板块巡检、高风险类型红蓝对抗、重要节点专项巡检、定期测评报告等增值服务。
以上4个环节共同组成的动态审核策略是网易易盾技术升级场景化的成果之一。

在大模型内容安全场景下,网易易盾内容安全负责人饶晓艳以大模型治理大模型安全举例介绍,大模型的安全围栏有很多道,从用户输入端开始,易盾会先进行有害信息分析,并对问题进行分类,并针对部分类别提供安全回答,而正常由大模型回答的内容,在输出后也会再次进行有害内容的检测。
同时考虑到时效性,易盾提供流式切片检测,可以更早发现风险。网易易盾覆盖五大类、31小类的安全语料,也可以在大模型训练环节,提高模型本身的安全围栏能力。
运营经验工具化

文章来源:网易易盾
原文链接:https://mp.weixin.qq.com/s/Pfq-qVgln2m00cXCFT8p-w
特别声明:本文内容仅代表作者个人观点,不代表本网站观点或立场。
文章部分图片、资讯、数据均来自互联网;如不慎侵权,请联系删除。





