数据安全,AI难以回避的隐忧
2024-06-24 16:14:43 来源:法人杂志 作者:李韵石

◎文 《法人》杂志全媒体记者 李韵石

近年来,以ChatGPT为代表的生成式人工智能技术,在极大地提升人们工作效率的同时,也带来了数据使用风险数据。

《2024人工智能安全报告》显示,AI既放大现有网络安全威胁,又引入了新型威胁,引发网络安全事件指数级增长。其中,2023年基于AI的深度伪造欺诈暴增3000%,基于AI的钓鱼邮件数量增长了1000%。一项对IT行业领导者进行的关于ChatGPT等大模型的调查显示,安全性是受访者最关心的问题。71%的受访者认为,生成式人工智能会给企业数据安全带来新的风险。

数据越多问题越复杂

2月15日,OpenAI发布了60个由文字生成的视频,引发全网震动,这让人意识到通用人工智能的实现成为可能。

6月6日,国科创新研究院首席科学家、人工智能研究中心主任龚才春接受《法人》记者采访时表示:“生成式人工智能比上一轮的深度学习技术更复杂,训练数据更海量,模型更庞大。因此,生成式人工智能的监管难度更大,信息保护问题更复杂。”

东南大学法学院讲师、法学博士毕文轩也持类似观点:在生成式人工智能的训练、应用和模型优化过程中,所投放的数据中,可能包含了公民个人信息或隐私。如果不对其加以必要处理,可能产生大模型对公民个人信息的误用或滥用,侵犯个人隐私权益。

毕文轩认为,大模型训练数据给公民隐私带来的风险,既可能产生于数据层面的不当使用,也可能产生于大模型自身层面的不当处理。在数据层面,除了训练数据来源包含了大量未经脱敏或处理的个人信息外,还存在模型开发者故意购买使用包含他人隐私的数据并投入训练的情形。这种恶意滥用行为,会导致生成式人工智能将公民个人隐私的侵害后果和影响范围,进一步扩大。

据公开报道,2023年3月25日,OpenAI向用户和整个ChatGPT社区致歉,表示部分ChatGPTPlus的用户数据可能被泄露,其中包括了用户聊天记录的片段以及用户信用卡的最后四位数字、到期日期、姓名、电子邮件地址和付款地址等信息。

防范信息泄露难度大

“进入大模型时代后,生成式人工智能井喷式发展。用大模型技术生成的许多图片、文本、视频越来越强大,几乎符合物理世界的所有规律,人眼难以识别真假,大模型技术也很难识别真伪。”龚才春表示,生成式人工智能需要海量数据进行训练,但剔除海量数据的隐私信息是一个巨大的技术难题。然而,随着大模型的迅猛发展,隐私识别技术却没有得到太多关注。

龚才春说,许多文本单独来看,没有隐私信息,不需要额外保护。但是,如果将若干个文本收集起来,进行分析和处理,就会产生隐私泄露的风险。谷歌的搜索日志是一个典型案例,其本身不包含任何隐私信息,但经过大数据挖掘,许多隐私信息就会暴露出来。

此外,对隐私的界定,业内没有形成统一标准。不同的人,由于不同社会地位、不同行业、不同职业、不同地域等原因,对隐私的界定差异很大。例如,技术开发人员认为手机号码、邮箱是极度隐私信息,而销售人员又希望全世界都保存其手机号码和邮箱等个人信息。

《法治日报》律师专家库成员、北京市京都律师事务所高级合伙人王菲认为,生成式人工智能基于复杂的算法生成内容,但无论算法多么符合主流价值、设计精密,如若供其学习的训练数据本身质量难以评估验证,生成式人工智能无异于空中楼阁。

对于未来中国人工智能发展,龚才春建议,组建国家级人工智能研究院,统筹人工智能的前沿动态、产业发展、政策建议、伦理道德、技术测评、人才培养体系等方面的研究与实施;应加强人工智能伦理道德的研究,为未来的通用人工智能和超级人工智能的伦理问题提前布局;组织全国性人工智能的公开测评和比赛活动,开发公开的评测数据集与评测标准,促进人工智能的交流和合作,加强大模型的理论研究和产业落地研究,孵化相关大模型企业及生态,建设若干个国家级通用人工智能产业园。

同时,龚才春还建议,加强通用人工智能的核心技术攻关,设立通用人工智能的重大研发计划,加强大模型的理论研究,包括预训练技术、指令微调技术、人类对齐技术、多模态等,加强文生文、文生图、文生视频、文生模型等的应用研究与开发,加强生成式人工智能的内容安全监测。

全球AI立法进程加快

5月21日,欧盟理事会正式批准的《人工智能法案》(下称《法案》),成为世界上首部对人工智能进行全面监管的法案。《法案》通过后,欧盟就宣布成立人工智能办公室,依法对人工智能发展进行监管。

比利时数字化、行政简化、隐私保护和建筑法规国务秘书Mathieu Michel公开表示:“ 《法案》的通过是欧盟的一个重要里程碑。这部具有里程碑意义的法律是世界上第一部此类法律,它解决了一个全球性的技术挑战,同时也为我们的社会和经济创造了机遇。通过《法案》,欧洲强调了在处理新技术时信任、透明和问责的重要性,同时确保这一瞬息万变的技术能够蓬勃发展并促进欧洲的创新。”

6月7日,北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括接受记者采访时表示,《法案》遵循“基于风险”的方法,即对社会造成危害的风险越高,规则就越严格。其根据风险对不同类型的人工智能进行了分类,风险有限的人工智能系统只需履行很轻的透明度义务。而高风险的人工智能系统将获得授权,但必须遵守一系列要求和义务才能进入欧盟市场。

对于人工智能安全使用问题,《法治日报》律师专家库成员、北京观韬中茂(上海)律师事务所合伙人王渝伟向记者表示:“我国对于大模型管理一直在逐步加强,也出台了相关的管理办法。”王渝伟说,针对人工智能的快速发展,中国早在2017年就颁布了《国务院关于印发新一代人工智能发展规划的通知》,将人工智能作为战略目标,提出要建立人工智能安全监管和评估体系,加大对数据滥用、侵犯个人隐私、违背道德伦理等行为的惩戒力度。

2021年颁布施行的《关于加强互联网信息服务算法综合治理的指导意见》和2022年施行的《互联网信息服务算法推荐管理规定》,均明确了信息服务的规范要求,算法推荐服务提供者不得利用算法推荐服务侵犯他人合法权益。

王渝伟说:“2023年,我国发布了《生成式人工智能服务管理暂行办法》,这是专门针对生成式人工智能所作出的规定。《生成式人工智能服务管理暂行办法》对提供者及使用者必须遵循社会公德和伦理道德提出了基本要求,其中包括必须坚持社会主义核心价值观,必须保护商业秘密、个人隐私等不受侵犯。”

编审|渠 洋

责编|白 馗

校对|张波 张雪慧

编辑:刘晓莹