AI时代,请管好你的声音
2024-10-22 14:24 来源:法人杂志 作者:白馗 姚瑶

◎文 《法人》杂志全媒体记者 白馗 见习记者 姚瑶

随着AI语音合成技术的广泛应用,声音被收集、合成、制作、模仿甚至篡改的现象越来越普遍,这对声音权益的保护提出了前所未有的挑战。

▲CFP

2024年4月,北京互联网法院一审开庭宣判了全国首例AI生成声音人格权侵权案,明确认定在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音。同时,AI生成声音可识别性的认定应综合考虑行为人使用情况,并以相关领域普通听众能否识别作为判断标准。

AI“偷走”配音师原声

某天,配音师殷某发现自己的声音被AI处理并在多个知名APP广泛流传,而这些被AI生成的作品经声音筛选和溯源,发现来自北京某智能科技公司(下称“被告一”)。在被告一运营的平台中,用户只要输入文本、调整参数,即可实现文本转化成语音功能。殷某曾接受北京某文化传媒公司(下称“被告二”)委托录制录音制品,且被告二为录音制品的著作权人。

判决书显示,调查发现,被告二在殷某为其录制录音制品后,将音频提供给某软件公司(下称“被告三”),允许被告三以商业或非商业的用途使用、复制、修改数据用于其产品及服务。被告三仅以原告录制的录音制品作为素材进行AI化处理,生成了涉案文本转语音产品并在上海某网络科技公司(下称“被告四”)运营的云服务平台对外出售。被告一与北京某科技发展公司(下称“被告五”)签订了在线服务买卖合同,由被告五向被告三下单采购,其中包括涉案文本转语音产品。被告一采取应用程序接口形式,在未经技术处理的情况下,直接调取并生成文本转语音产品在其平台使用。原告殷某主张,被告行为已经严重侵犯其声音权益,被告一、被告三应立即停止侵权、赔礼道歉,五被告应当赔偿原告经济损失、精神损失。

法院审理认为,自然人声音以声纹、音色、频率为区分,具有独特性、唯一性、稳定性特点,能够给他人形成或引起一般人产生与该自然人有关的思想或感情活动,可以对外展示个人行为和身份。自然人声音的可识别性是指在他人反复多次或长期聆听的基础上,通过该声音特征能识别出特定自然人。利用人工智能合成的声音,如果能使一般社会公众或者相关领域的公众根据其音色、语调和发音风格,关联到该自然人,即可以认定为具有可识别性。

本案中,因被告三系仅使用原告个人声音开发涉案文本转语音产品,而且经当庭勘验,该AI声音与原告的音色、语调、发音风格等具有高度一致性,能够引起一般人产生与原告有关的思想或感情活动,能够将该声音联系到原告本人,进而识别出原告的主体身份。因此,原告声音权益及于涉案AI声音。最终,被告一北京某智能科技公司、被告三某软件公司向原告赔礼道歉,被告二北京某文化传媒公司、被告三某软件公司向原告赔偿损失共计25万元。

近日,北京天达共和(武汉)律师事务所合伙人崔逢铭在接受《法人》记者采访时表示,本案系全国首例“AI声音侵权案”。根据《中华人民共和国民法典》(下称“民法典”)第一千零二十三条第二款,对自然人声音的保护,参照适用肖像权保护的有关规定,即自然人的声音权也是受法律保护的一项人格权。根据民法典第一千零一十八条第二款,肖像是通过影像、雕塑、绘画等方式在一定载体上所反映的特定自然人可以被识别的外部形象,即肖像需要具有可识别性。由于声音权的保护参照肖像权的规定,那么声音作为人身专属的权益,应当具有可识别性,即社会公众可以根据该声音识别出特定主体的身份。

“可识别性”是法律边界

近日,上海华联律师事务所律师蓝花棉向记者分析,本案中,虽然AI生成的声音与自然人声音并不高度一致,但法院的判决关键在于声音的“可识别性”。也就是说,AI生成的声音具有可识别性,即使与自然人声音不完全一致,也能关联到特定的自然人,从而构成侵权。

“可识别性的判断标准包括AI声音是否能使一般社会公众或相关领域的公众根据其音色、语调和发音风格关联到该自然人,引起一般人产生与该自然人有关的思想或感情活动,能够将该声音联系到特定自然人。”蓝花棉说。

崔逢铭也认为,声音的可识别性是声音能够成为一项人格权的前提条件。

近日,北京鼎世律师事务所律师庞理鹏在接受记者采访时表示,主流观点认为,声音权益是一种人格利益,包括声音的可识别性和声音的内容。倘若一段声音无法识别出特定主体的身份,那么其将难以受到法律保护。因此,身份可识别性也可以作为自然人声音权益的法律边界。

“然而,由于声音是一种人格权益,人工智能并不具备所谓的‘人格’。因此,在当前法律框架下,人工智能是否有声音权益还处于争议阶段。”庞理鹏表示,需要明晰的是,如果人工智能合成后的声音与自然人的声音并不一致,即无法通过合成后的声音识别到自然人,并不构成侵权。

崔逢铭表示,判断AI合成的声音与自然人声音是否一致,主要有两种方式:一是普通听众测试,即以一般社会公众或普通听众能否识别为标准,判断AI合成声音是否具有可识别性;二是技术鉴定,即通过专业的声纹识别技术,分析音色、语调、频率、发音风格等特征。

“当然,从诉讼维权的角度来看,可以先从普通听众的视角来进行声音辨识测试,进而判断AI合成的声音与自然人声音的一致性程度,如果不能准确判断,也可视情委托第三方机构进行鉴定。”崔逢铭分析。

著作权不等于声音权

值得一提的是,本案被告二辩称,其将有音频著作权及邻接权的录音制品用于与被告三某软件公司合作符合相关法律规定,各个环节都已签署协议和支付费用,不存在主观故意的侵权行为。AI音频产品适用的配音内容和场景不同于单纯的有声读物,而是一个综合的音频内容,根据音频内容热度等因素造成的传播量非配音人一己之力可以达成。

法院审理认为,被告二关于获得原告合法授权的抗辩不能成立。被告二对录音制品享有著作权等权利,但不包括授权他人对原告声音进行AI化使用的权利。被告二与被告三签订数据协议,在未经原告本人知情同意的情况下,授权被告三AI化使用原告声音的行为无合法权利来源。

“简单来讲,原告的声音权益与被告二北京某文化传媒公司对录音制品享有的权利是两种完全不同的权利。原告的声音权益按照民法典的规定是一种人格权。而被告二的权益是一种著作权邻接权。”庞理鹏告诉记者。

所谓邻接权,是指作品的传播者和作品之外劳动成果的创作者对其劳动成果享有的专有权利的总称。庞理鹏表示,邻接权产生的主要原因是由于一些非物质劳动成果虽然有其自身存在的价值,但由于其本身独创性较低,不属于《中华人民共和国著作权法》(下称“著作权法”)保护的作品。但又需要对该部分“作品”所付出的劳动的成果进行有效保护。因此,在著作权法中新设一种与传统著作权之外的新型权利类型,专门用于保护那些“独创性”程度不高但又与作品有一定联系的劳动成果,即邻接权。

庞理鹏认为,被告二的录音制品就属于邻接权。其专有名称是录音录像制作者权,是指录音、录像制品的制作者对其制作的录音、录像制品享有的专有权利。按著作权法第四十条及第四十五条,其权利内容不包括自然人的声音权。

随意上传AI作品面临侵权

“这起全国首例AI生成声音人格权侵权案体现了司法对新技术应用的规范和引导,兼顾保护人格权益与技术发展,具有里程碑意义。”崔逢铭表示,我国民法典将人格权独立成编,以立法形式将保护“声音”写入人格权编,明确参照适用肖像权的有关规定保护自然人的声音。本案反映了人格权与AI技术之间的冲突,明确了自然人声音权益的保护范围涵盖AI合成声音,并通过专业技术手段鉴定AI合成声音与自然人声音的相似度。同时,在法律适用上,明确了AI合成声音的法律边界和可识别性标准,为后续类似案件提供了裁判标准。因此,为了避免人格权益与AI技术的冲突,建议相关使用主体在使用AI技术处理他人声音前,注意取得相应授权,做到依法行事、合法使用。

对此,蓝花棉提示,在签订涉及声音使用的合同时,双方当事人应注意声音权益的归属和授权以及使用范围、期限和费用、侵权救济措施、特殊情况的处理、法律适用和争议解决等多方面。 

“提供换脸、变声等软件的企业,势必涉及营利问题,故这类企业需要确保人物面部特征、声音特征不会与某自然人高度相似,必要时需要向自然人索要授权。”庞理鹏提示,如果上传AI生成视频的自然人只是“自娱自乐”,而非以营利为目的,基本上可以满足著作权法中合理使用的要求。但如果这类自然人用户以营利为目的,则可能面临侵权和赔偿问题。同时,自然人在发现自己的肖像、声音、姓名等信息,未经允许被商用后,可以先和商用企业沟通,要求对方删除、下架、赔偿等。也可以向第三方平台说明情况,要求平台下架该企业的侵权内容。如果上述途径均无法维权,自然人可以向法院提起诉讼。

编审|王 婧
责编|王 茜
校对|张波 张雪慧

编辑:刘晓莹