生成式人工智能服务管理办法(征求意见稿)||我的观点中国的AI将远远落后国际平均水平

admin2023-04-13CS147

中国其实不缺科学家,不缺有能力的人,但这种能力总是在我国科技水平发展到世界第一的时候迅速扼杀。当年的计算机CPU芯片,中国曾经与IBM、Intel站在一个起跑线上,并取得了领先地位,但因为研发后,无法商用(国有资产,商用很难合法化),做出的只有“学习机”类型的产品,痛失了基于。GPU市场在2010年左右曾经借着比特币挖矿,领先全世界,全世界的矿机都产自中国,此外游戏市场对GPU的需求也很旺盛,但随着禁止挖矿和禁止游戏,这块领先地位也没了。我只列举我熟悉的计算机行业,其他行业相信大家总能找出例子。人工智能行业呢?中国的人工智能本身发展就有先天短板,首先是训练资料,随着中国的净网行动,所有版权内容都丢失了,数字化资源很少,相当于“学习没课本”。此外公开的资料中,对备案的严苛要求,个人网站、非盈利为爱发电的网站都有严重的违法问题(评论没专门的机构审核就违法),除此之外BBS也基本无法合法运营,相当多的有价值资料被销毁退网,语料本就剩下不多了。还记得百度人工智能“文心一言”给出的内容过程是:“1、把中文翻译成英文2、机器根据英文生成内容3、将英文内容翻译成中文”,这就导致许多情况下驴唇不对马嘴,比如中文“前端总线”,给出回答内容是“前面的公交车”,这就是中文互联网资源极度枯竭,只能用英文语料训练AI的最明显例证。


我将对全文中影响行业发展非常严重的内容用红字标出。


生成式人工智能服务管理办法(征求意见稿)

第一条 为促进生成式人工智能健康发展和规范应用,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规,制定本办法。

第二条 研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。

本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

第三条 国家支持人工智能算法、框架等基础技术的自主创新、推广应用、国际合作,鼓励优先采用安全可信的软件、工具、计算和数据资源。

第四条 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:

(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。这些都算是目前就有的限制,也确实该限制,不过这个度我相信在实际执行时候一定会过度,导致对许多问题无法回答,甚至为了规避给出偏颇的答案。

推翻社会主义制度:问:“社会主义制度和资本主义制度有什么区别?”这种内容目前全网禁止讨论,对于AI来说,如果你限定了答案,恐怕也就失去了人工智能的意义了,只有人工,没有智能。

虚假信息:这就就更难了,现在ChatGPT提供的内容很多都是虚假的,只要是生成,就一定会出现虚假的内容。这条要求AI达到更高的层次才能自己判断信息的真假,另外其实多数情况信息的真假AI也无法判断。比如我问“美国圣地亚哥国际集团的金坷垃有什么作用?”我的问题就是网络热梗,什么“肥料掺了金坷垃,小麦不产一千八,日本的粮食再也不向美国进口了”着类回答,因为训练的语料必须大量,大量就无法人工审核,就有假信息。我举的例子还是比较好判断真假的,因为热梗毕竟提到的地方多,如果是最新消息等内容,无法判断真假。就算是CCTV,也免不了在新闻联播中一两年的时间里天天说“霍普金斯大学数据”,事实上,这个机构不够权威,不是官方,天天拿这个怼美国疫情防控政策就非常扯蛋。这是央视这种人数众多,可以说是中国最严谨的节目中出现的国际丢人失误,还持续了多年,AI真的有机会判断真假?就像中国的病毒库,“2345插件”,明显是病毒,恶意入侵计算机,无法卸载删除,但人家是上市公司,人家有背景有后台,他的病毒在中国就不是病毒。如果问AI,AI肯定说它是病毒,因为这是事实;但问监管部门,他就不是病毒,因为人家有后台。请问哪个是虚假,那个是真实?AI最大的价值就是整合不同的信息,就是替你提供新的思路,如果容不下虚假,也就无从谈真实。


(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。

我老婆昨天上班24小时,当然她吃饭了。这种职业该不该被歧视?歧视是社会健康发展的一部分,这种职业就是要歧视。上午7点半到岗,一直干到第二天7点,给出的休息时间却是第二天12点必须到岗,给出了5个小时的回家交通时间和休息时间。这种企业该不该被歧视?这种职业该不该歧视?但目前中国却没有任何部门管得了,工资不到位、休息时间无法满足。

歧视是社会进步必须的,是社会价值观的体现。这种杀人的企业如果能被歧视,号召大家不干着破工作才是人类进步的体现。

(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。

(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。

和刚才说的一样,中央文件都免不了虚假信息,人工智能还是个孩子,他就不能明辨是非。当然这里说的是采取措施,实际执行起来什么样就说不好了,但这一条的存在只要一严格执行,AI绝对是要被判死刑。就像一个婴儿刚学说话,很容易犯忌讳,更何况AI的语料非常丰富。

(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。


第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。

这一条也是足以杀死人工智能的,相当于说错一句话,犯最大的罪。这是个不可能的任务,一旦执行,就会像今天的“评论先审后发”一样,稍有不对就被封号禁言,那AI还能说什么内容呢?实际执行一定是,敏感词判断,问3次敏感词封号,这样的粗暴对待。

第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

这一条就是彻底堵死了小型企业和科研人员研究AI的可能,AI需要与人交流才能完善,而这种安全评估,怎么看都是研究者和小型企业可望而不可即的东西。ChatGPT为什么现在给全球免费使用?就是因为他要用人类来训练AI。这一条可以说确定了目前进行人工智能研究的中国公司垄断地位,其他企业和机构永远的失去了向这些大公司抗衡的可能性。

不过在中国其实也无所谓了,反正我们研究是落后的,等国外开发出新算法,新思路,抄就行了,用不着科研人员提出新构想。科研人员想实现价值可以去国外工作室(有点难,目前排华)。

第七条 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。

用于生成式人工智能产品的预训练、优化训练数据,应满足以下要求:

(一)符合《中华人民共和国网络安全法》等法律法规的要求;

(二)不含有侵犯知识产权的内容;

这一条是扼杀的重中之重,任何文字内容都是有知识产权的。就像我们学习,买一本书,我们应该就买下了这本书的知识产权。我学会了,可以告诉别人,可以进行修改,可以进行运用。但你要说我拿去生成内容就侵犯了知识产权,那人发明文字的意义都没了。这是出于什么考虑能说出这种话?美国在20多年前,就开始了书籍的数字化,对所有纸质书籍进行扫描数字化,这些内容就是用来让AI学习的,这些内容并不违法,因为我买了这本书,就是买下了这本书的使用权,我可以转告别人,可以给别人看,因为书本来就是为了传播知识的。你要严格的说侵犯知识产权,确实是失去了写书的意义,失去了读书的意义,文字也变得无用了。

现在中国对知识产权的保护走偏了,保护了却又没保护。网络上大量的无版权书籍被下架,电影,音乐都没了。但拥有版权的公司却只想用版权收费,不重印,不出电子版。比如“谭谈交通”,版权公司20万买来,买来之后起诉赔偿几百万,但公司官方不提供节目给人看,只是想要钱,这严重违背了知识产权保护的精神。其实“谭谈交通”的价值不大,但无论价值如何,这种现象都深深的伤害了创作者的利益,伤害了公众的利益。

本来是保护作者的权益,让作者产出优质内容,为社会文化做贡献,结果却是版权公司低价买版权,到处起诉,自己却不提供内容。唯一的结果就是让内容消失在世界上,这是人类这个物种的损失。我认为目前的知识产权是反人类的,脱离立法初衷的。结果是让保护知识产权成了敲诈的工具,赚了钱并让内容消失在世界上。

(三)数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形;

(四)能够保证数据的真实性、准确性、客观性、多样性;

不说了,只能说想法不错,实际不可能

(五)国家网信部门关于生成式人工智能服务的其他监管要求。

第八条 生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。

第九条 提供生成式人工智能服务应当按照《中华人民共和国网络安全法》规定,要求用户提供真实身份信息。

第十条 提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。

第十一条 提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。

第十二条 提供者不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。

第十三条 提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。

第十四条 提供者应当在生命周期内,提供安全、稳健、持续的服务,保障用户正常使用。

第十五条 对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。

第十六条 提供者应当按照《互联网信息服务深度合成管理规定》对生成的图片、视频等内容进行标识。

第十七条 提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。

第十八条 提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容,不利用生成内容损害他人形象、名誉以及其他合法权益,不进行商业炒作、不正当营销。

用户发现生成内容不符合本办法要求时,有权向网信部门或者有关主管部门举报。

第十九条 提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。

第二十条 提供者违反本办法规定的,由网信部门和有关主管部门按照《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的规定予以处罚。

法律、行政法规没有规定的,由网信部门和有关主管部门依据职责给予警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停或者终止其利用生成式人工智能提供服务,并处一万元以上十万元以下罚款。构成违反治安管理行为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任。

第二十一条 本办法自2023年 月 日起实施。

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。