AI时代,媒体内容价值或将重估

在过去的几年中,大模型的参数规模呈几何级数增长。

2018年OpenAI发布GPT-1时,参数数量只有1.17亿。两年后,GPT-3将参数的大小扩大了一千倍,达到1750亿。到了2021年,Google发布了Switch Transformer,参数数量已经提升到万亿量级。虽然OpenAI还没有公布GPT-4的参数,但是根据业内的信息,GPT-4的参数可能达到1.8万亿,训练所需的数据集高达13万亿Token。

人类对数据的渴求从未像今天这样强烈。7月,加州大学伯克利分校计算机科学教授斯图尔特·拉塞尔(Stuart Russell)警告称,由ChatGPT等人工智能驱动的机器人可能很快“在宇宙中耗尽文本”。专注于AI的研究机构Epoch预测,机器学习将在最多三年内耗尽所有高质量的语言数据集。

其中,中国数据处于劣势。在W3Techs每日更新的全球互联网语言排名中,中文网站仅占1.4%,仅略高于越南语,而英语占53%。目前,中文语料库仅占全球50亿模型数据训练的1.3%。

“很多人担心计算能力,但真正的问题是数据。”HKUST(广州)副副总裁、人工智能领域总监熊辉近日参加了凤凰卫视举办的大型模型数据研讨会。他表示,整体中文数据只占人类知识整个数据体系的一小部分,如何真正实现中国大模型的跨语言系统、跨文化系统,在构建高价值、高质量、全方位的数据集方面仍面临巨大挑战。

越来越多的分析机构将高质量的数据纳入影响大模型开发的核心因素。中信智库发布的《人工智能十大趋势》中指出,未来一个模型的好坏将由算法20%、数据质量80%决定。”高质量的数据将是提高模型性能的关键.”

但问题是,高质量的数据从何而来?

媒体数据可能是AI训练的有益补充。

OpenAI用于训练GPT模型的大部分数据来自互联网上的公开数据,如维基百科词条、已出版的书籍、杂志和期刊等。,但大部分数据来自网站爬虫。例如,GPT 3号从社交平台Reddit抓取了大约50GB的数据,从网络数据库Common Crawl抓取了大约570GB的数据。

这些数据并不是现成可用的,来自互联网的数据复杂无序,还需要大量的数据标注和清洗,才能用来训练AI。此前有外媒报道称,OpenAI雇佣了来自肯尼亚、乌干达和印度的外包员工为其过滤互联网上的有害信息,一度引发市场争议。

AI训练中使用的数据的合规性也越来越受到关注。今年,Reddit和Twitter等社交平台收紧了政策,以阻止第三方获取平台数据,包括《纽约时报》和路透社在内的多家媒体机构被曝已经屏蔽了OpenAI的网络爬虫程序。针对AI滥用数据的抗议和诉讼不断发生。反对者包括作家、编剧、艺术家、程序员。

为了保证高质量数据的供给,OpenAI最早的尝试是与新闻媒体合作。7月,美联社与OpenAI达成合作,授权OpenAI使用其制作的部分新闻内容训练大型模型。文字材料最早可以追溯到1985年。OpenAI首席运营官布拉德·莱特卡普(Brad Letkarp)表示,“美联社的反馈和OpenAI对其高质量、真实文本档案的访问将有助于提高OpenAI系统的能力和实用性。”

外界对此次合作的评价持肯定态度。有分析认为,新闻媒体的内容真实、客观、中立,有助于提高大比例模型的效果,减少训练时间。在预训练阶段使用更多的媒体数据,也会抑制早期AI容易产生的偏见、仇恨等负面内容。

华泰证券在研究报告中表示,高质量的数据将是未来ai大模式竞争的关键因素,未来专业、垂直的内容平台有望成为中国高质量中文数据集的重要来源。

在众多电视媒体中,凤凰卫视可能最先意识到媒体数据对于AI训练的价值,积极拥抱AI浪潮,寻求改变和突破。凤凰卫视近日推出AI数据服务,发布了首批10万对问答的“中文访谈对话数据集”和“正值对齐数据集”。

凤凰卫视媒体副总经理冯伟表示,他们去年首次尝试将平台内容组织成数据集。原因之一是他们在与高校和科技公司的接触中发现,高质量的中文语料库非常匮乏。经过几个月的采访和调查,他们认为高质量的数据语料库将是AI时代中国文化的新载体,因此决定参与高质量中文数据集的建设。

这一行动受到了许多行业公司的欢迎。新浪移动首席执行官、新浪AI媒体研究院院长王微、微博首席运营官呼吁更多媒体机构加入到中文数据集的建设中来。“它为人工智能技术提供了丰富多样的数据源,有助于增强人工智能模型对中国文化的理解。”

参加凤凰卫视数据研讨沙龙的华为云ei产品部总监游鹏表示,华为希望与凤凰卫视共同打造数据黑土地,共同探索行业自下而上的数据合作路径和商业模式,共同打造“数据-算力-商业”大飞轮,推动数据产业发展。

据介绍,凤凰卫视近期推出的数据服务包括两部分。一个是优质数据集市,即基于凤凰内容的数据集产品;二是与数据集对接的一站式AI训练平台。AI训练平台将与数据集市连接,并提供一系列以数据为中心的服务,可以大大降低数据处理和AI训练的门槛和成本。

在海外,除了美联社和OpenAI的合作,最近也有消息称,包括《纽约时报》、《卫报》和新闻集团在内的媒体机构正在讨论与科技公司的合作。从这个角度来说,凤凰卫视的终结,或许给很多媒体机构提供了一个可以借鉴的范本。

具有凤凰特征的人工智能数据集

目前用于中文大模型训练的数据集大致可以分为以下几类:

1.平台有自己的数据。百度、阿里、腾讯等互联网巨头凭借自身生态积累了大量数据资产。

2.国内开源数据。大多由高校、科研院所、科技公司联合发布。比如清华大学和北京致远人工智能研究院联合发布的WuDaoMM数据集,中国人民大学发布的COCO-CN数据集。

3.海外开源数据。包括英文数据集产品和网站爬虫内容。如维基百科、常见抓取等网站数据,以及政府机构、高校、开源组织发布的大量数据集产品。相比较而言,海外数据集的质量和丰富度更高。

其中,来自专业媒体的高质量语料数据少之又少。凤凰卫视负责数据集产品的冯伟认为,他们推出的数据集产品根植于凤凰的内容本身,试图将内容本身的特性嫁接到数据集产品上。

其中一个特点就是这家媒体多年来一直秉承的全球视野。公开资料显示,凤凰卫视在全球拥有60个记者站,可以带来更加及时准确的第一手新闻资讯。更加及时准确的信息有利于提高AI模型的理解能力。

“所有的数据开发必须更加及时、快速和灵敏.”凤凰卫视执行副总裁兼运营总裁李奇表示,人工智能的到来加速了人类数据的进化和构建,领先企业正在不遗余力地获取最新数据,以确保大模型的知识不会落后。

GPT-3.5的信息只停留在2022年1月,最新的GPT-4涡轮升级到今年4月。马斯克的人工智能公司xAI发布的最新大模型Grok可以实时访问X平台(Twitter)的数据,非常及时,这让它可以无障碍地了解最新的热点话题。

时效性是媒体数据相对于其他传统数据集产品最明显的优势。媒体内容产品包括文本、视频、语音等多模态内容,其信息丰富性、时效性和后续更新性是传统数据产品无法比拟的。事实上,凤凰卫视在发布第一批数据集产品时,就强调他们会定期更新数据集内容,以保证内容的时效性。

“作为一个覆盖台湾、互联网、屏幕、杂志、终端的全媒体平台,凤凰卫视每天都会产生大量的多模态内容,这些可持续的内容数据为我们开发数据集产品提供了天然的优质基础。”冯伟说。

但凤凰卫视可能更多的是被其《问答中国》、《名人面对面》等王牌脱口秀节目所津津乐道,以及金融论坛、零碳使命、世界文化论坛等国际顶级峰会中精英人物的思想,而这些在目前来看都是相对匮乏的。据介绍,凤凰卫视发布的首批“中国访谈对话数据集”基于其访谈节目,规模达百万轮。

(凤凰卫视《问答中国》特别节目——智能时代,未来已来。对话中国工程院院士、国家新一代人工智能战略咨询委员会主任潘云鹤;彭城实验室主任、中国工程院院士高文;世界工程组织联合会主席龚克;中国工程院院士、信息内容安全技术国家工程实验室主任方滨兴)

面试是与基于ChatGPT的人工智能最接近的交流方式。冯伟说,他们的访谈数据集最大的特点是持续对话,平均超过30轮;而且话题多样,涉及时事热点、精英人物、传统文化甚至经济科技。

另一个特点是整个内容来自真实的访谈,可以最直观的展现人与人之间的对话模式,这也一直是生成式人工智能培训的难点之一。

此前,人工智能公司的大部分数据清洗工作仍然是数据标注等基础劳动,但随着ChatGPT的普及,人工智能公司不得不投入更多的人力来训练AI更像人类一样回答。

据报道,在训练GPT-4时,OpenAI招募了大量员工来“指导”AI,使其答案更接近人类的预期。这在业内被称为“基于人类反馈的强化学习”(RLHF)。目前国内科技公司也开始密集招聘大量有一定知识背景的AI培训师,要求本科甚至硕士学历,月薪高达4万。

冯伟表示,媒体内容的语料库是一项具有挑战性的任务,它涉及到包括自然语言处理、计算机视觉和音频识别在内的各种人工智能技术的应用。在数据完善方面,他们为每个话题附上相关的语境信息,包括人物介绍和话题背景。他们还完成了基于知识图谱的知识补充。

目前凤凰卫视发布的第一批访谈对话数据集仍以文字为主,并计划后期推出多模态数据集产品。据介绍,凤凰卫视计划明年分三批发布更多优质数据集,包括面向财经领域的评论数据集、面向视频内容理解的视频问答数据集、面向数字人的对话动作数据集和语音合成数据集。

此外,他们还计划与相关数据合作伙伴合作,建立具有高价值和稀缺性的高质量数据集,包括中文图文对、中文图书和网络流行语。

03大模型的“正价值”

媒体数据的另一个优势在于媒体内容本身的客观中立性,或将有助于减少AI模型的负面内容。

此前,已有多个国家和地区公布了人工智能监管法案。欧盟今年6月投票通过了《人工智能法案》,要求任何应用于就业、边境控制和教育等“高风险”用例的人工智能都要遵守一系列安全要求,包括风险评估、确保透明度和提交日志记录。对于ChatGPT这样的生成式人工智能,在训练模型时,需要公开使用了哪些有版权的数据。

我国8月正式发布的《生成性人工智能服务管理办法》明确提出,在算法设计、训练数据选择、模型生成和优化、服务提供过程中,应当采取有效措施防止国籍、信仰、国别、地区、性别、年龄、职业、健康等歧视。

美国总统拜登10月签署的人工智能监管法要求美国最强人工智能系统的R&D人员与政府分享他们的安全测试结果和其他关键信息,同时建立检测人工智能生成内容和验证官方内容的标准和最佳实践,以帮助人们防止人工智能驱动的欺诈。

11月初,在英国举行的首届全球人工智能安全峰会上,包括中国在内的与会各国共同发表了《布莱奇利宣言》,与会各国同意共同努力构建国际前沿人工智能安全科研网络,加深对人工智能风险的认识。

“这是第一次在国际共识中认识到并正视人工智能的副作用。”李奇认为,这表明这种迅速出现的技术已经真正来到每个人身边。

人工智能的价值取向在业内常用来描述人工智能是否与人类价值观一致。ChatGPT诞生之初,仍然产生了涵盖种族歧视和灭绝人类的内容。随着过去一年大模型的快速发展,更多的业内人士认为,价值契合度将是衡量大模型能力的重要指标。

“一个强大的人工智能模型可以做很多事情,但它也承担着巨大的风险。”上海交通大学副教授刘鹏飞在一个大型模型的价值对齐研讨会上表示,没有对齐的大型模型不仅会产生大量虚假甚至有害的信息,还会在高端应用中产生巨大的隐患。

凤凰卫视发布的首个数据集包括“正值对齐数据集”。据介绍,该数据集基于凤凰和权威学术团队的研究成果,由凤凰卫视专业内容团队手工编写,规模达10万问答对。每个问答对都包含正反答案,可以提高模型在正值对齐方面的鲁棒性。

建构人工智能的正面价值并不容易。腾讯研究院秘书长张在一次活动中表示,价值一致性将成为人工智能产品的重要竞争力,因为这一目标需要各种技术和治理措施的结合。如何让监督、理解和设计AI模型的能力与模型本身的复杂程度同步发展,也是需要考虑的。

但至少,作为新闻媒体,凤凰卫视的“正值对齐数据集”尝试迈出了第一步。

凤凰卫视执行副总裁兼运营总裁李奇表示,凤凰卫视作为立足香港、背靠内地、面向全球发展的国际媒体,也将是人工智能时代的积极参与者,期待发挥凤凰传媒平台优势,建立行业共享数据平台,共同推动人工智能快速发展。

您可能还喜欢...