AI世界的新问题:互联网上的信息不够!

高质量数据的短缺正在成为人工智能发展的重要障碍。

4月1日,据媒体报道,随着OpenAI、谷歌等公司不断深入开发AI技术,科技巨头遇到了新的问题:现有的互联网信息量可能不足以支持他们训练更高级的AI系统。

科技巨头的人工智能系统,例如可以与人类聊天的 ChatGPT,通过从互联网学习信息而变得更加智能。 但现在,高质量、有用的信息越来越短缺,同时,一些网站开始限制人工智能公司访问其数据。 一些行业高管和研究人员表示,人工智能行业对高质量文本数据的需求可能会在两年内超过供应,这可能会减缓人工智能技术的发展。

_AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!

面对信息不足的问题,AI企业正在尝试各种方法寻找新的信息源。 例如,OpenAI 正在考虑使用 YouTube 视频中的对话来训练他们的下一代智能模型 GPT-5。 一些公司甚至创建用于学习的合成数据,许多研究人员认为这种方法可能会导致严重的系统故障,但却是克服数据短缺的潜在方法。

据悉,这些努力大多是秘密进行的,因为找到有效的解决方案可以成为企业在激烈竞争中的关键优势。 随着数据需求的不断增长,寻找新的学习材料、与数据拥有者合作、让AI系统变得更加智能已成为该行业的重要准备领域。

OpenAI的GPT-5面临10万亿到20万亿代币数据短缺

AI语言模型的构建依赖于从互联网收集的大量文本数据,包括科学研究、新闻文章、维基百科条目等。这些材料被分解为“令牌”,可以是完整的单词,也可以是单词的部分内容。 通过分析和理解这些标记之间的关系和模式,人工智能模型学习如何生成流畅的自然语言,使其能够回答问题、撰写文章甚至创作诗歌。

AI世界的新难题:互联网的信息不够用了!__AI世界的新难题:互联网的信息不够用了!

模型的能力在很大程度上取决于其训练的数据量。 通常,数据越多,模型的性能就越好,因为它有更多的示例来学习不同的语言用法和复杂性。

OpenAI通过为其GPT系列模型提供海量训练数据不断提升性能,从而成为全球顶尖的AI公司。 这说明了大数据训练对于人工智能发展的重要性。

然而,随着GPT-4模型的不断扩展,OpenAI对数据的需求也在急剧增长。 Epoch Institute 的 AI 研究员 Pablo Villalobos 估计,GPT-4 训练涉及的数据量高达 12 万亿个代币,而未来的模型,例如 GPT-5,可能需要 60 万亿到 100 万亿个代币。 因此,即使使用所有可用的高质量语言和图像数据,开发 GPT-5 仍可能面临 10 万亿到 20 万亿代币的数据短缺。 至于如何填补这一巨大的数据缺口,目前还没有明确的计划。

据媒体报道,为了应对数据短缺的挑战,人工智能公司正在尝试各种方法来寻找新的信息来源。 Meta创始人扎克伯格最近强调,该公司通过Facebook和Instagram等平台拥有的大量数据为其人工智能研发提供了重要优势。 扎克伯格表示,Meta 将能够利用网络上数百亿个公开共享的图像和视频,这些数据超出了最常用数据集的规模,尽管其中高质量数据的比例尚不清楚。

_AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!

AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!_

反过来,OpenAI 考虑了使用其自动语音识别工具 Whisper 转录的高质量视频和音频示例。 此外,OpenAI还考虑建立一个数据市场,评估每个数据点对模型训练的贡献,并据此向内容提供商付费。 这一创新想法也引起了谷歌的注意。

Epoch Institute预测AI数据短缺危机将推迟到2028年

两年前,Villalobos 和同事写道,到 2024 年中期,高质量数据的需求将超过供应的可能性为 50%,到 2026 年,这种情况发生的可能性为 90%。此后,他们变得更加乐观,新的经过人工智能研究员 Pablo Villalobos 及其团队的仔细评估,预期显示这种短缺的风险可能会推迟到 2028 年。

_AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!

这一乐观的更新基于对当前数据质量和可用性的洞察。 Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料。 在无尽的信息流中,只需少量的数据(比之前预期的要小得多)就能对AI模型的成长和发展做出实质性贡献。

与此同时,各大社交媒体平台和新闻出版商也开始限制其数据用于人工智能训练。 他们担心,如果将这些数据随意用于AI训练,可能会导致内容创作者和平台本身失去应有的经济回报。

此外,广大公众保护个人隐私的意识显着增强。 很多人不太愿意提供私人对话,例如 iMessage 中的聊天记录来进行 AI 训练。 人们可能担心自己的隐私可能受到侵犯。

近日,当女记者向CTO Murati询问OpenAI最新模型Sora的训练数据时,Murati未能给出明确答复。 这引发了业界对OpenAI管理层是否重视训练数据来源的质疑。 该事件引发了关于公共领域数据所有权的更广泛讨论——我们在互联网上发布的内容是私有资产还是公共资产?

_AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!

因此,这些因素结合起来造成了数据采集的困境。 随着用户和监管机构加强对数据使用的控制,研究人员必须在隐私保护和数据收集之间找到新的平衡。

股市回暖,先开户抄底买股票! 智能定投、条件委托、个股雷达……给你>>

_AI世界的新难题:互联网的信息不够用了!_AI世界的新难题:互联网的信息不够用了!

AI世界的新难题:互联网的信息不够用了!__AI世界的新难题:互联网的信息不够用了!

海量信息、精准解读,尽在新浪财经APP

© 版权声明
THE END
喜欢就支持一下吧
点赞300赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容