你对他们感兴趣吗 OFFERED？使用我们的优惠券节省 WHATSAPP o 电报!

有一个巨大的问题阻碍了神经网络的训练

四月2 2024

在动态的世界中聪明人造，领先的科技公司面临着一个意想不到的挑战，可能会减缓创新的步伐：不断增长的 查找数据困难 训练模型的质量。这种数据短缺正在影响先进技术的发展，例如 GPT-5，而微软和 OpenAI 这样的公司正在寻求创新的解决方案来克服这一障碍。

人工智能培训挑战：对数据的渴求导致进展缓慢

在计算能力空前增长和机器学习技术进步的时代，OpenAI 及其同类面临着悖论：大量的在线数据不会自动转化为人工智能培训的可用资源。这 需要准确的数据、相关性和最新性比以往任何时候都更加重要，特别是在训练日益复杂的模型（例如计划中的 GPT-5）时。

从 GPT-4 到 GPT-5 的过渡说明了数据需求的指数级增长：虽然前者“仅”需要 12 万亿个代币，但对后继者的估计约为 60-100万亿。高质量数据的可用性和需求之间的差异成为一个重大障碍，估计 代币短缺量可能在 10 到 20 万亿之间.

这种质量数据的缺乏转化为人工智能发展的真正瓶颈。网络上存在的经常过时或低质量的数据代表了严重的问题 机器学习有效性的限制。此外，大型平台对数据访问施加的限制只会加剧问题，进一步限制可用于培训的资源语言模型.

为了应对这一挑战，采取的策略从技术创新到战略伙伴关系各不相同。例如，OpenAI 旨在增强通过 Whispe 语音识别工具使用音频和视频数据r，以扩展可用数据池。与此同时，该公司正在探索以下可能性：生成综合数据可以填补现有空白的质量。