数据丨内容争夺战，AI如何重塑信息的获取与共享

在数字化的浪潮中，数据已经成为了新时代的石油，无论是对个人、企业还是整个社会而言，都拥有着无可比拟的价值。2023年，一个前所未有的变革悄然发生，用户生成内容的价值被全面认识和重视起来，随之而来的是一系列新的限制和规定。这不仅仅是一场关于技术的革命，更是一场关于版权、创新和经济补偿的深刻讨论。从Reddit到Stack Overflow，从Tumblr到Wordpress，乃至全球的新闻出版商，都在这场变革中寻找自己的位置。

然而，这场变革的背后，隐藏着一个更加复杂的问题：在人工智能不断进步的今天，如何在创新的驱动和版权保护之间找到平衡点？网站屏蔽AI爬虫的现象日渐增多，这不仅仅是技术的对抗，更是对未来信息共享与创新路径的深思熟虑。本文将带您深入这场关于数据、创新与版权的较量，探索在人工智能与用户生成内容交织的新时代中，如何寻找到共赢的解决方案。

🖼️

图片 2 2285 × 745px

📷 图片包含在完整版文章中，点击文末按钮查看

有多少网站屏蔽了AI爬虫？

网络爬虫，有时也被称作“蜘蛛”或“机器人”，是一种自动浏览互联网并收集数据的工具。它们对于很多用途都很有帮助。比如，搜索引擎就靠它们来搜集网上的信息，以便当你进行搜索时能快速给出答案。

像OpenAI这样的人工智能公司用爬虫来搜集网上的信息，帮助训练它们的模型。要使这些大型语言模型（LLMs）工作，需要大量的数据，而互联网是获取高质量文本和视听材料的好地方。比方说，研究人员分析了Google的一个叫C4的数据集，发现“新闻和媒体”类内容占了一部分比重。通过这种训练，LLMs像GPT这样的模型能够通过ChatGPT这样的界面回答问题。模型不需要直接连接到互联网，但一旦训练完成，也可以接入互联网，实时从网站获取信息并用于回答问题。这使LLMs成为搜索信息的另一种选择。

但是，出于多种原因，一些新闻出版商可能不希望他们的内容被用来训练人工智能。比如，《纽约时报》就认为应该得到经济补偿。另外，如果人工智能用来获取新闻，可能会产生错误信息，或者读者可能不会被引导回到原网站，影响出版商的收益。有些出版商可能不担心这些问题，甚至希望他们的内容被使用，以便在使用生成式人工智能时他们的内容能够脱颖而出。有的公司，比如Axel Springer，已经同意让OpenAI使用他们的新闻内容回答用户的问题。同时，全世界的新闻出版商都在尝试使用人工智能工具，看看它们是否可以创造新的体验、提高效率和降低成本。

如果出版商不希望人工智能公司访问他们的内容，他们可以设置防止爬虫的措施。通过在网站上添加一个叫robots.txt的文件，他们可以告诉网络爬虫不要来。当OpenAI和谷歌更新他们的爬虫程序时，也提供了如何阻止这些爬虫的说明。

🖼️

图片 3 825 × 433px

📷 图片包含在完整版文章中，点击文末按钮查看

研究发现，到2023年底，十个国家/地区使用最广泛的新闻网站中有将近一半正在阻止OpenAI的爬虫，而有四分之一的网站正在阻止谷歌的爬虫。几乎所有选择阻止谷歌爬虫的网站也同时阻止了OpenAI的爬虫。

随着时间的发展，人工智能公司由最初使用他们能访问的所有数据训练算法，到面临法律诉讼的阶段。艺术家、作家、喜剧演员和图片库等开始对使用他们的作品训练AI提出诉讼，这迫使AI公司重新考虑他们的商业模式。

AI时代，数据的价值有多大？

数据就是AI新时代的石油，没有数据，就没有大模型，人工智能更是无从谈起。在业内意识到数据的价值，开始屏蔽网络爬虫和诉讼的同时，更多的交易在逐步达成。

所有这些都提出了一个非常有趣的问题：数据价值多少，它在哪里，以及如何将其货币化？

一个更关键的问题是这些数据应该满足什么标准才能用于训练算法？通常有如下七大标准。

数据为王，创业公司的机会来了

根据硅谷科技评论（svtr.ai）数据库统计，在ChatGPT推出后，全球近1000多家AI初创公司获得融资，其中330家公司创业方向与数据紧密相关，包括数据的获取、处理、分析以及在各大行业的应用。这里分享两个案例在AI公司使用爬虫大肆抓取数据的背景下，都是成立不到一年帮助数据拥有方实现货币化的初创公司，其中第二家的创始人是来自中国华人团队，创始人现在南加州大学担任副教授。

🖼️

图片 4 1179 × 607px

📷 图片包含在完整版文章中，点击文末按钮查看

TollBit，2023年成立于美国纽约，帮助网站保护其内容免受AI网络抓取的平台。完成700万美元融资，投资方为Sunflower Capital、AIX、Lerer Hippeau、Operator Collective和Liquid 2 Ventures。TollBit 允许人工智能机器人和数据抓取工具直接向网站付费以获取其内容许可。该技术允许网站通过数据和内容货币化，监控网站的机器人流量。

🖼️

图片 5 715 × 715px

📷 图片包含在完整版文章中，点击文末按钮查看

Toshit Panigrahi，联合创始人/CEO。曾在Toast担任新业务负责人，负责研发管理。在Toast期间，他是Toast员工应用、员工云团队、Toast合作伙伴门户的创始工程师，并共同创造了Toast的桌边点餐和扫码支付功能。还是Botler, Inc.的联合创始人，Botler旨在通过构建易于发布和共享的聊天机器人，让任何人都能轻松存储和分享信息，无需建立网站。在波士顿大学获得了计算机科学专业的学士学位，辅修商业管理。

🖼️

图片 6 1227 × 580px

📷 图片包含在完整版文章中，点击文末按钮查看

Sahara，2023年成立于美国洛杉矶，构建“去中心化AI网络”帮助员工和公司获得他们的知识、专长和数据获得补偿。完成了600万美元的种子轮融资，投资方为Polychain Capital、Samsung Next、Matrix Partners、Motherson Group。Sahara 的首批产品Sahara Knowledge Agent (KA)，将是一个适合个人和企业的可定制人工智能代理。与其他 AI 代理相比，Sahara KA 的主要区别在于其货币化方式：训练 Sahara KA 的专家和公司可以因训练模型而直接获得补偿。

🖼️

图片 7 800 × 800px

📷 图片包含在完整版文章中，点击文末按钮查看

Sean (Xiang) Ren，Sahara AI联合创始人/CEO，同时在南加州大学担任副教授。在南加州大学计算机科学系进行自然语言处理和人工智能的研究。此外，他还是艾伦人工智能研究所（AI2）的访问研究科学家，以及信息科学研究所的研究团队负责人。他还在ACM SIGKDD & 年度KDD会议担任信息总监。Sean在伊利诺伊大学香槟分校获得了计算机科学博士学位，并在浙江大学获得了计算机科学工程学士学位。另一位联合创始人 Tyler Zhou，曾就读于加州大学伯克利分校，并于 2022 年和 2023 年在币安实验室担任投资总监。

https://webcache.googleusercontent.com/search?q=cache:https://medium.com/enrique-dans/how-much-is-data-worth-in-the-age-of-generative-ai-1c9df1f7fe2c

https://reutersinstitute.politics.ox.ac.uk/how-many-news-websites-block-ai-crawlers?utm_source=bensbites&utm_medium=newsletter&utm_campaign=daily-digest-figma-to-replit