各大科技公司都会收集各种数据,而谷歌一直以来也不例外。谷歌会从用户的线上活动中收集数据包括搜索内容、观看的视频、购买的物品、交流对象,以及通过安卓移动设备访问的位置数据。此外,谷歌也在一些情况下会从“可公开访问的来源”手机信息,例如如果你的姓名出现在新闻中,谷歌可能会索引这篇文章,并与搜索你名字的人分享。
这些数据收集都是常态,然而近日谷歌发布了隐私政策更新,变更的部分就是上面所述的公开来源获取的信息。此前,谷歌政策规定,这些数据可用于“帮助训练谷歌的语言模型并构建谷歌翻译等功能”,而更改后对这一政策进行了扩展。新政策写道:“我们可能会收集在线公开或从其他公开来源获取的信息,以帮助训练谷歌的人工智能模型并构建谷歌翻译、Bard 和云人工智能功能等产品和功能。”
包括 ChatGPT 在内的许多 AI 系统的能力强大与否都取决于它们可以收集的数据量。Bard 是谷歌今年早些时候宣布的对 ChatGPT 的对应产品。和其他 AI 一样,它的发展并非一帆风顺。4 月的一份报道表示,几名谷歌员工曾敦促公司不要推出 Bard,因为它在回答查询问题时提供的信息“比没有用还要糟糕”,实际上有员工称它是“幻谎症患者”,即控制不住自己撒谎。
虽然更多的数据可能会让 Bard 变得更“聪明”,但收集数据用于 AI 训练这一行为目前依然在法律上有争议:OpenAI 就因其收集和使用数据训练 ChatGPT 的方式面临多起诉讼。虽然公开信息本来就被收集似乎无伤大雅,但是据《华盛顿邮报》称,AI 模型将会收集包括从维基百科页面和新闻到个人社交网络的每条发言在内所有的信息,而许多人已经对此抱有异议。
此外,信息太多也意味着一些受到版权保护的信息会被用来训练 AI。最近美国作家 Mona Awad 和 Paul Tremblay 就对 OpenAI 提起诉讼,指控 ChatGPT 在未经许可的情况下使用了他们的作品来进行训练,违反了版权法。