五月天情色 OpenAI任性爬虫,把一家公司齐给爬宕机了,CEO:堪比DDoS
发布日期:2025-01-15 11:05 点击次数:190
OpenAI爬虫风云:小公司奈何应酬数据持取危境五月天情色
AI爬虫激勉的灾荒
万万没料想,能把一家公司网站给搞宕机的元凶,简直是OpenAI任性爬虫的机器东谈主——GPTBot。
(GPTBot是OpenAI早年前推出的一款用具,用来自动持取通盘互联网的数据。
就在最近,一家仅有7东谈主团队的公司Triplegangers碰到了前所未有的挑战。
他们的网站短暂宕机,CEO和职工们赶忙排查问题地点。
不查不知谈,一查吓一跳。
罪魁罪魁恰是OpenAI的GPTBot。
从CEO的描写中来看,OpenAI爬虫的“攻势”是有点任性在身上的:他们有杰出65000种居品,每种居品齐有一个页面,然后每个页面还齐有至少三张图片。
OpenAI正在发送更仆难数的做事器肯求,试图下载系数内容,包括数十万张相片过头详确描写。
在分析了公司上周的日记之后,团队进一步发现,OpenAI使用了不啻600个IP地址持取数据。
如斯界限的爬虫,就导致这家公司网站的宕机,CEO以至无奈地默示:这基本上即是一场DDoS过失。
更庞杂的少许是,由于OpenAI任性地爬虫,还会激勉无数的CPU使用和数据下载活动,从而导致网站在云缠绵做事(AWS)方面的资源消费剧增,支拨就会大幅增长。
嗯,AI大公司任性爬虫,却由小公司来买单。
数据的价值与保护
这家袖珍团队的碰到,激勉了网友们的庸俗磋议。
有东谈主以为GPTBot的作念法并不是持取,更像是“偷窃”的委婉说法。
也有网友现身默示有近似的履历,自从掩饰了大公司的批量AI爬虫,省了一大笔钱。
那么OpenAI为什么要爬虫这家初创企业的数据?
简便来说,它家的数据如实属于高质料的那种。
据了解,Triplegangers的7名成员破耗了十多年的时候,打造了堪称最大“东谈主类数字孪生”数据库。
网站包含从施行东谈主类模子扫描的3D图像文献,何况相片还带有详确的标签五月天情色,涵盖种族、年岁、纹身与疤痕、各式体型等信息。
这关于需要数字化再现信得过东谈主类特征的3D艺术家、游戏制作家等,无疑具有庞杂价值。
诚然Triplegangers网站上有一个做事条件页面,内部明确写了不容未经许可的AI持取他们家的图片。
但从咫尺的成果上来看,这十足莫得起到任何作用。
要点在于,Triplegangers莫得正确确立一个文献——robots.txt。
robots.txt也称为机器东谈主舍弃公约,是为了告诉搜索引擎网站在索引采集时不要爬取哪些内容而创建的。
也即是说,一个网站如果不想被OpenAI爬虫,那就必须正确确立robots.txt文献,并带有特定标签,明确告诉GPTBot不要造访该网站。
但OpenAI除了GPTBot除外,还有ChatGPT-User和OAI-SearchBot,它们也有各自对应的标签。
而且说明OpenAI官方发布的爬虫信息来看,即便你立即正确竖立了robots.txt文献,也不会立即奏效。
因为OpenAI识别更新这个文献可能需要24个小时……CEO老哥对此默示:如果一个网站莫得正确确立robots.txt文献,那么OpenAI和其它公司会以为他们不错开合自由地持取内容。
这不是一个可选的系统。
注重递次与异日瞻望
正因如斯,也就有了Triplegangers在使命时候段网站被搞宕机,还搭上了高额的AWS用度。
适度好意思东时候的本周三,Triplegangers仍是按照要求确立了正确的robots.txt文献。
以防万一,团队还竖立了一个Cloudflare账户来掩饰其它的AI爬虫,如Barkrowler和Bytespider。
诚然到了周四开工的时候,Triplegangers莫得再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——不知谈OpenAI齐从网站中爬了些什么数据,也干系不上OpenAI。
而且令CEO老哥愈加深表担忧的少许是:如果不是GPTBot“贪心”到让他们的网站宕机,他们可能不知谈它一直在爬取他们的数据。
这个历程是有bug的,即便你们AI大公司说了不错确立robots.txt来注重爬虫,但你们把包袱推到了咱们身上。
终末,CEO老哥也命令边远在线企业,要想注浩大公司未经允许爬虫,一定要主动、积极地去查找问题。
但Triplegangers并不是第一个因为OpenAI任性爬虫导致宕机的公司。
在此之前,还有Game UI Database这家公司。
它收录了超56000张游戏用户界面截图的在线数据库,用于供游戏联想师参考。
有一天,团队发现网站加载速率变慢,页面加载时候蔓延三倍,用户往时碰到502造作,首页每秒被再行加载200次。
他们一运转也以为是遭到了DDoS过失,成果一查日记……是OpenAI,每秒查询2次,导致网站险些瘫痪。
但你以为如斯任性爬虫的唯一OpenAI吗?
非也,非也。
举例Anthropic此前也被曝出来过近似的事情。
数字居品使命室Planetary的创举东谈主Joshua Gross曾默示过,他们给客户再行联想的网站上线后,流量激增,导致客户云本钱翻倍。
经审计发现,无数流量来自持取机器东谈主,主如果Anthropic导致的不测思意思流量,无数肯求齐复返404造作。
针对这一风景,来自数字告白公司DoubleVerify的一份新接头透露,AI爬虫在2024年导致“一般无效流量”(不是来自信得过用户的流量)加多了86%。
那么AI公司,尤其是大模子公司,为什么要如斯任性地“吸食”采集上的数据?
数据需求与市集反映
一言蔽之,即是他们太缺用来历练的高质料数据了。
有接头推断过,到2032年专家可用的AI历练数据可能就会耗尽,这就让AI公司加速了数据汇集的速率。
也正因如斯,OpenAI谷歌等AI公司为了得到更多“独家”视频用于AI历练,当今也正纷纷向UP主们重金求购那些“从未公开”的视频。
而且连价钱齐标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频, 每分钟出价为1~2好意思元(总体一般是1~4好意思元),且说明视频质料和圭臬的不同,价钱还能再涨涨。
那么你对这一风景有什么观点呢?
校园春色学姐结语
此次事件不仅揭示了AI公司在数据汇集方面存在的问题,更让咱们看到了小公司在濒临这些巨头时的无力感。
尽管OpenAI等公司在手艺上取得了巨大打破,但在数据采集的历程中,是否应该愈加详确合规性停战德性?
如安在推起初艺杰出的同期,保险中小企业的利益,幸免近似的悲催再次发生?
这些问题值得咱们每一个东谈主潜入想考。
但愿在异日的发展中五月天情色,大要找到一种均衡点,既能让AI手艺络续改进,又能确保各方的利益得到充分保险。