• 首页
  • 色酷
  • 国产三级
  • 北条麻妃个人资料
  • 欧美性爱第1页
  • 五月天
  • 荿人网站
  • 你的位置:走光 偷拍 > 色酷 > 五月天情色 OpenAI任性爬虫,把一家公司齐给爬宕机了,CEO:堪比DDoS

    五月天情色 OpenAI任性爬虫,把一家公司齐给爬宕机了,CEO:堪比DDoS

    发布日期:2025-01-15 11:05    点击次数:190

    五月天情色 OpenAI任性爬虫,把一家公司齐给爬宕机了,CEO:堪比DDoS

    OpenAI爬虫风云:小公司奈何应酬数据持取危境五月天情色

    AI爬虫激勉的灾荒

    万万没料想,能把一家公司网站给搞宕机的元凶,简直是OpenAI任性爬虫的机器东谈主——GPTBot。

    (GPTBot是OpenAI早年前推出的一款用具,用来自动持取通盘互联网的数据。

    就在最近,一家仅有7东谈主团队的公司Triplegangers碰到了前所未有的挑战。

    他们的网站短暂宕机,CEO和职工们赶忙排查问题地点。

    不查不知谈,一查吓一跳。

    罪魁罪魁恰是OpenAI的GPTBot。

    从CEO的描写中来看,OpenAI爬虫的“攻势”是有点任性在身上的:他们有杰出65000种居品,每种居品齐有一个页面,然后每个页面还齐有至少三张图片。

    OpenAI正在发送更仆难数的做事器肯求,试图下载系数内容,包括数十万张相片过头详确描写。

    在分析了公司上周的日记之后,团队进一步发现,OpenAI使用了不啻600个IP地址持取数据。

    如斯界限的爬虫,就导致这家公司网站的宕机,CEO以至无奈地默示:这基本上即是一场DDoS过失。

    更庞杂的少许是,由于OpenAI任性地爬虫,还会激勉无数的CPU使用和数据下载活动,从而导致网站在云缠绵做事(AWS)方面的资源消费剧增,支拨就会大幅增长。

    嗯,AI大公司任性爬虫,却由小公司来买单。

    数据的价值与保护

    这家袖珍团队的碰到,激勉了网友们的庸俗磋议。

    有东谈主以为GPTBot的作念法并不是持取,更像是“偷窃”的委婉说法。

    也有网友现身默示有近似的履历,自从掩饰了大公司的批量AI爬虫,省了一大笔钱。

    那么OpenAI为什么要爬虫这家初创企业的数据?

    简便来说,它家的数据如实属于高质料的那种。

    据了解,Triplegangers的7名成员破耗了十多年的时候,打造了堪称最大“东谈主类数字孪生”数据库。

    网站包含从施行东谈主类模子扫描的3D图像文献,何况相片还带有详确的标签五月天情色,涵盖种族、年岁、纹身与疤痕、各式体型等信息。

    这关于需要数字化再现信得过东谈主类特征的3D艺术家、游戏制作家等,无疑具有庞杂价值。

    诚然Triplegangers网站上有一个做事条件页面,内部明确写了不容未经许可的AI持取他们家的图片。

    但从咫尺的成果上来看,这十足莫得起到任何作用。

    要点在于,Triplegangers莫得正确确立一个文献——robots.txt。

    robots.txt也称为机器东谈主舍弃公约,是为了告诉搜索引擎网站在索引采集时不要爬取哪些内容而创建的。

    也即是说,一个网站如果不想被OpenAI爬虫,那就必须正确确立robots.txt文献,并带有特定标签,明确告诉GPTBot不要造访该网站。

    但OpenAI除了GPTBot除外,还有ChatGPT-User和OAI-SearchBot,它们也有各自对应的标签。

    而且说明OpenAI官方发布的爬虫信息来看,即便你立即正确竖立了robots.txt文献,也不会立即奏效。

    因为OpenAI识别更新这个文献可能需要24个小时……CEO老哥对此默示:如果一个网站莫得正确确立robots.txt文献,那么OpenAI和其它公司会以为他们不错开合自由地持取内容。

    这不是一个可选的系统。

    注重递次与异日瞻望

    正因如斯,也就有了Triplegangers在使命时候段网站被搞宕机,还搭上了高额的AWS用度。

    适度好意思东时候的本周三,Triplegangers仍是按照要求确立了正确的robots.txt文献。

    以防万一,团队还竖立了一个Cloudflare账户来掩饰其它的AI爬虫,如Barkrowler和Bytespider。

    诚然到了周四开工的时候,Triplegangers莫得再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——不知谈OpenAI齐从网站中爬了些什么数据,也干系不上OpenAI。

    而且令CEO老哥愈加深表担忧的少许是:如果不是GPTBot“贪心”到让他们的网站宕机,他们可能不知谈它一直在爬取他们的数据。

    这个历程是有bug的,即便你们AI大公司说了不错确立robots.txt来注重爬虫,但你们把包袱推到了咱们身上。

    终末,CEO老哥也命令边远在线企业,要想注浩大公司未经允许爬虫,一定要主动、积极地去查找问题。

    但Triplegangers并不是第一个因为OpenAI任性爬虫导致宕机的公司。

    在此之前,还有Game UI Database这家公司。

    它收录了超56000张游戏用户界面截图的在线数据库,用于供游戏联想师参考。

    有一天,团队发现网站加载速率变慢,页面加载时候蔓延三倍,用户往时碰到502造作,首页每秒被再行加载200次。

    他们一运转也以为是遭到了DDoS过失,成果一查日记……是OpenAI,每秒查询2次,导致网站险些瘫痪。

    但你以为如斯任性爬虫的唯一OpenAI吗?

    非也,非也。

    举例Anthropic此前也被曝出来过近似的事情。

    数字居品使命室Planetary的创举东谈主Joshua Gross曾默示过,他们给客户再行联想的网站上线后,流量激增,导致客户云本钱翻倍。

    经审计发现,无数流量来自持取机器东谈主,主如果Anthropic导致的不测思意思流量,无数肯求齐复返404造作。

    针对这一风景,来自数字告白公司DoubleVerify的一份新接头透露,AI爬虫在2024年导致“一般无效流量”(不是来自信得过用户的流量)加多了86%。

    那么AI公司,尤其是大模子公司,为什么要如斯任性地“吸食”采集上的数据?

    数据需求与市集反映

    一言蔽之,即是他们太缺用来历练的高质料数据了。

    有接头推断过,到2032年专家可用的AI历练数据可能就会耗尽,这就让AI公司加速了数据汇集的速率。

    也正因如斯,OpenAI谷歌等AI公司为了得到更多“独家”视频用于AI历练,当今也正纷纷向UP主们重金求购那些“从未公开”的视频。

    而且连价钱齐标好了,如果是为YouTube、Instagram和TikTok准备的未发布视频, 每分钟出价为1~2好意思元(总体一般是1~4好意思元),且说明视频质料和圭臬的不同,价钱还能再涨涨。

    那么你对这一风景有什么观点呢?

    校园春色学姐

    结语

    此次事件不仅揭示了AI公司在数据汇集方面存在的问题,更让咱们看到了小公司在濒临这些巨头时的无力感。

    尽管OpenAI等公司在手艺上取得了巨大打破,但在数据采集的历程中,是否应该愈加详确合规性停战德性?

    如安在推起初艺杰出的同期,保险中小企业的利益,幸免近似的悲催再次发生?

    这些问题值得咱们每一个东谈主潜入想考。

    但愿在异日的发展中五月天情色,大要找到一种均衡点,既能让AI手艺络续改进,又能确保各方的利益得到充分保险。