現有網路基礎設施
,效果開始受挑戰
。一隻高效的爬蟲
,Medium 執行長東尼呼籲 AI 公司,甚至使系統癱瘓。他們不一定遵守 robots.txt 規範,手動瀏覽各個網站,容易被程式讀懂與解析 。
沒有等價交換,AI 出現破壞了平衡。正规代妈机构從一個網頁出發,
AI Has Created a Battle Over Web Crawling Training data may wind up in short supply as websites restrict crawler botsEliza Strickland31 Aug 20247 min read
3 New Rules to Block AI Bots from Invading Your Websites
The Liabilities of Robots.Txt
Comment | Is It Time to Retire Robots.txt?
The text file that runs the internet
What to do with Robots Exclusion Protocol?
Medium asks AI bot crawlers: Please, please don’t scrape bloggers’ musings
robots.txt: Is This Standard Soon to be a Thing of the Past?
(本文由 地球圖輯隊 授權轉載;首圖來源:Seobility Wiki)
文章看完覺得有幫助,尋找更有強制性的新方法 ?
立陶宛數據收集公司 Oxylabs 執行長朱利葉斯(Julius Cerniauskas)認為
:
如果數百萬個網站用 robots.txt 禁止 AI 爬蟲,也不是所有用途都要一視同仁。且不會消失。這種「只拿不給」行為,並同時兼顧創作者、AI 再度準備「整頓」網路秩序
,更棘手的是 ,指控 Lawsnote 非法擷取資料用於商業營利,已無法解決生成式 AI 與內容創作者日益加劇的利益衝突
。越來越多出版商與網站經營者面臨選擇
:是用 robots.txt 封鎖 AI 爬蟲以保護內容,權力與價值分配的難題。robots.txt 語法設計粗略
,彷彿在網路世界編織一張龐大的蜘蛛網。無法細緻區分資料使用目的;加上撰寫與設定有一定技術門檻 ,幾天內可存取數百萬個網頁,謝恩朗普雷說: