toad.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
Mastodon server operated by David Troy, a tech pioneer and investigative journalist addressing threats to democracy. Thoughtful participation and discussion welcome.

Administered by:

Server stats:

273
active users

#robotstxt

6 posts5 participants0 posts today

Perplexity AI przyłapane na gorącym uczynku. Firma miała potajemnie omijać blokady stron

Firma Cloudflare, gigant w dziedzinie bezpieczeństwa i infrastruktury internetowej, opublikowała raport oskarżający popularną wyszukiwarkę AI, Perplexity, o stosowanie nieetycznych praktyk.

Według dochodzenia, Perplexity miało używać potajemnych, niezadeklarowanych crawlerów do pobierania treści ze stron internetowych, które wyraźnie zablokowały dostęp dla botów tej firmy.

Dochodzenie Cloudflare zostało wszczęte po skargach od klientów, którzy zauważyli, że Perplexity wciąż indeksuje ich witryny, mimo zastosowania blokad.  Jak się okazało, mechanizm działania był prosty, ale skuteczny. Gdy standardowy bot Perplexity (PerplexityBot) napotykał blokadę, firma miała przełączać się na „tryb stealth”. Używała wtedy crawlerów z generycznym identyfikatorem przeglądarki (np. Chrome), które dodatkowo działały z puli niezgłoszonych adresów IP i różnych sieci, aby ukryć swoją prawdziwą tożsamość. Co najważniejsze, te potajemne boty w ogóle nie próbowały odczytać pliku robots.txt – pliku, w którym właściciele stron określają zasady dla botów.

Skala problemu była ogromna. Cloudflare zaobserwowało takie zachowanie na dziesiątkach tysięcy domen, a liczba zapytań od ukrytych botów Perplexity sięgała milionów dziennie. To praktyka stojąca w sprzeczności z działaniami innych firm, jak OpenAI, które jasno deklarują swoje boty i respektują dyrektywy zawarte w plikach robots.txt skonfigurowanych przez właścicieli stron.

W odpowiedzi na te odkrycia, Cloudflare podjęło zdecydowane kroki. Po pierwsze, firma usunęła Perplexity ze swojej listy „zweryfikowanych botów”, co utrudni jego interakcje ze stronami chronionymi przez Cloudflare.  Po drugie, wprowadzono nowe, heurystyczne zabezpieczenia do swoich reguł. Zamiast blokować konkretne, znane boty, system będzie teraz automatycznie wykrywał i blokował podejrzane zachowania, takie jak próba ukrycia tożsamości przez crawlera. Ochrona ta jest dostępna dla wszystkich klientów Cloudflare. Co ważne, z wdrożonej ochrony przez Cloudflare mogą skorzystać nie tylko podmioty odpłatnie korzystające z usług sieciowego giganta, ale także użytkownicy planów darmowych.

Koniec z przeglądaniem, czas na działanie. Perplexity rzuca wyzwanie Google z przeglądarką AI Comet

Replied in thread

@lina np.

I think it's important to highlight such projects like cuiiliste.de and actually point people at it in the hopes that @ooni and @citizenlab add it to their test lists...

  • Personally I did add it to my blocklist lists not as an endorsement [far from it!] but as a point of reference for #CUII...

Maybe someday I (or someone else) can get around and make a #VirusTotal - style #URL / #Domain checker that provides more than a mere "is clean" / "is sus" / "is dangerous" assessment but a more nuanced answers like:

  • "This domain is blocked by CUII for alleged copyright infringement"

or

and allow for granular, informed decisions (i.e. allow accessing it as a client, but blocking the entire #ASN from accessing one's Servers and thus block non-consensual #Scrapers that violate #RobotsTXT.)

cuiiliste.deCuiiListe.deDie CUII Liste zeigt dir, welche Domains von der CUII gesperrt sind und wie du die Zensur umgehen kannst.

Semrush ist eines der bekanntesten SEO-Analyse-Tools auf dem Markt. Es durchsucht Websites regelmäßig mit seinem Bot (SemrushBot), um Daten wie Keywords, Backlinks, Rankings und vieles mehr von deiner Website zu erfassen und zu analysieren. Hier sind 5 effektive, schnell umzusetzende Methoden, wie du Semrush von deiner Website aussperren kannst. 👇

teufelswerk.net/semrushbot-blo

Crawler, Scraper, Bots und KI von der Website aussperren
teufelswerk | IT-Sicherheit & Cybersecurity · SemrushBot blockieren – So schützt du jede Website, egal ob WordPress, Joomla, Typo3 oder HTMLSemrush ist eines der bekanntesten SEO-Analyse-Tools auf dem Markt. Wir zeigen dir, wie du den SemrushBot blockieren kannst.
Continued thread

Here's #Cloudflare's #robots-txt file:

# Cloudflare Managed Robots.txt to block AI related bots.

User-agent: AI2Bot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: amazon-kendra
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Applebot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: AwarioRssBot
Disallow: /

User-agent: AwarioSmartBot
Disallow: /

User-agent: bigsur.ai
Disallow: /

User-agent: Brightbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: DigitalOceanGenAICrawler
Disallow: /

User-agent: DuckAssistBot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: FriendlyCrawler
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: iaskspider/2.0
Disallow: /

User-agent: ICC-Crawler
Disallow: /

User-agent: img2dataset
Disallow: /

User-agent: Kangaroo Bot
Disallow: /

User-agent: LinerBot
Disallow: /

User-agent: MachineLearningForPeaceBot
Disallow: /

User-agent: Meltwater
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: meta-externalfetcher
Disallow: /

User-agent: Nicecrawler
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: omgili
Disallow: /

User-agent: omgilibot
Disallow: /

User-agent: PanguBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-User
Disallow: /

User-agent: PetalBot
Disallow: /

User-agent: PiplBot
Disallow: /

User-agent: QualifiedBot
Disallow: /

User-agent: Scoop.it
Disallow: /

User-agent: Seekr
Disallow: /

User-agent: SemrushBot-OCOB
Disallow: /

User-agent: Sidetrade indexer bot
Disallow: /

User-agent: Timpibot
Disallow: /

User-agent: VelenPublicWebCrawler
Disallow: /

User-agent: Webzio-Extended
Disallow: /

User-agent: YouBot
Disallow: /

Search Engine Land: Meet LLMs.txt, a proposed standard for AI website content crawling. “While many content creators are interested in the proposal’s potential merits, it also has detractors. But given the rapidly changing landscape for content produced in a world of artificial intelligence, llms.txt is certainly worth discussing.”

https://rbfirehose.com/2025/03/29/search-engine-land-meet-llms-txt-a-proposed-standard-for-ai-website-content-crawling/

ResearchBuzz: Firehose | Individual posts from ResearchBuzz · Search Engine Land: Meet LLMs.txt, a proposed standard for AI website content crawling | ResearchBuzz: Firehose
More from ResearchBuzz: Firehose

Search Engine Journal: Google Publishes New Robots.txt Explainer. “Google published a new Robots.txt refresher explaining how Robots.txt enables publishers and SEOs to control search engine crawlers and other bots (that obey Robots.txt). The documentation includes examples of blocking specific pages (like shopping carts), restricting certain bots, and managing crawling behavior with simple […]

https://rbfirehose.com/2025/03/13/search-engine-journal-google-publishes-new-robots-txt-explainer/

ResearchBuzz: Firehose | Individual posts from ResearchBuzz · Search Engine Journal: Google Publishes New Robots.txt Explainer | ResearchBuzz: Firehose
More from ResearchBuzz: Firehose