1. 3

    Aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…

    C’est justement là que le bat blesse, une IA est par essence, prévu pour piller des données quel que soit le moyen (faut bien l’entraîner), et si elle pille, on ne peut pas leur faire confiance sur le “digne de ce nom”.

    https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/

    Maintenant feel free hein, quel sont les moyens que je peux mettre en oeuvre pour m’assurer que ce n’est pas de l’IA ? C’est vrai qu’il y a une énorme différence entre de l’IA et des scrappers peut vertueux (non).

    Mais on va parler coïncidence hein (j’ai pas envie d’asseoir un éventuel argument d’autorité comme quoi des attaques DDoS j’en ai bouffé professionnellement à la pelle) ;)

    • L’IA explose : le trafic non humain explose.
    • L’IA émerge en chine, le trafic chinois explose.
    • L’IA commence a être bloqué : le trafic “humain” suspect explose.
    • On découvre qu’entraîner toutes les IAs sur du code informatique permet d’avoir de meilleur résultat et BAM toutes les forges logicielles avec un peu de code se font tabasser.

    Punaise, les coïncidences sont folles, mais aucune preuve, juste de curieuse coïncidence dont les schémas se répète partout et pas que sur mon infra.

    Petit point quand même, un DDoS quel qu’il soit à pour unique objectif de dégommer un site. Soi il arrête une fois le site down, soit il continue jusqu’à pourrir l’infra ou juste pendant X temps.

    Ici, à l’instant où le 403 est apparut POUF plus de trafic suspect. Dès qu’il est impossible de lire le contenu, le scraping agressif s’arrête. C’est fou hein. Aucune recherche à mettre mal mon infra, à dégommer mon site principal ni même à le lire. Juste Forgejo. Pour du scraping c’est vachement bizarre de ne lire que la forge surtout chaque petit micro URL de la forge (pourtant j’en ai du site en place, et un paquet), et pour une attaque ça l’est encore plus. Au cas ou, un site down c’est, au mieux, un code 5XX, pas 403.

    1. 1

      L’auteur dit qu’il a 4000 requêtes par minute et annonce “c’est de la faute à l’IA” sans jamais prouver que ce sont bien des bots d’IA à l’origine de ces requêtes (aucune IA digne de ce nom et commerciale ne se fait passer pour un Windows 95…)

      Et une attaque par déni de service distribué, ça n’a rien à voir avec du scraping.

      On mélange les torchons et les serviettes… Mais comme il y a un ennemi commun (l’IA), ça a l’air de générer du buzz. Tant mieux pour dryusdan.

      1. 1

        Non, l’analogie de la bouteille d’eau est tout sauf parfaite.

        Quand un producteur capte l’eau potable, celle-ci n’est plus disponible. Quand une IA scrape une information, l’information reste là où elle est et elle est rendu disponible ailleurs.

          1. 2

            Il y a une coquille dans le lien, il y a un slash en trop au début

            1. 2

              Mais complètement d’accord. L’article original est apparu dans mon flux entre deux articles de blog sur “comment se protéger des scrappers IA qui ont foutu mon serveur par terre”.

              Il est soit confondant de naïveté, soit complètement malhonnête. Ton analogie de l’eau en bouteille est parfaite.

              1. 2
                1. 1

                  une IA ne lit pas pour elle-même. Elle lit pour nous.

                  Elle ne lit pas “pour nous”, parce qu’il n’y a pas de “nous” monolithique.

                  Pour qu’il y ait un “nous” monolithique, il faudrait distinguer d’IA d’une part, et la “communauté humaine” d’autre part.

                  Or, l’IA est une technologie qui capte la valeur à un endroit et la redistribue à un autre endroit.

                  Elle le fait pour le compte de son concepteur, qui est dans la plupart des cas un acteur privé.

                  La vocation de cet acteur est de monnayer ce service rendu (qui est bien réel et parfois époustouflant, je te rejoins).

                  Cette monétisation implique des utilisateurs.

                  La valeur ajoutée produite par l’IA est partagée entre le concepteur (valeur économique ou financière) et les utilisateurs (valeur d’usage).

                  Cette asymétrie de nature entre les valeurs entraine une asymétrie entre les acteurs suivant que l’organisation de la société valorise davantage le capital ou le travail.

                  Cette asymétrie brise l’idée d’un “nous” monolithique. Et la technologie est à la fois le moyen et la finalité de cette asymétrie. Cf. Braverman par exemple.

                  Autrement dit, il n’y a pas un “nous monolithique”, mais des “concepteurs” et des “utilisateurs”. Ce ne sont pas les mêmes. Et entre eux, des rapports de forces qu’on appelle “le marché”, ainsi que des régulations ou des absences de régulation, notamment le droit d’auteur.

                  Une posture éthique passerait par questionner ces rapports de forces indépendamment de la technologie sous-jacente (ni avec elle, ni contre elle, comme c’est encore souvent le cas pour l’IA).

                  (Je peux paraître très critique, ça ne doit pas masquer que je trouve ton post très intéressant)

                  1. 1

                    Très plaisant de voir les avantages concrets du libre pour des professions auxquels on ne s’attend pas : ostéopathe !

                    1. 1

                      Kagi n’est étonnamment pas cité dans l’article, les résultats sont très pertinents et orientés “indieweb” une valeur oubliée depuis trop longtemps par Google

                      1. 1

                        aaaargh mais c’est pour ça que le nom m’avait l’air familier xD

                        1. 2

                          En lisant “Microstack”, j’ai cru que c’était un article sur l’OpenStack packagé par Canonical :D

                          1. 2

                            Il y a une mythologie comme quoi il faut qu’un blogpost ait une image pour illustrer sinon ça perd le lecteur… Avant c’était des images génériques et maintenant c’est du généré par IA.

                            1. 1

                              C’est dommage de gâcher des posts comme ça avec des images aussi moches. Honnêtement, ça m’a choqué quand j’ai cliqué sur le lien : les perspectives foireuses, les crayons cassés, l’aspect “yeux qui saignent”. Et du coup, pas moyen de penser à autre chose en lisant.

                              Faut vraiment arrêter avec les images générées, ça décrédibilise tout le texte qui suit.

                              1. 1

                                Arf, la grosse erreur de typo…Merci c’est corrigé.

                                1. 1

                                  Pourquoi Deeplr ?
                                  C’est juste DeepL non ?

                                  1. 1

                                    Bonjour. Un annonce en demi-teinte :(

                                    cette fonctionnalité ne supporte actuellement que les fichiers JSON non chiffrés.

                                    Bref, à ne pas utiliser ! Les données enregistrées dans KPXC le sont pour être enfermées de manières dites sécurisées, si c’est pour qu’elles se “baladent” sur le grand net en mode non chiffré == non merci !

                                    1. 1

                                      Non, pas gratuit à ce que je lis. Accès libre pensant 8 semaines uniquement (voir le détail sur https://mistral.ai/news/codestral)

                                      “The API Key for this endpoint is managed at the personal level and isn’t bound by the usual organization rate limits. We’re allowing use of this endpoint for free during a beta period of 8 weeks and are gating it behind a waitlist to ensure a good quality of service. This endpoint should be preferred by developers implementing IDE plugins or applications where customers are expected to bring their own API keys.”

                                      1. 2

                                        Dans cet article, nous expliquons comment mettre à jour FreePBX 16 (qui repose sur une base CentOS) vers FreePBX 17 (qui repose sur une base Debian).

                                        1. 1

                                          Ah oui !
                                          Effectivement, mon article date d’un an et demi. Il faudrait le ré-actualiser. Edge s’est remis à la page.

                                          WebP est donc officiellement obsolète.