Anthropic. (2025, 9 de octubre). A small number of samples can poison LLMs of any size. https://www.anthropic.com/research/small-samples-poison
Aquest estudi d’Anthropic, l’Institut Alan Turing i l’UK AISI revela que és possible manipular models de llenguatge amb una quantitat mínima de dades corruptes. La recerca demostra que només 250 documents maliciosos poden crear una “porta del darrere” que s’activa amb frases específiques, independentment de la mida del model. Aquesta troballa és crucial perquè desmenteix la idea que els atacants necessiten controlar un gran percentatge del contingut d’entrenament. L’experiment va utilitzar el desencadenant per forçar els sistemes a generar text sense sentit, provant que la vulnerabilitat és constant des de models petits fins a gegants de 13 bilions de paràmetres. En definitiva, els resultats alerten que l’enverinament de dades és un risc molt més accessible i pràctic del que es pensava anteriorment. Els autors subratllen la necessitat urgent de desenvolupar noves defenses davant d’aquesta amenaça que no depèn de l’escala de la intel·ligència artificial.