1.B.3.2. Coneix aspectes de seguretat específics de la IA, com els mètodes d’injecció d’indicacions ( prompt injection ) o d’atac advers (adversarial attacks) i estratègies de mitigació.

Anthropic. (2025, 9 de octubre). A small number of samples can poison LLMs of any size. https://www.anthropic.com/research/small-samples-poison

Aquest estudi d’Anthropic, l’Institut Alan Turing i l’UK AISI revela que és possible manipular models de llenguatge amb una quantitat mínima de dades corruptes. La recerca demostra que només 250 documents maliciosos poden crear una “porta del darrere” que s’activa amb frases específiques, independentment de la mida del model. Aquesta troballa és crucial perquè desmenteix la idea que els atacants necessiten controlar un gran percentatge del contingut d’entrenament. L’experiment va utilitzar el desencadenant per forçar els sistemes a generar text sense sentit, provant que la vulnerabilitat és constant des de models petits fins a gegants de 13 bilions de paràmetres. En definitiva, els resultats alerten que l’enverinament de dades és un risc molt més accessible i pràctic del que es pensava anteriorment. Els autors subratllen la necessitat urgent de desenvolupar noves defenses davant d’aquesta amenaça que no depèn de l’escala de la intel·ligència artificial.

|

1.B.3.2. Coneix aspectes de seguretat específics de la IA, com els mètodes d’injecció d’indicacions ( prompt injection ) o d’atac advers (adversarial attacks) i estratègies de mitigació.

Un petit número de dades maliciós pot contaminar un model de llenguatge gran

|

Un petit número de dades maliciós pot contaminar un model de llenguatge gran

Comenceu a escriure i pressioneu la tecla ENTER per cercar