Znanstveni članek
Predobdelava podatkov za zagotavljanje varnosti in zasebnosti pri uporabi velikih jezikovnih modelov v gradbeništvu
Data preprocessing to ensure security and privacy when using large language models in construction
Avtor(ji):
Anja Brelih, Aleksander Srdić, Jaka Dujc, Robert Klinc
Ključne besede:
veliki jezikovni modeli, zasebnost podatkov, prepoznavanje imenskih entitet, operativno gradbeni_tvo, predobdelava dokumentov
UDK:
004.434:004.8:624
Povzetek:
Prispevek predstavlja izzive zagotavljanja varstva podatkov pri uporabi velikih jezikovnih modelov (VJM) v delovnih tokovih operativnega gradbeništva. Analizira, kako uspešno obstoječa orodja za prepoznavanje imenskih entitet (angl. Named Entity Recognition, NER) zaznajo in anonimizirajo občutljive informacije v tehničnih gradbenih dokumentih, zlasti v slovenskem jeziku. Opravljena je bila kvalitativna evalvacija štirih ogrodij za obdelavo naravnega jezika (SpaCy, SpaCy SLO, Flair, NLTK), ki so bila preizkušena na vzorcu petih dejanskih gradbenih dokumentov in primerjana z ročno anotiranimi referenčnimi podatki. V evalvacijo je bila vključena tudi anonimizacija z VJM, ki je občutljive podatke zakrival z uporabo regularnih izrazov. Rezultati kažejo, da je osnovna anonimizacija sicer mogoča, vendar vsa klasična ogrodja NER slabše prepoznavajo entitete, specifične za področje, kot so projektne šifre, inženirski nazivi ter strukturirani številčni podatki. Ugotovitve kažejo na potrebe po prilagojenih orodjih za predobdelavo, saj netočna anonimizacija predstavlja pravna in etična tveganja pri vključevanju VJM v regulirane panoge, kot je gradbeništvo. Prihodnje raziskave se morajo osredotočiti na gradnjo hibridnih anonimizacijskih tokov in učenje modelov na anotiranih podatkih, da bi izboljšali natančnost in skladnost v tehničnih panogah.