• llax
    #7
    Az ilyen elemzésekben a szavaknak önállóan nincs sok jelentőségük... Még a teljes szöveg konkrét jelentése is csak másodlagos.
    Pl. egy sablonosan megírt fenyegető üzenetet ilyen módszerekkel személyhez kötni nem lehet.

    Nem ez az első, szöveget elemző módszer. Ebben csak a megközelítés és a várt eredmény újdonság.

    Minden, személyt ill. személyiséget azonosítani próbáló algoritmus a teljes szöveggel dolgozik. Megpróbálja kizárni az idézéseket és minden egyéb idegen eredetű szöveget. Vizsgálja a szöveg tagolását, szósorrendet, a szlengek, szinonimák, írásjelek és szmájlik használatát stb., a megnyilvánulás előzményeit, de még a környezetet is ahová az írását szánta. A legkülönfélébb statisztikai módszerek használatával próbálja elkülöníteni a visszatérő jellemzőket az egyszeri eltérésektől.

    Az így összeállított kép az azonosításban messze elmarad egy ujjlenyomattól vagy DNS mintától, de felér egy fantomképpel... Az, hogy mennyire részletes ez a fantomkép, a nyelvtől nagyban is függ.
    Egy ilyen algoritmust a magyar nyelvre adaptálva igazi "közelkép" is készíthető lenne az egyénről a nyelv sajátosságai miatt. Kb. olyan szinten kell ezt elképzelni, hogy képes lehet összekapcsolni egy szakdolgozatot (no nem másoltat) és egy hosszabbra sikeredett szitkozódó blogbejegyzést vagy fórum hozzászólást...