Napi Online
Digitális kincsesbányák a szövegekben
Internetes fórumok, orvosi receptek, kallódó e-mailek: e valószínűtlen lelőhelyekből a szövegbányász szoftverek alkalmasint hasznosabb információkat hoznak felszínre a vállalatok számára, mint a direkt piackutatások.
A releváns információk négyötöde szöveges, azaz strukturálatlan formában áll a vállalatok rendelkezésére. Ahhoz, hogy az óriási, nyers adathalmazból hasznos tudás és versenyelőny szülessen, fejlett matematikai, statisztikai és mesterséges intelligencia-algoritmusokra van szükség - ebben nyújt segítséget az adatbányászat tudományának legalapvetőbb ága, a szövegbányászat (text mining).
E szoftverek percenként akár egy gigabájtnyi adatot is képesek feldolgozni, a lelőhelyek közé pedig szinte bármilyen elektronikus formában tárolt állomány bevonható az e-mailektől kezdve az internetes fórumokig. Nem véletlen, hogy a szövegbányászat egyik fő területe a konkurenciafigyelés: a felhasználó a versenytársakra vonatkozó pozitív és negatív vélemények arányát a hozzászólások számával és az eltelt idővel súlyozva alkothat bizalmi indexet. A módszer automatikus sajtófigyelésre is alkalmazható, ráadásul a fórumozók és újságírók önként nyilvánított véleménye alkalmasint őszintébb, mint a piackutatásból kinyerhető információk.
Az interneten fellelhető adatdömping használható termékek, szolgáltatások, koncepciók teszteléséhez, kampányok hatásának vizsgálatára, fejlesztési irányok ellenőrzéséhez, a vállalat általános megítélésének felméréséhez, vagy egyes részlegek, folyamatok minősítéséhez. Az ügyfelekkel folytatott levelezés, a call centerek hívásairól született szöveges feljegyzések vizsgálatával jelentősen javulhatnak a vállalat ügyfélkapcsolatai.
A szövegbányászat első lépése a témaspecifikus alapszótárak, véleményszótárak megszerkesztése, majd karbantartása és folyamatos aktualizálása. A szoftverek ezek alapján képesek a szövegrészleteket a megfelelő kategóriákba sorolni, a rejtett kapcsolatokat feltárni, majd prediktív elemző alkalmazásokkal együttműködve modelleket létrehozni. A felhasználási lehetőségek szinte végtelenek. A gyógyszeriparban, vegyiparban, orvostudományban dolgozók vizsgálati dokumentumok, zárójelentések, receptfelírási szokások elemzését végezhetik el. A bűnüldöző szakembereknek alkalmasint több ezer oldalnyi dokumentumból kell összefüggéseket feltárniuk ügyek, személyek vagy szervezetek között, ami szintén gyorsabb és olcsóbb lehet a szövegbányászat segítségével.
Rövidesen ráadásul arra sem lesz szükség, hogy call centerek hívásairól vagy más audio állományokról szöveges kivonat készüljön. Egyre nagyobb teret hódít a hangbányászat (voice mining), amely mesterséges intelligencia lévén már a hívók érzelmeire is következtetni tud, sőt megtörténtek az első lépések a kép- és videobányászat területén is. Az elsősorban statisztikai alkalmazásairól ismert SPSS szövegbányász megoldása például egy magyar autós fórum közel negyvenezer hozzászólásából állított fel preferencia-sorrendet 1500 hazai autószervizre.
A releváns információk négyötöde szöveges, azaz strukturálatlan formában áll a vállalatok rendelkezésére. Ahhoz, hogy az óriási, nyers adathalmazból hasznos tudás és versenyelőny szülessen, fejlett matematikai, statisztikai és mesterséges intelligencia-algoritmusokra van szükség - ebben nyújt segítséget az adatbányászat tudományának legalapvetőbb ága, a szövegbányászat (text mining).
E szoftverek percenként akár egy gigabájtnyi adatot is képesek feldolgozni, a lelőhelyek közé pedig szinte bármilyen elektronikus formában tárolt állomány bevonható az e-mailektől kezdve az internetes fórumokig. Nem véletlen, hogy a szövegbányászat egyik fő területe a konkurenciafigyelés: a felhasználó a versenytársakra vonatkozó pozitív és negatív vélemények arányát a hozzászólások számával és az eltelt idővel súlyozva alkothat bizalmi indexet. A módszer automatikus sajtófigyelésre is alkalmazható, ráadásul a fórumozók és újságírók önként nyilvánított véleménye alkalmasint őszintébb, mint a piackutatásból kinyerhető információk.
Az interneten fellelhető adatdömping használható termékek, szolgáltatások, koncepciók teszteléséhez, kampányok hatásának vizsgálatára, fejlesztési irányok ellenőrzéséhez, a vállalat általános megítélésének felméréséhez, vagy egyes részlegek, folyamatok minősítéséhez. Az ügyfelekkel folytatott levelezés, a call centerek hívásairól született szöveges feljegyzések vizsgálatával jelentősen javulhatnak a vállalat ügyfélkapcsolatai.
A szövegbányászat első lépése a témaspecifikus alapszótárak, véleményszótárak megszerkesztése, majd karbantartása és folyamatos aktualizálása. A szoftverek ezek alapján képesek a szövegrészleteket a megfelelő kategóriákba sorolni, a rejtett kapcsolatokat feltárni, majd prediktív elemző alkalmazásokkal együttműködve modelleket létrehozni. A felhasználási lehetőségek szinte végtelenek. A gyógyszeriparban, vegyiparban, orvostudományban dolgozók vizsgálati dokumentumok, zárójelentések, receptfelírási szokások elemzését végezhetik el. A bűnüldöző szakembereknek alkalmasint több ezer oldalnyi dokumentumból kell összefüggéseket feltárniuk ügyek, személyek vagy szervezetek között, ami szintén gyorsabb és olcsóbb lehet a szövegbányászat segítségével.
Rövidesen ráadásul arra sem lesz szükség, hogy call centerek hívásairól vagy más audio állományokról szöveges kivonat készüljön. Egyre nagyobb teret hódít a hangbányászat (voice mining), amely mesterséges intelligencia lévén már a hívók érzelmeire is következtetni tud, sőt megtörténtek az első lépések a kép- és videobányászat területén is. Az elsősorban statisztikai alkalmazásairól ismert SPSS szövegbányász megoldása például egy magyar autós fórum közel negyvenezer hozzászólásából állított fel preferencia-sorrendet 1500 hazai autószervizre.