SAITYNO PASLAUGOMIS GRINDŽIAMAS DAUGIAMAČIŲ DUOMENŲ ANALIZĖS ĮRANKIS Loreta Chudzij 1, Povilas Treigys 2 1 Informatikos mokslų centras 2 Vilniaus universitetas Matematikos ir informatikos institutas Anotacija. Technikoje, medicinoje, ekonomikoje, ekologijoje ir daugelyje kitų sričių nuolatos susiduriama su daugiamačiais duomenimis. Kuo didesnės apimties duomenys, tuo sunkiau suvokti jų visumos ypatybes. Mokslininkai yra sukūrę daugybę daugiamačių duomenų analizės metodų tai įvairūs klasifikavimo, klasterizavimo, dimensijos mažinimo ar metodai. Jais galima nustatyti stebimų duomenų artimumą, sudaryti taisykles, pagal kurias duomenys būtų grupuojami. Duomenų struktūrų, taisyklių suvokimui pagerinti taip pat galima taikyti įvairius duomenų vizualizavimo metodus. Atsižvelgiant į tai, kad duomenų apimtis būna labai didelė ir šiems apdoroti išnaudojama daug skaičiavimo resursų, vizualizavimo metodai yra įgyvendinti kompiuterių telkiniuose. Algoritmai yra išlygiagretinami, tokiu būdu kiekvienas telkinio mazgas gauna savo skaičiavimo užduotis. Straipsnyje trumpai pristatomos duomenų tyrybos sistemos, jų teikiamos galimybės, pristatoma darbų sekų sąvoka, sistemų veikimo principai, apžvelgiama nauja, šiuo metu Lietuvoje pradėta vystyti duomenų analizės infrastruktūra skirta moksliniams tyrimams ir jos pagrindu kuriamas duomenų analizės įrankis grindžiamas saityno paslaugomis. Raktiniai žodžiai: duomenų tyryba, paskirstyti skaičiavimai, saityno paslaugos. 1. Įvadas Šiandieniniame pasaulyje įvairiuose mokslinių tyrimų srityse kaupiami ir analizuojami didelės apimties daugiamačiai duomenys. Vystantis technologijoms, tobulėjant kompiuteriams ir programinei įrangai, tokių duomenų tik daugėja ir tyrėjams tampa vis sunkiau tokius duomenis suprasti [8]. Tokiais atvejais duomenų analizei pasitelkiama duomenų tyryba. Duomenų tyryba tai procesas, kuriuo metu iš duomenų išgaunama informacija ir žinios, kurios leidžia lengviau interpretuoti duomenis. Duomenims apdoroti, bei žinioms išgauti dažniausiai naudojamos duomenų tyrybos sistemos, kurios apdoroja didelės apimties daugiamačius duomenis. Daugiamačiai duomenys tai objektai (žmonės, įrenginiai, augalai, gamtos reiškiniai), kuriuos charakterizuoja keletas ar keliolika faktinių parametrų, dar vadinamų požymiais [7]. Dažnai analizės reikalaujantys daugiamačiai duomenys yra didelės apimties, tam kad juos suprasti ir atlikti tokių duomenų analizę, reikia panaudoti daug skaičiavimo išteklių. Pavienių kompiuterių skaičiavimo išteklių tokiais atvejais neužtenka, tuomet tokius uždavinius spręsti pasitelkiama paskirstytoji duomenų tyryba (angl. Distributed Data Mining). Jos metu duomenų tyrybos uždavinys tam tikrais būdais suskirsčius analizuojamus duomenis, lygiagrečiai sprendžiamas kompiuterių klasteryje (angl. Computer Cluster) arba griduose (angl. Computer Grid). Kompiuterių klasteris tai į vieną bendrą tinklą sujungti kompiuteriai, kurie geba vykdyti paskirstytus skaičiavimus. Klasteris gali būti suvokiamas, kaip paskirstyta fiksuoto pajėgumo skaičiavimo išteklių sistema susidedanti iš atskirų skaičiavimo mazgų. Gridas tai kaip ir klasteris yra laisvai prieinama, suderinta infrastruktūra, tačiau jį sudaro atskiri skaičiavimų klasteriai, be to gridas gali būti plečiamas dinamiškai t. y. vykdant skaičiavimus prijungiami papildomi skaičiavimų mazgų klasteriai. Kompiuterių klasteris skiriasi nuo grido ir tuo, jog klasterį paprastai sudaro homogeniniai, o gridą heterogeniniai skaičiavimo mazgai [16]. Esant galimybei pasinaudoti tokiu būdu organizuotais techniniais skaičiavimo ištekliais galima vykdyti skaičiavimui imlias užduočių (algoritmų) sekas. Mokslinė užduočių seka (angl. Scientific Workflows) tai junginys, kurį sudaro mokslo tyrimais grindžiami problemų sprendimai ir jų organizavimas kaip tradicinės darbų sekos Šis junginys tai kompiuterinės programinės įrangos pagalba sukurti užduočių sekų vykdymo scenarijai, reikalaujantys pateikti pradinių duomenų rinkinį, kurį galėtu apdoroti algoritmai, ir grąžinanti vaizdinius ir skaitinius duomenų rinkinių apdorojimo rezultatus. Taigi, tokios užduočių sekos yra priemonė, kurios pagalba galima modeliuoti, projektuoti, vykdyti, analizuoti, keisti ir saugoti vaizdinius ar skaitinius duomenis siekiant ištirti ir nustatyti duomenų tarpusavio sąryšius ar kitus dėsningumus. Kurti užduočių sekas naudojamos mokslinių užduočių sekų sistemos (angl. Scientific Workflows System). Šios sistemos susideda iš įvairių algoritmų, kurių rezultatų apskaičiavimas reikalauja didelių skaičiavimo, duomenų perdavimo ir saugojimo resursų. Vienos populiariausių duomenų tyrybos sistemų tai Weka [12], Knime [14] ir Orange [4]. Šiose sistemose yra įgyvendinti klasifikavimo, klasterizavimo, regresijos, gerokai rečiau daugiamačių duomenų vizualizavimo (dimensijos mažinimo) algoritmai. Siekiant pasinaudoti minėtomis sistemomis šias reikia parsisūsti ir įsidiegti kompiuteryje, o tai iš esmės apsunkina galimybę pasinaudoti nutolusiais skaičiavimo išteklių telkiniais tokiais kaip klasteris ar gridas, kurių užduočių įgyvendinimas yra grindžiamas saityno paslaugų principu. Saityno paslaugos (angl. Web Service) yra gana nauja interneto taikomųjų programų rūšis. Šios taikomosios programos gali vykdyti paprastas užklausas ir skaičiavimus, susijusius su sudėtingais procesais. Jos sparčiai plinta dėl jų paprasto panaudojimo ir į paslaugas orientuotos architektūros (angl. Service Orientied Architecture, SOA) plataus 23
taikymo įvairiose mokslo tyrimų srityse. Paprastumą lemia tai, jog šias paslaugas galima apibūdinti kaip objektus, veikiančius interneto aplinkoje [25]. Paslauginė architektūra (SOA) grindžiama struktūrizuotu rinkiniu diskrečių programinės įrangos modulių, kurie veikdami bendrai įgyvendina programinės įrangos funkcionalumą. Šiuo požiūriu SOA iš esmės supaprastina bendradarbiavimą tarp kompiuterinių išteklių sujungtų į vieną tinklą [24], kadangi paslaugos veikia sistemos viduje, o kiti sistemos komponentai besinaudojantys paslauga nežino, kaip jos užtikrina savo funkcijas svarbus tik paslaugos grąžinimo rezultatas. Saityno paslauga yra pasiekiama standartiniais interneto protokolų rinkiniais [16]. Vieni populiariausių protokolų yra SOAP (angl. Simple Object Access Protocol) ir REST (angl. Representational State Transfer). Tam, kad saityno paslaugos serveris ir klientas galėtų vienodai interpretuoti tiek siunčiamus, tiek gaunamus duomenis, yra naudojamas saityno paslaugos teikiamo funkcionalumo aprašas. Aprašas yra pateikiamas WSDL (angl. Web Service Description Language) kalba kuri yra grindžiama XML formatu. Šis aprašas užtikrina bendravimo procesą tarp paslaugos ir paslaugos kliento. Aprašas nusako paslaugų sąsają, paslaugos adresą (t. y. nuorodą į saityno paslaugą), paslaugos funkcijų įvesties ir išvesties duomenis, jų tipus, aprašus ir kt. [26]. Vienos populiariausių šiuo principu grindžiamų sistemų yra: Weka4WS [29], Orange4WS [20], Taverna [17], ClowdFlows [15]. Augantis susidomėjimas tokiomis sistemomis kilo tuomet, kai išpopuliarėjo e-mokslo (angl. E-Science) technologijų taikomųjų programų kūrimas. Dažniausiai e-mokslo tyrimų projektai įgyvendinami skaičiavimams panaudojant kompiuterių tinklų technologijas leidžiančias vykdyti užduočių sekas pasitelkiant saityno paslaugų paradigmą. Taigi, e-mokslo kaip krypties tikslas suteikti galimybę tyrėjams nepriklausomai nuo jų turimos įrangos atlikti turimų duomenų rinkinių tyrimus paskirstytuose skaičiavimo ištekliuose, pasinaudojant viešai prieinamais ir sistemų teikiamais užduočių sekų sudarymo įrankiais. Duomenų tyrybos sistemos kuriamos ir Lietuvoje. Vilniaus universiteto Matematikos ir informatikos instituto (VU MII) mokslininkai yra sukūrę interneto naršykle valdomą sistemą įgyvendinančią tokius daugiamačių duomenų vizualizavimo metodus kaip pagrindinių komponenčių analizė, santykinės daugiamatės skalės ir kt. [9]. Sukurta sistema suteikia galimybę vykdyti eksperimentus, vizualizuoti didelės apimties duomenų aibes (1 pav.). 1 pav. Daugiamačių duomenų vizualizavimo sistema Atsižvelgiant į tai, kad daugiamačių duomenų vizualizavimo metodai reikalauja daug skaičiavimo sąnaudų skaičiavimai atliekami kompiuterių klasteryje, tačiau sistema turi nemažai trūkumų, pavyzdžiui nėra galimybės pridėti naujų algoritmų, yra pritaikyta tik Vilniaus universiteto Matematikos ir informatikos klasteriui, nesuteikia galimybės paleisti skaičiavimus iš kitos grafinės naudotojo sąsajos (nėra prieinamas WSDL failas). Šio straipsnio tyrimo objektas šiuo metu Lietuvoje projekto Nacionalinis atviros prieigos mokslo informacijos duomenų archyvas (MIDAS) rėmuose plėtojama elektroninė paslauga, kuri leidžia išnaudoti turimus mokslo institucijų resursus ir sukauptą patirtį garantuojant duomenų saugojimo ir apdorojimo paslaugas. Paslaugos tikslas algoritmizuoti duomenų analizės metodus ir sukurti įrankio programinę įrangą, kuri įgyvendins metodus. Paslauga suteiks galimybę naudotojams šiuo duomenų analizės įrankiu tirti duomenis. Straipsnio tikslas apžvelgti kuriama duomenų analizės sistemą, pagrįsta saityno paslaugomis. Ištirti šios sistemos funkcionalumus ir atlikti jų analizę. 2. Duomenų analizės sistema Kuriamoje duomenų analizės sistemoje bus realizuoti duomenų analizės metodų algoritmai ir sukurtas pilotinis duomenų analizės įrankis (internetinė svetainė), kuriame įgyvendinti moksliniais tyrymais pagrįsti metodai duomenų failo pirminio apdorojimo, daugiamačių duomenų vizualizavimo, grupavimo ir klasifikavimo. Įrankis suteiks galimybę naudotis lygiagrečiųjų ir paskirstytųjų skaičiavimo išteklius atliekant didelių skaičiavimo resursų reikalaujančią duomenų analizę [19]. 24
Duomenų analizės įrankis (DAMIS) kuriamas saityno paslaugų pagrindų. Pagrindiniai komponentai, kurie sudaro duomenų analizė įrankį (2 pav.): Naudotojo grafinė sąsaja; Dvi lygiagrečių skaičiavimo grupės: o Vilniaus universiteto Matematikos ir informatikos fakulteto (VU MIF) superkompiuteris; o Vilniaus universiteto Matematikos ir informatikos instituto klasteris. Algoritmai; Ryšys su MIDAS archyvu (duomenų apsikeitimas). 2.1. Duomenų analizės įrankio funkcionalumas 2 pav. Duomenų analizės sistema Kiekvienas duomenų analizės įrankio (DAMIS) naudotojas turės galimybę registruotis ir prisijungęs turės savo paskyrą. Joje bus saugomi visi naudotojo įkelti duomenų failai, bei vykdomi ir įvykdyti eksperimentai. Sistemoje eksperimentai bus kuriami mokslinių užduočių sekų sudarymo principu, t. y. naudotojas norėdamas sudaryti darbų seką iš meniu skilties turi į darbalaukį įkelti ir tarpusavyje sujungti pageidaujamas komponentes, kur kiekviena iš jų atitinka tam tikrą funkciją, algoritmo vykdymą ar gautų duomenų peržiūrą. Naudotojas gali valdyti savo analizės žingsnius nuo duomenų failo įkėlimo iki analitinio proceso rezultatų peržiūros ir jų išsaugojimo įskaitant ir skaičiavimo ištekliaus pasirinkimą (VU MII klasteris arba VU MIF superkompiuteris). Naudotojo grafinė sąsaja yra įgyvendinta dviem kalbomis: lietuvių ir anglų, ir yra pritaikyta visoms populiariausioms interneto naršyklėms. Įrankio įgyvendinamos bazinės funkcijos pateiktos 3 paveiksle. 3 pav. DAMIS įrankio funkcionalumas Kuriama saityno paslauga ir kuriamas įrankis įgyvendins šiuos duomenų analizės algoritmus: 25
Pagrindinių komponenčių analizės (PCA) algoritmas. Pasirinktas standartinis PCA algoritmas, įgyvendintas įvairiose duomenų analizės paketuose, gerai žinomas ir statistikų, ir kitų duomenų analitikų [8]. Daugiamačių skalių grupei (MDS) priklausantis klasikinis SMACOF algoritmas naudojantis efektyvų optimizavimo algoritmą daugiamačių skalių paklaidos minimizavimui [3, 10]. Algoritmas yra paprastas, bet efektyvus, kadangi garantuoja paklaidos funkcijos konvergavimą į lokalų minimumą su tiesiniu konvergavimo greičiu [5]. SMACOF algoritmo Zeidelio modifikacija. Šioje modifikacijoje nauji projekcijos taškai iteracinio proceso eigoje apskaičiuojami, remiantis jau prieš tai toje pačioje iteracijoje apskaičiuotais taškais. Šio algoritmo konvergavimo greitis yra didesnis, t. y., siekiant gauti nurodyto tikslumo paklaidą, atliekama mažiau iteracijų lyginant su klasikiniu SMACOF algoritmu. Diagonalinis mažoravimo algoritmas (DMA). Tai atskiras SMACOF algoritmo atvejis [27]. DMA algoritme naudojama paprastesnė mažoravimo funkcija, kadangi dauguma skaičiavimuose naudojamų svorių lygūs 0, ko pasėkoje mažesnės dimensijos erdvės taškų perskaičiavimo formulė tampa paprastesne. Gaunama šiek tiek didesnė projekcijos paklaida, lyginant su SMACOF [1], tačiau skaičiavimai vyksta daug greičiau, nereikia skaičiuoti pseudo-inversinių matricų. Santykinės daugiamatės skalės [18]. Algoritmas skirtas didelių aibių bei naujų taškų priklausančių daugiamatei erdvei vizualizavimui, naudojant prieš tai apskaičiuotą bazinių taškų projekciją. Nors šis algoritmas nėra toks tikslus, kaip SMACOF tačiau jis gali atvaizduoti dideles aibes, tam nereikalaudamas didelio kiekio kompiuterinių skaičiavimo resursų, kadangi nereikia saugoti ir perskaičiuoti kiekvienos iteracijos metu susidarančių didelių atstumų matricų. Dirbtiniais neuroniniais tinklais ir daugiamatėmis skalėmis grindžiamas SAMANN algoritmas. Algoritmas leidžia įprastam tiesioginio skleidimo neuroniniam tinklui realizuoti vieną iš daugiamačių skalių metodą SAMANN projekciją mokymo be mokytojo būdu. Algoritmas gali būti naudojamas ir naujų taškų atvaizdavimui mažesnio mato erdvėje. Atvaizdavimui perskaičiuoti mažesnio mato erdvėje jau atidėtus taškus nereikia [8]. Saviorganizuojančiais neuroniniais tinklais (SOM) grindžiamas algoritmas. Algoritmas įgyvendina specifinę SOM mokymo taisyklę, joje naudojama kitokia nei įprastai kaimynystės funkcijos išraiška (įprastai naudojama Gausso ar burbuliuko funkcija) [6, 7]. MDS ir SOM junginys. Nuosekliojo SOM ir MDS junginio idėja SOM metodu gautus vektorius-nugalėtojus, vizualizuoti daugiamačių skalių metodų. Tokiu būdu vizualizuojamų duomenų skaičius yra mažesnis, nei būtų jei visi duomenys būtų vizualizuojami daugiamačių skalių metodu [6, 7]. Daugiasluoksnis perceptronas grindžiamas klaidos sklidimo atgal taisykle. Pasirinktas klasikinis daugiasluoksnio perceptrono modelis [11], mokomas klaidos sklidimo atgal algoritmu, bei skirtas tolydiesiams duomenims klasifikuoti. C4.5 algoritmas skirtas tolydiesiems duomenims klasifikuoti [21]. K-vidurkių algoritmas. Pasirinktas ne standartinis k-vidurkių algoritmas, tačiau jo modifikacija nereikalaujanti nurodyti grupių skaičiaus [14]. Standartiniu algoritmu duomenys suskirstomi į iš anksto nurodytą skaičių grupių. Pasirinktoje modifikacijoje grupės dalijamos, jei tenkinamos skirstymo sąlygos. Pradiniai duomenų apdorojimo algoritmai tokie kaip: duomenų valymas, filtravimas, normavimas ir kt. 2.2. Duomenų failų tvarkymo funkcionalumas Naudotojas turi kelis būdus įkelti duomenų failus. Žemiau aprašytas būdas yra alternatyvus, vykdomas tuomet, kai naudotojas nori prieš pradedant planuoti eksperimentą įkelti vieną ar kelis failus. Taip pat naudotojas turi galimybę redaguoti arba ištrinti jau įkeltus failus. Pasirinkus failų valdymo skiltį yra rodomas jau įkeltų duomenų failų sąrašas, kuriame pateiktas kiekvieno saugomo failo pavadinimas, dydis. Failų sąrašą galima rūšiuoti pagal duomenų failų pavadinimus, įkėlimo datą ir kt. požymius. Įkeltus ir gautus rezultatų failus po užduočių sekų įvykdymo naudotojas gali atsiųsti į savo kompiuterį šiais formatai: arff, zip, tab, csv, xls, xlsx. Įkeliant failus yra atliekamas failo tipo ir failo duomenų validavimas. Įkeltų failų meta duomenų aprašys naudotojas gali redaguoti, o nereikalingus duomenų failus naudotojas gali ištrinti (4 pav.). 26
Įkelti failą Tv arkyti duomenų failus Redaguoti aprašą DAMIS naudotojas Ištrinti failą 4 pav. Funkcinis reikalavimas Tvarkyti duomenų failus Redaguojant failo aprašą ir trinant duomenų failą, atitinkamas veiksmas niekaip neįtakoja tų duomenų failų kurie jau yra naudojami tam tikroje užduočių sekoje. Jei failas naudojamas bent kurioje užduočių sekoje automatiškai yra kuriama duomenų failo kopija. 2.3. Skaičiavimo ištekliaus pasirinkimas Planuodamas eksperimentą, naudotojas turi galimybę peržiūrėti informaciją apie VU MII klasterio ir VU MIF superkompiuterio apkrovas ir pasirinkti skaičiavimų komponentes iš to ištekliaus, kuris yra mažiau apkrautas. Tokiu būdu bus garantuota, jog paslaugą teiks mažiau apkrautas skaičiavimų išteklius. 2.4. Eksperimento planavimas DAMIS naudotojui prisijungus prie savo paskyros yra rodomas eksperimentų planavimo darbalaukis, kurio bazinis funkcionalumas pavaizduotas 5 paveiksle. Naudotojas pasirinkęs iš meniu reikiamą komponentę ir naudodamasis nutempti ir palikti (angl. drag and drop) principu darbalaukyje gali susikelti norimus atlikti algoritmus. Algoritmų komponentes jungdamas tarpusavyje naudotojas formuoja norimą pradinių duomenų apdorojimo užduočių seką. uc Planuoti eksperimentus Tv arkyti užduočių sekas Planuoti eksperimentą Duomenų įkėlimas DAMIS naudotojas Pradinis apdorojimas Rezultatų peržiūra Statistiniai primityvai Klasifikav imas, grupav imas Dimensijos mažinimas 5 pav. Eksperimento planavimas Kiekviena komponentė turi savo trumpą aprašymą. Jei tai duomenų failo įkėlimo komponentė (numatytas duomenų failo įkėlimas iš naudotojo kompiuterio arba MIDAS sistemos), aprašyme pateikti galimi įkeliamo failo formatai, jei komponentė yra kuriuo nors programiškai įgyvendinto duomenų analizės algoritmo aprašyti algoritmo valdymo parametrai ir pasiūlytos standartinės reikšmės. Kiekvieną į darbalaukį įkeltą komponentę galima įvykdyti. 2.4.1. Užduočių sekų vykdymas Naudotojas planuodamas eksperimentą gali vykdymui paleisti suplanuotą užduočių seką (6 pav.). Siekiant tikslo reikia nutempti į darbalaukį komponentes, pateikti norimas arba sutikti su numatytomis valdymo parametrų reikšmėmis ir leistinu būdu sujungti komponentes tarpusavyje. Eksperimento užduoties seka bus vykdoma nuo duomenų failo pasirinkimo iki tos, kurią pasirinko vykdyti. Naudotojas turi įvesti eksperimento vykdymo parametrus: užduoties sekos pavadinimą, preliminarų skaičiavimo laiką, pasirinkti norimą skaičių skaičiavimo išteklių. Po valdymo parametrų pateikimo atliekamas užduočių sekos validavimas, jei joje yra randama klaidų, rodomas pranešimas arba pažymima raudonai ta komponentė, tinkinant kurią buvo aptikti neteisingai įvesti valdymo parametrai. Priešingu atveju, 27
jei komponentės sujungtos teisingai ir valdymo parametrai užpildyti tinkamai, tuomet formuojamas ir siunčiamas SOAP pranešimas į paslaugą įgyvendinantį skaičiavimų serverį. Naudotojas gali suplanuoti kelias sekas darbalaukyje, t. y. sukurti ne vieną eksperimento seką, o naudoti kelias duomenų failo komponentes ir jungti jas su įvairiomis algoritmų komponentėmis. Tokio eksperimento vykdymas atlieka tokius pačius žingsnius kaip ir vykdant vieną eksperimento užduoties seką. DAMIS naudotojas Naudotojo sąsaja Spaudžia Vykdyti Atidaroma forma, kurioje reikia įvesti vykdymo parametrus Įvedė vykdymo parametrus ir spaudžia Vykdyti Patikrina įvestus eksperimento valdymo parametrus Turi patikrinti įvestus eksp. valdymo parametrus [Neteisingi] Rodo klaidos pranešimą [Teisingi] Tikrina kiekvienos komponentės įvestus parametrus ir jungtis [Neteisingi] Rodoma klaida ir neteisinga komponentė pažymima raudonai Turi patikrinti ir ištaisyti raudonai pažymėtą komponentę [Teisingi] Formuoja ir siunčia SOAP pranešimą atsižvelgiant į WSDL failą Iškviesta saityno paslauga 2.4.2. Saityno paslaugos kvietimas 6 pav. Užduočių sekos vykdymas Validavus eksperimento ar jo sekos duomenis yra formuojamas ir į saityno paslaugą teikiantį servisą yra siunčiamas SOAP pranešimas (8 pav.). Saityno paslauga gavusi pranešimą tikrina, ar suformuotas ir išsiųstas jai pranešimas atitinka paslaugos viešai skelbiamą WSDL failą, jei ne, į naudotojo grafinę aplinką yra grąžinamas klaidos kodas, jog nepavyko interpretuoti gauto pranešimo. Jei gautas SOAP pranešimas atitiko WSDL failą, tada inicijuojamas paskirstytų skaičiavimų vykdymas, po jo formuojamas ir siunčiamas atgal klientui SOAP pranešimas su skaičiavimų rezultatais. Klientas gavęs pranešimą taip pat patikrina ar rezultatas atitinka WSDL faile nurodytą struktūrą, jei taip naudotojui atvaizduojami gauti rezultatai. Paslaugos kvietimo schema pavaizduota 7 paveiksle. 7 pav. Saityno paslaugos kvietimas 28
2.5. Eksperimentų vykdymo istorija Kiekviena naudotojo paskyra užtikrina eksperimentų vykdymo istorijos peržiūrą. Eksperimentų istorijos bazinis funkcionalumas pateiktas 8 paveiksle. Naudotojas gali peržiūrėti jau įvykdyto eksperimento skaitinius ir vaizdinius rezultatus. Gautus rezultatus naudotojas gali išsaugoti savo kompiuteryje. Naudotojas gali keisti gautų taškų grafines savybes, tokias kaip taškų spalva, dydis ar forma. Taip pat gali peržiūrėti eksperimento technines charakteristikas: eksperimento veikimo laiką, gautas paklaidas ir pan. 8 pav. Funkcinis reikalavimas Tvarkyti eksperimentų istoriją Išsaugodamas eksperimento planavimo seką, naudotojas gali ją atsidaryti eksperimentų istorijos sąraše. Pasirinkęs redaguoti išsaugotą eksperimentą naudotojas grąžinamas į eksperimento planavimo darbalaukį, kuriame automatiškai yra atvaizduojama išsaugoto eksperimento užduočių seka. Atvaizduotą užduočių seką naudotojas gali keisti ir naujai teikti vykdymui, tokiu atveju pakeista užduočių seka yra traktuojama kaip naujas eksperimentas. Nereikalingus eksperimentus ir jų rezultatus naudotojas gali ištrinti. Eksperimentą šalinant iš sistemos ištrinami visi su šalinamu eksperimentu susiję duomenys. 3. Išvados Šiame straipsnyje apžvelgtas šiuo metu plėtojamas duomenų analizės įrankis. Atliekant DAMIS projektą, analizės metu buvo išsiaiškinti paslauginės architektūros principai, nustatyta kokių protokolų pagalba yra užtikrinama esama saityno paslauga. Trumai apžvelgta duomenų tyrybos programinė įranga leidžianti sudaryti užduočių sekas, kurios gali būt paleistos vykdyti. Didžioji dalis tokios programinės įrangos nėra pritaikyta spręsti užduočių sekas nutolusiuose skaičiavimo ištekliuose o tik lokaliai kompiuteriuose. Rengiant duomenų analizės algoritmų apžvalgą gebančią užduočių sekas spręsti klasteriuose ar grid tipo skaičiavimo ištekliuose buvo pastabėta, jog dimensijos mažinimo klasės algoritmai įgyvendinti tik epizodiškai. Dėl šios priežasties buvo išsiaiškintas duomenų apdorojimo algoritmų panaudojimas, reikalavimai pradinių duomenų matricos struktūrai, algoritmų valdymo parametrai, algoritmų grąžinamas rezultatas ir jo struktūra. Nustatyti ir aprašyti saityno paslaugos svetainės funkciniai reikalavimai tokie kaip: pradinis duomenų apdorojimas, eksperimento planavimas, užduočių sekų vykdymas, vykdytų eksperimentų istorijos atvaizdavimas, atnaujintas eksperimento rezultatų peržiūros funkcionalumas įskaitant ir techninių algoritmo skaičiavimų charakteristikų pateikimą naudotojui. Užtikrinta galimybė vykdant užduočių sekas pasinaudoti nutolusiais ištekliai bei planuojant eksperimentą nustatyti duomenų analizės žingsnius nuo duomenų gavimo iki eksperimento rezultatų peržiūrėjimo iki išsaugojimo. Literatūra 1. BERNATAVIČIENĖ, Jolita; DZEMYDA, Gintautas; MARCINKEVIČIUS, Virginijus. Diagonal majorization algorithm: properties and efficiency. Information technology and control, 2007. 2. BERNATAVIČIENĖ, Jolita; DZEMYDA, Gintautas; KURASOVA, Olga; MARCINKEVIČIUS, Virginijus. Optimal decisions in combining the SOM with nonlinear projection methods. European Journal of Operational Research, 2006. 3. BORG, Ingwer. ir GROENEN, Patrick J. F. Modern Multidimensional Scaling: Theory and Applications. Second Edition mont. New York: Springer, 2005. 4. CURK, Tomaz; DEMSAR, Janez; XU, Qikai; LEBAN, Gregor; PETROVIC, Uros; BRATKO, Ivan; SHAULSKY, Gad; ir ZAPAN, Blaz. Microarray data mining with visual programming. Bioinformatics. Poland, 2005. 5. de LEEUW, Jan. 1988. Convergence of the majorization method for multidimensional scaling. Jornal of Classification, 5 tomas, 6. DZEMYDA, Gintautas; KURASOVA, Olga. Heuristic approach for minimizing the projection error in the integrated mapping. European Journal of Operational Research, 2006. 7. DZEMYDA, Gintautas. Visualization of a set of parameters characterized by their correlation matrix. Computational Statistics and Data Analysis, 2001. 8. DZEMYDA, Gintautas; KURASOVA, Olga; ŽILINSKAS, Julius. Daugiamačių duomenų vizualizavimo metodai. Mokslo aidai. Vilnius, 2008. 9. DZEMYDA, Gintautas; MARCINKEVIČIUS, Virginijus; MEDVEDEV, Viktor. Large-Scale Multidimensional Data Visualization: A Web Service for Data Mining. Service Wave. Vilnius, 2011. 29
10. GROENEN, Patrick J. F.; ir van de VAELDEN, Michel.. Multidimensional scaling, s.l.: Economentric Institute Report EI2004-15. 11. HAYKIN, Simon. Neural Networks: A Comprehensive Foundation, volume 2, 2004. 12. HALL, Mark; FRANK, Eibe; HOLMES, Geoffrey; PFAHRINGER, Bernhard; REUTEMANN, Peter; ir WITTEN, Ian H.;. The WEKA Data Mining Software: An Update. SIGKDD Explorations, vol. 11, 2009. 13. K means algoritmas (2014) [interatyvus]. [žiūrėta 2014 m. kovo 5 d.] Prieiga per internetą: < http://en.wikipedia.org/wiki/kmeans_clustering>. 14. Knime (2014) [interaktyvus]. [žiūrėta 2014 m. vasario 28 d.] Prieiga per internetą:< http://en.wikipedia.org/wiki/knime> 15. KRANJC, Janez; PODPEČAN, Vid; LAVRAČ, Nada. ClowdFlows: A Cloud Based Scientific Workflow Platform. Proceedings of European Conferenceon Machine Learning and Knowledge Discoveryin Databases, ECML PKDD 2012. 16. KURASOVA, Olga; MARCINKEVIČIUS, Virginijus; MEDVEDEV, Viktor; RAPEČKA, Aurimas. Duomenų tyrybos sistemos, pagrįstos saityno paslaugomis.informatikos mokslai 65 leidinys. Vilnius, 2013. 17. MISSIER, Paolo; SOILAND REYES, Stian; OWEN, Stuart; TAN, Wei; NENADIC, Alexandra; DUNLOP, Ian; WILLIAMS, Alan; OINN, Tom; ir GOBLE, Carole. Taverna, reloaded. In Proceedings of 22nd International Conference on Scientific and Statistical Database Management, SSDBM 2010. Heidelberg, Germany. 18. NAUD, Antoine; DUCH, Wlodzislaw. Interactive data exploration using MDS mapping. Zakopane, Poland, 2000. 19. PAULAUSKIENĖ, Kotryna; KURASOVA, Olga. Duomenų tyrybos sistemų galimybių tyrymas įvairių apimčių duomenims analizuoti. Informacijos mokslai 65 leidinys. Vilnius, 2013. 20. PODPEČAN, Vid; ZEMENOVA, Monika; LAVRAČ, Nada. Orange4WS Environment for Service-Oriented Data Mining. Computer Journal, 2011. 21. QINLAN, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. 22. RINGIENĖ, Laura; DZEMYDA, Gintautas. Specialios struktūros daugiasluoksnis perceptronas daugiamačiams duomenims vizualizuoti. Informacijos mokslai 50 leidinys. Vilnius, 2009. 23. SINGH, Munindar; P., VOUK, A. Mladen. Scientific Workflows: Sceintific Computing Meets Transactional Workflows. North Carolina. 24. SOA (2014) [interaktyvus]. [žiūrėta 2014 m. vasario 27 d.] Prieiga per internetą: <http://en.wikipedia.org/wiki/serviceoriented_architecture> 25. STANKEVIČIUS, Kęstutis. REST architektūrinio stiliaus palyginimas su SOAP, įgyvendinant šiuolaikines interneto paslaugas. Mokslas Lietuvos ateitis. Elektronika ir elektrotechnika. Vilnius, 2013. 26. TAUTVYDAS, Kęstutis; TREIGYS, Povilas; ir MARCINKEVIČIUS, Virginijus. Saityno paslaugų SOAP ir ODATA protokolų tyrimas. Mokslo taikomųjų tyrymų įtaką šiuolaikinių studijų kokybei. Vilnius, 2013. 27. TROSSET, Michael W.; ir GROENEN, Patrick J. F. Multidimensional Scaling Algorithms for Large Data Sets. 2005. 28. Virtual Laboratory for e Science (2014) [interaktyvus] [žiūrėta 2014 m. vasario 26 d. Prieiga per internetą: < http://www.vle.nl/main_bottom_about_explanation.htm >. 29. Weka4WS (2014) [interaktyvus]. [žiūrėta 2014 m. kovo 1 d.] Prieiga per internetą: <http://gridlab.dimes.unical.it/weka4ws/about/> Web Service Based Data Mining Tool for Multidimensional Data Analysis Summary. In technology, medicine, economics, ecology, and many other areas it is constantly exposed to multidimensional data. The larger the volume of data, the harder is to understand the characteristics of their population. Scientists have developed a number of multivariate data analysis methods such as various classifications, clustering, dimensionality reduction or other methods for statistical analysis. Visualization techniques can be applied to data structure analysis tasks or data object s features interconnection rule investigation. Given the fact that the data volume is very large, and these processes utilized much computing resources, visualization techniques are implemented on computer grids or clusters. Algorithms are made parallel, so each computing node receives a task and performs it. In this paper the authors provide a brief presentation of data mining systems, introduce possibilities that are covered by the workflow concept and workflow system operational principles. Finally, the description of concept of new data mining system for multidimensional data visualization based on web services is presented. Key words: data mining, distributed computing, web services. 30