Microsoft Word - kkkk.doc

Panašūs dokumentai
EUROPOS SĄJUNGA m. Bendrojo programavimo dokumento 2 prioriteto 5 priemonė Ţmogiškųjų išteklių kokybės gerinimas mokslinių tyrimų ir inovacij

Informacijosmokslai50-n.indd

MatricosDetermTiesLS.dvi

10 Pratybos Oleg Lukašonok 1

Atranka į 2019 m. Pasaulinę ir Vidurio Europos matematikos olimpiadas Sprendimai Artūras Dubickas ir Aivaras Novikas 1. Mykolas sugalvojo natūraliųjų

PowerPoint Presentation

* # * # # 1 TIESĖS IR PLOKŠTUMOS 1 1 Tiesės ir plokštumos 1.1 Lygtys ir taškų aibės Sferos lygtis Tarkime, kad erdvėje apibrėžta Dekarto stačiak

DISKREČIOJI MATEMATIKA. Grafo tyrimas serija 5705 variantas Grafas (, ) yra 1 pilnasis; 2 tuščiasis; 3 nulinis; 4 dvidalis. 2 Atstumas tarp graf

VIEŠO NAUDOJIMO Aplinkos oro teršalų koncentracijos tyrimų, atliktų 2017 m. rugpjūčio d. Šiltnamių g. 23 Vilniaus mieste, naudojant mobiliąją la

LIETUVOS GYVENTOJŲ FIZINIO AKTYVUMO TYRIMAS Vykdytojas: 2016 m. lapkričio mėn. Vilnius SPINTER tyrimai,

Lietuvos mokinių matematikos olimpiada Rajono (miesto) etapo užduočių klasei sprendimai 2015 m. 1 uždavinys. Aistė užrašė skaičių seką: 1 (2 3)

PATVIRTINTA Mykolo Romerio universiteto Rektoriaus 2014 m. birželio 2 d. įsakymu Nr.1I-291 MYKOLO ROMERIO UNIVERSITETO LAIKINOSIOS STUDIJŲ REZULTATŲ Į

DISKREČIOJI MATEMATIKA. Grafai serija 5800 variantas 001 Grafas G 1 = (V, B 1 ) apibrėžtas savo viršūnių bei briaunų aibėmis: V = {i, p, z, u, e, s},

LIETUVOS RESPUBLIKOS SOCIALINĖS APSAUGOS IR DARBO MINISTRAS ĮSAKYMAS DĖL GRĖSMĖS VAIKUI LYGIŲ KRITERIJŲ IR GRĖSMĖS VAIKUI LYGIO NUSTATYMO TVARKOS APRA

4 skyrius Algoritmai grafuose 4.1. Grafų teorijos uždaviniai Grafai Tegul turime viršūnių aibę V = { v 1,v 2,...,v N } (angl. vertex) ir briaun

Algoritmai ir duomenų struktūros (ADS) 2 paskaita Saulius Ragaišis, VU MIF

PowerPoint Presentation

EUROPOS KOMISIJA Briuselis, COM(2018) 231 final ANNEX PRIEDAS prie pasiūlymo dėl EUROPOS PARLAMENTO IR TARYBOS REGLAMENTO dėl veiklos, susi

9 paskaita 9.1 Erdvės su skaliarine daugyba Šiame skyriuje nagrinėsime abstrakčias tiesines erdves, kurioms apibrėžta skaliarinė daugyba. Jos sudaro l

TAIKOMOJI MATEMATIKA IR KIEKYBINIAI METODAI. Rašto darbas serija 3081 variantas Nustatykite funkcijos f(x) = x+2 x 6 cos ( 3x) apibrėžimo sritį.

Elektroninio dokumento nuorašas LIETUVOS RESPUBLIKOS SVEIKATOS APSAUGOS MINISTRAS ĮSAKYMAS DĖL LIETUVOS RESPUBLIKOS SVEIKATOS APSAUGOS MINISTRO 2013 M

AR

(Microsoft Word - Ai\360kinamasis ra\360tas.docx)

Algoritmai ir duomenų struktūros (ADS) 7 paskaita Saulius Ragaišis, VU MIF

32 VISUOMENĖS SVEIKATA / PUBLIC HEALTH SVEIKATOS MOKSLAI / HEALTH SCIENCES IN EASTERN EUROPE ISSN print / X online 2018, 28 tomas, N

1 Priedas Prie Pardavimo sąlygų Nr. PRKS-4 PARDAVIMO OBJEKTO DUOMENYS Pardavimo objekto Nr. Pardavimo objekto pavadinimas Kiekis, vnt. Deta

Elektroninio dokumento nuorašas LIETUVOS STATISTIKOS DEPARTAMENTO GENERALINIS DIREKTORIUS ĮSAKYMAS DĖL KELEIVIŲ VEŽIMO AUTOBUSAIS STATISTINĖS ATASKAIT

Kelmės rajono Kražių gimnazija Įmonės kodas , S.Dariaus ir S. Girėno g.2, Kražiai, Kelmės rajonas 2016 m. kovo 18 d. FINANSINIŲ ATASKAITŲ AIŠ

D1991 Green Energy/IT

124

VILNIAUS UNIVERSITETO ONKOLOGIJOS INSTITUTO VĖŽIO KONTROLĖS IR PROFILAKTIKOS CENTRAS VĖŽIO REGISTRAS Vėžys Lietuvoje 2010 metais ISSN

EUROPOS KOMISIJA Briuselis, C(2017) 4679 final KOMISIJOS ĮGYVENDINIMO SPRENDIMAS (ES) / dėl bendros sistemos techninių standa

CPO veiklos rezultatų ir finansinės naudos VALSTYBEI vertinimo ATASKAITA

Dažniausios IT VBE klaidos

TAIKOMOJI MATEMATIKA. 1-ojo testo pavyzdžiai serija **** variantas 001 x x + 12 lim = x 4 2x 8 1 2; 3 0; 2 1 2; 5 1; 6 2; 7 ; riba nee

PowerPoint Presentation

NAUJOVĖ Celiuliazė Beta gliukozidazė Individuali produkto koncepcija mažesniam klampumui ir geresniam substrato panaudojimui pasiekti Kitos gliukanazė

Statements of Income

Microsoft Word - 10 paskaita-red2004.doc

III. SVEIKI NENEIGIAMI SKAIČIAI 3.1 Indukcijos aksioma Natūraliu ju skaičiu aibės sa voka viena svarbiausiu matematikoje. Nors natūralaus skaičiaus sa

Microsoft Word - tp_anketa_f.doc

ES F ben dri Projekto kodas (Įrašoma automatiškai) 1 PROJEKTO SFMIS DUOMENŲ FORMA FORMAI PRITARTA m. Europos Sąjungos struktūrinės paramos a

AM_Ple_LegReport

Asociacija Draudimo brokerių rūmai

Reklaminių pozicijų įkainiai KLAIPĖDA 2017 m.

Slide 1

PRIEINAMAS TURIZMAS-TURIZMAS VISIEMS UNIVERSALUS DIZAINAS: TEORIJA IR PRAKTIKA

airbnb-pwc-taxguide-lithuania-lt

UAB AMEA Business Solutions Praktiniai IT Sprendimai smulkioms ir vidutin ms mon ms Direktor, Jurgita Vitkauskait , K

5_3 paskaita

Individualus projektas Programa TE-PM, TE-PS, TE-SL, TEstream 4, TEstream 6, TEstream 8, TEstreamOBD 4, TEstreamOBD 6, TEstreamOBD 8 sistemų naudotoja

Microsoft Word - Awalift 80 Manual_LT.doc

„PowerPoint“ pateiktis

EUROPOS KOMISIJA Briuselis, COM(2016) 663 final KOMISIJOS ATASKAITA EUROPOS PARLAMENTUI IR TARYBAI dėl Europos Parlamento ir Tarybos reglam

Lietuvos mobiliojo ryšio operatorių 30Mbit/s zonų skaičiavimo metodika

Microsoft Word KFA rinkinio - ataskaita

PowerPoint Presentation

Top margin 1

AR

Šilumos sąnaudų vartotojams pasikeitimo dėl naujo Šilumos supirkimo iš nepriklausomų šilumos gamintojų tvarkos ir sąlygų aprašo skaičiavimas Eil. Nr.

EUROPOS KOMISIJA Briuselis, C(2012) 2384 final KOMISIJOS ĮGYVENDINIMO SPRENDIMAS kuriuo priimamas valstybių narių teikiamų Europ

PowerPoint Presentation

Microsoft Word - 8 Laboratorinis darbas.doc

PS_riba_tolydumas.dvi

UAB Talentor Lietuva Perkūnkiemio g. 4A, LT Vilnius Tel.: Privatumo politika Duomenų apsaugos d

Parengimo darbui instrukcija LIETUVIŲ K. CEL-SU7HA2W0

DĖL APLINKOS IR SVEIKATOS MOKSLO KOMITETO ĮSTEIGIMO

LT PRIEDAS Teikiant duomenis EURES veiklos vertinimo sistemai naudotinų rodiklių sąrašas Elektroninė šio sąrašo versija ir, jei jis bus iš dalies keič

L I E T U V O S J A U N Ų J Ų M A T E M A T I K Ų M O K Y K L A 2. TRIKAMPIŲ ČEVIANOS ( ) Teorinę medžiagą parengė ir antrąją užduotį sudarė V

Printing triistr.wxmx

LIETUVOS RESPUBLIKOS VALSTYBINIO PATENTŲ BIURO DIREKTORIUS ĮSAKYMAS DĖL VALSTYBINIO PATENTŲ BIURO DIREKTORIAUS 2014 M. GEGUŽĖS 19 D. ĮSAKYMO NR. 3R-25

Projektas LIETUVOS RESPUBLIKOS RYŠIŲ REGULIAVIMO TARNYBOS DIREKTORIUS ĮSAKYMAS DĖL RADIJO RYŠIO PLĖTROS MHz RADIJO DAŽNIŲ JUOSTOJE PLANO PAT

PowerPoint Presentation

VERSLO IR VADYBOS TECHNOLOGIJŲ PROGRAMA

(Microsoft Word - Pasiruo\360imas EE 10 KD-1)

TRUMPA AIRTIES AIR4920 DIEGIMO INSTRUKCIJA

9bfe3ab5-5c62-4c35-b951-ec1b281bbc9d

2015 lapkričio naujienos Vytos poros bei šviesolaidinių tinklų aksesuarai ir komponentai, įrankiai, komutacinių spintų priedai

Projekto lyginamasis variantas

Slide 1

Slide 1

Robert Bosch GmbH Dviračių garažas Bikeport Apsauga nuo vėjo ir lietaus. Dviračių garažas Bikeport Jums nusibodo tampyti Jūsų dviratį į rūsį ir atgali

Kauno menų darželis Etiudas Mgr. Virginija Bielskienė, direktorės pavaduotoja ugdymui, II vad. kategorija, auklėtoja metodininkė Žaidimas pagrindinė i

PATVIRTINTA

Vigirdas Mackevičius 2. Sekos riba Paskaitu konspektas Intuityviai realiu ju skaičiu seka vadinama realiu ju skaičiu aibė, kurios elementai (vadinami

LIETUVOS JAUNŲJŲ MATEMATIKŲ MOKYKLA 7. PAPRASČIAUSIOS DIFERENCIALINĖS LYGTYS ( ) Teorinę medžiagą parengė ir septintąją užduotį sudarė prof. d

PowerPoint Presentation

RANKINIAI PADĖKLŲ VEŽIMĖLIAI 66 serija Skirta sunkiems darbams, kg Aptarnavimo nereikalaujantys rankiniai padėklų vežimėliai su tvirtu ir st

Microsoft Word - Biokuro ataskaita 2018 m IV ketv

Elektroninio dokumento nuorašas VALSTYBINĖS LIGONIŲ KASOS PRIE SVEIKATOS APSAUGOS MINISTERIJOS DIREKTORIUS ĮSAKYMAS DĖL VALSTYBINĖS LIGONIŲ KASOS PRIE

JONIŠKIO RAJONO SAVIVALDYBĖS VISUOMENĖS SVEIKATOS BIURAS Savivaldybės biudžetinė įstaiga, Vilniaus g. 6, LT Joniškis, tel. (8 426) , faks.

DB sukūrimas ir užpildymas duomenimis

PATVIRTINTA Gretutinių teisių asociacijos Greta 2018 m. spalio 14 d. Visuotinio narių susirinkimo sprendimu GRETUTINIŲ TEISIŲ ASOCIACIJA GRETA ATLYGIN

Lietuvos finansinių sąskaitų statistikos duomenų, naudojamų makroekonominio disbalanso procedūros rodikliams sudaryti, kokybės ataskaita 1 (parengė Li

Microsoft Word - pildymo instrukcija (parengta VMI).docx

Kelmės rajono Kražių gimnazija Įmonės kodas , S.Dariaus ir S. Girėno g.2, Kražiai, Kelmės rajonas 2014 m. kovo 20 d. FINANSINIŲ ATASKAITŲ AIŠ

(Microsoft Word - mokiniu sergamumo analiz\ )

Elektroninio dokumento nuorašas LIETUVOS STATISTIKOS DEPARTAMENTO GENERALINIS DIREKTORIUS ĮSAKYMAS DĖL ELEKTROS ENERGIJOS GAMYBOS PEG-11 (MĖNESINĖS),

Microsoft Word - LE_Sutarties su NEPRIKLAUSOMU ST nariu salygos

Verification Opinion Template

Transkriptas:

Šiuolaikinis duomenų paieškos algoitmas PoMFS Studentas: [PK04A] J. Litvinenko <uickl@gmail.com> Panešimo vadovas: Doc. R. Tumasonis Vilnius 2005

Anotacia Šioe konfeencioe aš noėčiau pistatyti duomenų paieškos PoMFS algoitmą i pincipingai nauą technologią spendimų piėmimo sitye - Data Mining. Panešimas paemtas Doc. Romano Tumasonio mokslinių dabų - Analitiniai duomenų gavimo būdai šiuolaikinėse infomacinėse sistemose visuma. 1. Kas ya Data Mining technologia? Data Mining galima intepetuoti kaip - intelektualus duomenų masyvų analizavimas i eikalingas anksčiau nežinomiems, netivialiems i paktiškai naudingiems duomenims paieškai. Specifika taikoma šiuolaikiniams analitinėms sistemoms: Duomenų kiekis ya neibotas, Duomenys ya skitingų tipų (tekstine, kiekine) Rezultatas tui būti aiškus Panaudoti algoitmai tui būti efektyvus i papasti. Data Mining pagindas tipinių šablonų paieška. Vienas iš populiaiausių duomenų analizavimo algoitmų ya GSP (Geneated Sequence Patten), is pateikiamas palyginimui su PoMFS. 2. Data Mining technologios panaudoimo sitis Veslo spendimai Šiuolaikiniame pasaulye teisingo spendimo piėmimas ya ne tik svabus bet i lemiantis faktoius, klaidos ya penelyg bangus malonumas kaip smulkiems veslininkams taip i taptautiniams kopoacioms. Rizikingos i ne kuo nepagistos finansines opeacios įmonėms dažniausiai tampa kastų. Taigi Data Mining koncepcia potencialiai ya naudinga inkos analitikams, įmones vadovams ų konkuentinėe kovoe. Panaudoant Data Mining technologią galima atsakyti, pavyzdžiui, į sekančius klausimus: Kokias pekes pasiūlyti einamaam pikėui? Kokia tikimybė, kad duota pikėų gupė sueaguos į pateiktą eklamą? A galima pasiinkti optimalią stategią, vykdant pikimo-padavimo opeacias vetybinių popieių bižoe? A galima išduoti bankui keditą nuodytam klientui? Kaip pognozuoti didžiausią telefoninių a elektos tinklų apkovimą? Dėl ko atsianda podukcios bokas? Moksline veikla. Žmonių mokslinėe veikloe ya sukaupta daug duomenų: žmogaus genų baze, visokiausių gamtos eiškinių tyimai.

3. Ryšiai tap Data Mining tiiamų obektų. Data Mining išskiia keletą standatinių yšių tap obektų: Asociacia Įvykių seka Klasifikavimas Klasteizavimas Pognozė Asociacia egzistuoa ei keletas eiškinių ya tapusavį suišti. Apie įvykių seką galima kalbėti tada, kai egzistuoa laike suišti įvykiai, pavyzdžiui: žmogus įsigya paduotuvėe fotoapaatą, tai po kuio laiko is gįžta į paduotuvę pakeisti maitinimo elementų? Klasifikavimo pagalba ištiiami požymiai apibūdinantys gupę, kuiai piklauso kažkuis obektas. Gupės au tui būti žinomos i tik tada galima sufomuluoti taisyklių inkinį. Klasteizacia skiiasi nuo klasifikacios tuo, kad gupės iš anksto nėa žinomos os fomuoamos dinamiškai. Pognozės fundamentas duomenų bazėe saugoma istoinė infomacia i eigu galima suasti šabloną atsispindintį eiškinių keitimo dinamiką, tai ya tikimybę pognozuoti ateities sistemos būseną. 4. GSP (Geneated Sequence Patten) algoitmas Pastebėkime, kad eigu seka ya dažna, tai visi os posekiai taip pat ya dažni. Pavyzdžiui, ei seka AABA ya dažna, tai visi įmanomi posekiai A, B, AA, AB, BA, AAB i ABA ya dažni taip pat. Remiantis šiuo faktu, galime dayti išvadą, kad, ei seka tui nos viena ne dažną posekį, tai i visa seka igi ya ne dažna. Be to, ei seka ya ne dažna,tai visos i os sugeneuotos nauos sekos bus igi ne dažnos. Pimiausia mes tikinsime pimoo lygmens sekas. Jų tuėsime m. Po pimoo lygmens analizės, geneuoami antoo lygmens sekos-kandidatai (sekos ilgis 2). Tuėsime m 2 sekas, tokias kaip (i 1 i 1, i 1 i 2,, i 1 i m, i 2 i 1,, i 2 i m,, i m i 1,, i m i m ). Tačiau os ne visos bus tikinamos. Remiantis pieš tai buvusio (pimoo) lygmens analizės ezultatais, nustatysime kuiose sekose ya ne dažni posekiai. Tokių sekų mes netikinsime. Paanalizuokime pavyzdį. Takime pagindinė seka S ya tokia: S = ABCCCBBCABCABCABCBABCCCABCAABABCABC (1) Mes sakysime, kad posekis ya dažnas tada i tik tada, kai is pasiodo sekoe S ne mažiau kaip 4 katus, t.y minimalus dažnumas (min_sup) ya lygus 4. Visos pimoo lygmens sekos ya dažnos (ž. 2 lentelę). Remiantis šiomis sekomis, geneuoamas antas lygmuo (ž. 3 lentelę). Po antoo lygmens patikinimo geneuoamas tečias lygmuo (ž. 4 lentelę).

Pimas lygmuo 2 lentelė. Lygmuo Seka Dažnumas A dažna? 1 A 10 + 1 B 13 + 1 C 13 + Antas lygmuo 3 lentelė. Lygmuo Seka A tikiname? Dažnumas A dažna? 2 AA + 1-2 AB + 9 + 2 AC + 0-2 BA + 2-2 BB + 1-2 BC + 9 + 2 CA + 6 + 2 CB + 2-2 CC + 4 + Tečias lygmuo 4 lentelė. Lygmuo Seka A tikiname? Dažnumas A dažna? 3 ABA - - - 3 ABC + 8 + 3 ABB - - - 3 BCA + 5 + 3 BCB - - - 3 BCC + 2-3 CAB + 5 + 3 CAA - - - 3 CAC - - - 3 CCA + 1-3 CCB - - - 3 CCC + 2 - Mes netikinsime šešias nauas tečioo lygmens sekas: ABA, ABB, BCB, CAA, CAC, CCB (ž. 3 lentelę), kadangi ose ya nedažni posekiai iš pieš tai buvusio (antoo) lygmens. Ketvitoo lygmens visos nauos sekos tuės nedažnus posekius, vadinasi bus igi ne dažnos. Todėl laikysime, kad algoitmas baigė dabą. Suastos dažnos sekos ya šios: A, B, C, AB, BC, CA, CC, ABC, BCA, CAB. 5. Tikimybinis dažnų sekų nustatymo algoitmas PoMFS (pobabilistic algoithm fo mining fequent sequences) Nauasis tikimybinis dažnų sekų nustatymo algoitmas emiasi šiomis statistinėmis pagindinės sekos chaakteistikomis: elemento pasiodymo tikimybe sekoe, tikimybe, kad vienas elementas eis po kito, atstumo vidukio tap dvieų elementų pagindinėe sekoe. Pagindinė algoitmo idėa ya tokia: 1) tikimybinės chaakteistikos apibūdina elementų pozicias pagindinėe sekoe; 2) emiantis šiomis chaakteistikomis, geneuoama naua, žymiai tumpesnė modelinė seka C ~. 3) naua seka analizuoama GSP algoitmu (aba kokiu nos kitu tiksliu algoitmu); 4) gauti GSP algoitmu dažni posekiai modelinėe sekoe, bus dažni posekiai i pagindinėe sekoe. Pažymėkime:

V ( i ) 1) P( i ) = ya elemento i pasiodymo tikimybė pagindinėe sekoe, ku i L, = 1,..., m. VS Čia L={i 1, i 2,..., i m } ya aibė sudayta iš m skitingų elementų. V ( i ) ya elemento i pasiodymo tikimybė pagindinėe sekoe S; VS ya sekos ilgis. Pastebėkime, kad P ( ) = 1. m = 1 2) P ( i iv ) ya sąlyginė tikimybė, kad elementas i v pasiodys po elemento i, ku i, iv L,, v = 1,..., m. m Pastebėkime, kad P ( i ) = 1 visiems = 1,..., m. v= 1 i v 3) D ( i iv ) ya atstumas tap elemento i i i v, ku i, iv L,, v = 1,..., m. Kitais žodžiais, D ( i iv ) ya skaičius elementų tap i i pimoo suasto i v, ieškant nuo i iki pagindinės sekos pabaigos, ku D ( i iv ) savye tui i v. Atstumas tap dvieų kaimyninių elementų sekoe ya lygis vienam. 4) A ) ya atstumų vidukių matica. Jos elementai ya šie: a v = Aveage ( D( i iv ), i, iv L),, v = 1,..., m. Visos šios chaakteistikos gaunamos vieną katą pežiūėus pagindinę seką. Remiantis šiomis chaakteistikomis, mes sudaome žymiai tumpesnę modelinę seką C ~, kuios ilgis bus lygus l. Pažymėkime os elementus c, = 1,..., l. Modelinė seka C ~ tuės visus elementus iš L: i L, = 1,..., m. Kiekvienam os elementui c, apibėžkime skaitinę chaakteistiką Q ( i, c ), = 1,..., l, = 1,..., m. Padžioe Q ( i, c ) ya matica su nulinėmis eikšmėmis, kuios bus nustatytos po statistinės pagindinės sekos analizės. Papildome algoitmą da viena funkcia ρ ( c, a ). Ši funkcia padidina chaakteistikų Q ( i, c ) eikšmes vienetu. Pimasis elementas c 1 modelinėe sekoe C ~ ya iš L, i nustatomas pagal maksimalią eikšmę max( P ( i )), i L. Pagal c 1 ya aktyvuoama funkcia ρ ( c1, a1 ) Q( i,1 + a1 ) = Q( i,1 + a1 ) + 1, = 1,..., m. Likę elementai c, = 2,...,l, ya paenkami šiuo būdu. Takime, kad noime nustatyti -ąį elementą c modelinėe sekoe C ~. Spendimas, kuis simbolis iš L bus painktas į elementą c, nustatomas po paskaičiavimo max( Q ( i, c )), i L. Jeigu tam tikiems p i t, mes gauname, kad Q i, c ) = Q( i, c ), tada elementas i ( p t c bus painktas pagal maksimalią eikšmę sąlyginių tikimybių, t.y. max( P( c( 1) ip), P( c( 1) it )) : c = ip, eigu P( c( 1) ip ) > P( c( 1) it ), i c = it eigu P( c( 1) i p ) < P( c( 1) it ). Jeigu os ya lygios, t.y. P( c( 1) ip ) = P( c( 1) it ), tada c bus painktas nustatant max( P ( ip ), P( it )). Po c eikšmės pasiinkimo, aktyvuoama funkcia ρ ( c, a ) Q( i, + a ) = Q( i, + a ) + 1. Visi šie veiksmai bus atliekami visiems = 2,...,l. Tokiu būdu mes gauname modelinę seka C ~, kui ya žymiai mažesnė už mūsų naginėamą pagindinę seką. Modelinė seka analizuoama GSP algoitmu i tokiu būdu mes ženkliai sumažiname laiko sąnaudas. Panaginėkime pieš tai buvusiame pavyzdye seką (1) L={A, B, C}, i.e. m=3, i 1 = A, i2 = B, i3 = C. Sekos VS=35, t.y seka sudayta iš 35 elementų. Po vieno sekos patikinimo mes apskaičiuoame tikimybines chaakteistikas: 10 12 13 P ( A) = 0.2857, P ( B) = 0. 3429, P ( C) = 0. 3714, P ( A A) = 0. 1, 35 35 35 P ( A B) = 0.9, P ( A C) = 0, P ( B A) 0. 1667, P ( B B) = 0. 0833, P ( B C) 0.7500, P ( C A) 0. 4615, P ( C B) = 0. 1538, P ( C C) 0. 3077.

Atstumų vidukių matica A ) 4 lentelė A B C A 3.58 1.10 2.50 B 2.64 2.91 1.42 C 2.33 2.25 2.67 Pasiinkime modelinės sekos C ~ ilgį, kuis bus lygus l=8. Padžioe seka C ~ ya tuščia i Q ( i, ) = 0, = 1,...,l, = 1,..., m : R 1 2 3 4 5 6 7 8 A 0 0 0 0 0 0 0 0 B 0 0 0 0 0 0 0 0 C 0 0 0 0 0 0 0 0 Modelinė seka C ~ - - - - - - - - Pimasis elementas C ~ ya gaunamas apskaičiuoant maksimalią P i ) eikšmę. Mūsų pavyzdye bus aidė C, t.y. c 1 = C. Peskaičiuoame Q( i, c1 ), = 1, 2, 3, pasinaudous atstumų vidukiais. Situacia bus tokia: R 1 2 3 4 5 6 7 8 A 0 0 1 0 0 0 0 0 B 0 0 1 0 0 0 0 0 C 0 0 0 1 0 0 0 0 Modelinė seka C ~ C Pasiinkime c 2. Visos tys eikšmės Q( i, c1 ), = 1,2, 3, ya vienodos i lygios 0. Tada c 2 bus nustatyta pagal maksimalią elementų pasiodymo tikimybių eikšmę.. Max(P(C A), P(C B), P(C C)=P(C A)= 0.4615. Vadinasi c 2 = A. Peskaičiuoame Q( i, c2), = 1,2, 3, pasinaudodami atstumų vidukiais. Situacia bus tokia: 1 2 3 4 5 6 7 8 A 0 0 1 0 0 1 0 0 B 0 0 2 0 0 0 0 0 C 0 0 0 1 1 0 0 0 Modelinė seka C ~ C A Kiti tys žingsniai pavaizduoti žemiau: 1 2 3 4 5 6 7 8 A 0 0 1 0 0 2 0 0 B 0 0 2 0 0 1 0 0 C 0 0 0 1 2 0 0 0 Modelinė seka C ~ C A B 1 2 2 3 4 4 6 7 A 0 0 1 0 0 3 0 0 B 0 0 2 0 0 2 0 0 C 0 0 0 1 2 0 1 0 Modelinė seka C ~ C A B C ( c

1 2 3 4 5 6 7 8 A 0 0 1 0 0 3 1 0 B 0 0 2 0 0 2 1 0 C 0 0 0 1 2 0 1 1 Modelinė seka C ~ C A B C C Rezultate gauname tokią modelinę seką C ~ = CABCCABC. GSP algoitmu nustatome, kad dažniausia posekė modelinėe sekoe ya ABC, kai minimalus dažnumas lygus 2. Kita dažna seka ya seka CAB. Pagindinėe sekoe (1), posekės ABC dažnis lygus 8, o sekos CAB 5. Tačiau seka BCA, kuios dažnis lygus 5, nenustatyta i paasta. Viena iš tokių paadimo piežasčių gali būti pe tumpas painktas modelinės sekos ilgis. Ekspeimentiniai ezultatai Tikimybinis dažnų sekų nustatymo algoitmas ya palyginamas su GSP algoitmu. Mes sugeneavome tekstą iš 100000 aidžių (1000 eilučių, kuiose ya po 100 simbolių). L={A, B, C}, t.y. m=3, i 1 = A, i2 = B, i3 = C. Į šį tekstą mes įdėome labai dažnai pasikatoančią seka ABBC. Ši seka pasikatoa 20 katų vienoe eilutėe. Kiti 20 simbolių painkti atsitiktiniu būdu. Pimiausia ištyėme šią pagindinę seką (100000 simbolių) GSP algoitmu. Rezultatai paodyti Pav. 1 i Pav. 2. Aptasime ezultatus, kuiuos gavome su PoMFS algoitmu. PoMFS sugeneavo šią modelinę seką C ~, kuios ilgis l=40: C ~ = BBCABBCABBCABBCABBCABBCABBCABBCABBCABBCA Ši modelinė seka buvo išnaginėta GSP algoitmu su šiais minimaliais dažnumais (Ms): 8, 9, 10, 11, 12, 13 i 14. Rezultatai pavaizduoti Paveiksle 1 i Paveiksle 2. Paveikle1 sulygintas astų dažnų sekų kiekis tap GSP i PoMFS algoitmų. Pav. 2 sulyginamas sugaištas laikas tap GSP i PoMFS algoitmų. Pav. 1 mes matome, kad esant sąlyginai nedideliam minimaliam dažnumui (mažesniam nei 1500) GSP algoitmas suado žymiai daugiau dažnų posekių nei PoMFS. Tačiau esant didesniam minimaliam dažnumui (nuo 2500 iki 6000) ezultatai gaunami apytiksliai vienodi. Tačiau, ei mes sulygintumėme sugaištą laiką tap dvieų algoitmų, mes pastebėtumėme, kad PoMFS algoitmas analizuoa seką žymiai geičiau. Vadinasi galime padayti išvadą, kad PoMFS algoitmas ya efektyvus (žymiai mažesnės laiko sąnaudos), esant sąlyginai dideliam minimaliam dažnumui. Dažnos sekos 350 300 250 200 150 100 GSP Ms 8 Ms 9 Ms 10 Ms 11 Ms 12 Ms 13 Ms 14 50 0 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 Minimalus dažnumas GSP algoitmui pagindinėe sekoe 1 Paveikslas Rastų dažnų sekų kiekio tap GSP i PoMFS algoitmų sulyginimas (minimalus dažnumas PoMFS ya lygus Ms=8,, 14)

300 250 Laikas (s) 200 150 100 GSP Ms 8 50 0 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 Minimalus dažnumas GSP algoitmui pagindinėe sekoe 2 Paveikslas GSP i PoMFS laiko sąnaudų sulyginimas (minimalus dažnumas PoMFS lygus Ms=8)