Discovering Business Processes from Unstructured Text
Asiakirjojen käsittely manuaalisesti kuluttaa paljon tietotyöntekijän resursseja. Tämä koskee myös liiketoimintaprossien johtamisen asiantuntijoita, joiden työ voi vaatia useiden liiketoimintaprosessien kuvausten lukemista. Tämän tutkielman tavoitteena oli löytää ratkaisuja, jotka vähentävät tietotyöläisen asiakirjojen lukemiseen käyttämää aikaa soveltamalla luonnollisen kielen käsittelyn menetelmiä liiketoimintaprosessien etsimiseen asiakirjoista. Tutkimusmenetelmänä oli suunnittelutieteellinen tutkimus, joka sisälsi useita iteratiivisia vaiheita. Nimetyn kohteen tunnistamista käytettiin ensimmäisen ratkaisun suunnittelemiseen. Se ei kuitenkaan tuottanut toivottuja tuloksia, joten tutkimus siirtyi arvioimaan parempia mahdollisia ratkaisuja genre-teoriaa soveltavalla analyysillä. Tämän analyysin perusteella kehitettiin neljä asiakirjojen otsikkojen luokittelevaa ratkaisua tunnistamaan liiketoimintaprosesseja. Luokitteluratkaisut arvioitiin ristiinvalidoinnilla. Ensimmäinen luokitteluratkaisu suoriutui sattumanvaraisesti jaetusta ristiinvalidoinnista lupaavasti. Validoinnissa, jossa arvioitiin prosessien tunnistamista uusista asiakirjoista, ratkaisu ei kuitenkaan suoriutunut hyvin. Toinen luokitteluratkaisu sovelsi luokittelussa sanaluokkien tunnistamista. Kolmas luokitteluratkaisu hyödynsi listaa joka sisälsi liiketoimintaprosesseissa käytettäviä verbejä. Neljäs luokitteluratkaisu käytti syötteenä otsikon lisäksi kontekstia eli lauseita joissa otsikot esiintyivät asiakirjan tekstissä. Nämä luokitteluratkaisut eivät kuitenkaan tuottaneet merkittävästi ensimmäistä ratkaisua parempia tuloksia.
Manual processing of the documents can be a time-taking task for a knowledge worker. This workload can be familiar to Business Process Management professionals who may have to go through multiple process descriptions in their work. This thesis attempts to find a way to mitigate the workload of the knowledge worker by proposing a natural language processing solution for discovering Business Processes from Business Process description documents. The research applied the design science research method and took several steps to produce the solution. The named entity recognition solution provided weak results, and instead of improving the solution, the research utilized genre analysis methods to seek an alternative approach. The classification of the headings of the document was deemed as a possibly viable solution. Four classification pipelines were built for classification of the headings and evaluated with cross-validation. The results of the first pipeline were somewhat promising; however, the cross-validation that was supposed to evaluate the ability to retrieve processes with previously unknown words had a poor performance. The following pipelines were created to improve from the baseline set up by the first pipeline. The second pipeline used part-of-speech tagging, the third used list of verbs relevant to business processes and the fourth pipeline used the context where process names appeared. These pipelines did not, however, make substantial improvements.
