Սխալմունք
Ներմուծած տվյալները սխալ են
Բնական լեզվով տեքստերի ավտոմատ մշակման համակարգերի մեծ մասը ենթադրում է, որ տեքստերն ի սկզբանե մասնատված են նախադասությունների և բառերի, այսինքն դրանք արդեն իսկ հատույթավորված են։ Հատույթավորումը, այսպիսով, տեքստի մշակման առաջնային փուլն է և սկզբունքային՝ այսպիսի համակարգերի առջև դրվող խնդիրները լուծելու համար։
Տեքստի հատույթավորումն ապահովվում է գրանշանային վերլուծության միջոցով, որը հիմնվում է տվյալ լեզվին բնորոշ ուղղագրական հնարավորին բոլոր առանձնահատկությունները ներառող շատ թե քիչ մանրամասն ու հստակ կանոնների վրա։ Ենթադրվում է, որ այդպիսի կանոնները հաշվի են առնում ստանդարտ (արդեն իսկ կետադրված) տեքստերում հանդիպող իրական դեպքերը։ Գրանշանային ամենապարզ վերլուծությունը տեքստը բացատներով մասնատումն է, բացատները չհամարելով բառանիշներ, և մասնատված հաջորդականությունների հետևողական խմբավորումը վերջավոր այնպիսի դասերում, որոնք տառեր չեն պարունակելու (կետադրական նշաններ, թվանշաններ և այլն)։ Վիճելի կամ ոչ միանշանակ դեպքերում (մասնավորեցնող կանոններ) այսպիսի համակարգերը միշտ կանգնում են խնդրի առջև՝ հաջորդականությունը գնահատել մե՞կ, թե մի քանի բառանիշ։
Գրանշանային վերլուծությունը «ՀայՇտեմ»-ում ևս ենթադրում է մուտքային տեքստի (որպես UNICODE նշանների հաջորդականություն) մասնատում լեզվաբանական հետագա վերլուծության համար անհրաժեշտ հատույթների՝ նախադասությունների և բառանիշերի (Token)։ Բառանիշները, որոնք բառաձևեր (կամ բառաձևերի հաջորդականություններ) են, ենթակա են ձևաբանական պիտակավորման։ Բառաձևեր չգնահատվող բառանիշները պիտակավորվում են որպես համապատասխան էությունների դասեր՝ կետադրական նշաններ, թվանշաններ, տառա-թվանշանային արտահայտություններ, կայքէջերի հասցեներ և այլն։ Նախադասությունները ենթակա են ծանոթագրման շարահյուսական կախվածությունների ծառերի տեսքով։
«ՀայՇտեմ»-ի գրանշանային վերլուծության մոդուլը՝ «ՀայՆիշ»-ը հենվում է հետևյալ կանոնների վրա.
1-2 ինչո՞ւ
1 ինչու
2 ՞
Նախադասությունների սահմանազատում
Նախադասության սահմանն անցնում է նախադասության ավարտը նշող կետադրական տերմինալ նշանից (վերջակետ { ։ }, կախման կետեր { ... }, բազմակետ { .... }) հետո՝ հաջորդող մեծատառից կամ պարբերության ավարտից առաջ։
Ընդ որում, բոլոր այն հաջորդականությունները, որոնք սկսվում են մեծատառով և չեն ավարտվում որպես տերմինալ գնահատված նշաններից ոչ մեկով (վերնագիր, կոչ, պարբերականի, ստեղծագործության անվանում, թվարկումներ և այլն), նույնպես գնահատվում են որպես առանձին նախադասություն. դրանց սահմանը նույնպես անցնում է հաջորդող մեծատառից կամ պարբերության ավարտից առաջ։
Հեղինակային խոսքը, լինի նախադաս, միջադաս, թե հետադաս, չի առանձնացվում ուրիշի ուղղակի, մեջբերվող խոսքից։
Հեղինակային ու մեջբերվող խոսքը վերլուծության հաջորդ փուլերում ծանոթագրվում են շարահյուսական հատուկ տիպի կապի միջոցով (parataxis), որն էլ ապահովում է տեքստի իմաստային ավարտունությունը (| — նշում է նախադասության սահմանը, || — նշում է այդպիսի հատվածների ենթադրյալ սահմանները)։
Օր.՝
— Ի՞նչը՝ ո՞նց թե...| Տնաշեն, ամբողջ աշխարհն է խոսում. Տանուտերանց Գևորգը երկու օր է մեռած, տղերքից ոչ մեկը չկա, որ հորը թաղի։| Շորերը հագցրել, պառկեցրել են դագաղում ու սպասում են...||
Գառնիկի աչքերը սառել էին Վարանցովի բերանին։|
— Մարդ աստծո,— շշնջաց,— բարլուսախառն միանգամից էդքան վատ բան բերանդ ո՞նց զորեց ասել։||
Կամ
«Վրաս ցեխ ու ճիմ լցրու»,— իր վրա գոռում է։|| Ինքը շշկլած կանգնել է ու չգիտի ի՞նչ անի, ո՞նց վարվի։| Հետո լեզուն բացվեց. «Ախր, այ Գևորգ,— ասաց,— հագինդ նախագահի նվիրած կոստյումն է»։ || «Տո, նախագահի մերն էլ, քո մերն էլ,— համբերությունը հատած գոռաց,— դու ցեխը լցրու, ցեխը...»։||
(Հացի փորձություն: [Պատմվածքներ, վիպակ] / Վ. Զ. Սարգսյան։ Խմբ.՝ Վ. Մ. Մուղնեցյան, Ա. Է. Մորիկյան, նկարիչ՝ Ֆ. Ա. Գուլանյան.— Եր.։ Յավրուհրատ, 2015.— 291 էջ)։
Չակերտներում մեջբերվող ուղղակի խոսքը նախադասությունների սահմանազատվում է ըստ հիմնական կանոնի՝ տերմինալ նշան՝ հաջորդող մեծատառից կամ պարբերության ավարտից առաջ։ Ընդ որում, հնարավոր են դեպքեր, երբ բացող չակերտը մի նախադասության մեջ է, իսկ փակողը հաջորդում։ Այսպիսի սահմանազատումը թույլ է տալիս պահպանել շարահյուսորեն ավարտուն կառույցները։
Օր.՝ Վեպի մասին «Հայ վեպի պատմություն» գրքի հանձնարարականում գրված է, որ «վեպը արվեստի ինտելեկտուալացման ամենաբարձր աստիճանն է։| Վեպը էպիկական ստեղծագործություն է, որի մեջ պատումը կենտրոնացված է առանձին անհատի ճակատագրի վրա, նրա բնավորության և ինքնագիտակցության ձևավորման և զարգացման վրա»։|
(«Վեպ», Վիքիպեդիա, 2017թ. https://hy.wikipedia.org/wiki/%D5%8E%D5%A5%D5%BA )
Եթե չակերտներում մեջբերվում է անվանում (գեղարվեստական կամ գիտական երկերի վերնագրեր, թերթերի անուններ և այլն), որում առկա են տերմինալ նշաններ, ապա անվանման ներսում սահմաններ չեն դրվում։
Օր.՝ Խաչատուր Աբովյանի «Վերք Հայաստանի։ Ողբ հայրենասեր»-ի վեպը հրատարակվել է 1858թ.։|