ՀայՇտեմի Նախագիծը

«ՀայՇտեմ»-ը բազմամակարդակ որոնման համակարգով ու բարդ հարցումների հնարավորությամբ թվային մասնագիտացված կորպուս է՝ ուղղված արդի գրական արևելահայերեն տեքստերի շարահյուսական ծառերի շտեմարան ստեղծելու հիմնական նպատակին։

Լեզվական համաժամանակյա իրավիճակի ներկայացվածությունը կորպուսում ապահովվում է գեղարվեստական արձակ տեքստերի ու պարբերական մամուլից տարաբնույթ հրապարակումների միջոցով։ «ՀայՇտեմ»-ն ունի նաև բուհական լեզվաբանական դասագրքերից վերցված օրինակների ենթակորպուս (կորպուսի մասնագիտացված բնույթը)։ Կորպուսը պարունակում է շուրջ 100 հազար բառամթերք և 5 հազար շարահյուսական ծառ՝ ենթադրությամբ, որ այս ծավալը բավարար է լեզվական միավորների վերլուծության օրինաչափ հաճախականություն ապահովելու համար։

«ՀայՇտեմ»-ի մշակումները հիմնվում են տեքստի վերլուծության հաջորդական, բազմամակարդակ ներկայացման վրա. այն պարունակում է մոդուլային հետևյալ բաղադրիչները.

  • Գրանշանային վերլուծություն (բառանիշավորում, Tokenization and Word Segmentation),
  • Ձևաբանական վերլուծություն (բառույթավորում, խոսքիմասային ծանոթագրում, POS Tagging),
  • Շարահյուսական վերլուծություն (նախադասությունների կախվածության ծառերի կառուցում, Parsing)։
  • «ՀայՇտեմ»-ում բառամթերքի ձևաբանական (խոսքիմասային պիտակավորումը) և նախադասությունների շարահյուսական վերլուծությունը համահունչ է UD նախագծի մշակումներին և տրվում է CoNLL-U ձևաչափով։

    «ՀայՇտեմ»-ի մշակումները բաց են, արտոնագրված ազատ հասանելիության CC-BY-SA պայմաններին համապատասխան։