Програм „Вучко“
Александар Веселиновић

26. октобар, 2003.
http://galeb.etf.bg.ac.yu/~alexa/

— „Вучко“: транслитератор HTML страница, са латинице на ћирилицу, и обратно —

Чему служи?

Уз помоћ програма „Вучко“ можете пребацити HTML странице са латинице на ћирилицу. На овој страници су дати и примери неких сајтова који би могли лако и брзо да се пребаце на ћирилицу. Мали скрипт програм може аутоматски да ћирилизује целе сајтове за кратко време (пример: преузети са сајта целу застарелу „Политику“, ZIP, 350k).

Како је настао?

Програм је настао на Електротехничком факултету у Београду као део подухвата „Рачунарски алати за српски језик“, а у склопу акција „Националног већа за српски језик и писмо“, коалиције стотинак кључних институција српске културе. Овај мали лични пројекат је за сада удомљен на следећој интернет страници и рад на њему се наставља

Програм ради са HTML страницама и чистим текстом у следећим кодним распоредима: cp850, cp852, cp855, cp866, cp1250, cp1251, cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3), iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9, iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9), iso8859-16, koi8-r и utf8 (текстови на српском језику у латиничном писму су углавном писани у cp1250 и iso8859-2 кодном распореду). Програм „Вучко“ интерно ради као Unicode, а подаци му се достављају преко другог модула, htmlany2utf који улазну страницу/текст из било ког кодног распореда пребацује у Unicode. Нова ћирилична страница је такође у Unicode UTF-8 распореду и то омогућава читљивост и едитовање текста на свим оперативним системима!

За пребацивање текста из ћирилице у латиницу на располагању је програм c2l. И овај програм као и „Вучко“ ради само са HTML/TXT датотекама у Unicode UTF-8 распореду. Ако у латинично писмо треба пребацити текст писан у неком другом распореду податке програму треба доставити преко htmlany2utf програма — на исти начин као и за „Вучка“.

Страница/текст која је пребачена у ћирилицу/латиницу је у Unicode UTF-8 распореду што омогућава читљивост на свим оперативним системима!

Зашто користити ћириличне интернет странице?

Ефикасна и исправна ћирилизација постојећих интернет страница представља само увод у решење других занимљивих и важних проблема који се делом преклапају: људима са оштећеним видом би се могло омогућити да „читају“ домаће интернет странице, дневне новине и часописе помоћу програма који би изговарао текст. Ако је реч о ћириличном тексту проблем је већим делом решен — програм зна који текст треба да чита, текст је написан потпуно фонетским писмом (што са латиницом није случај: у исти кош се стављају стране и домаће речи) па би и читање било много лакше технички остварити. Да већ имамо ћириличне стране проблем читања би делом био много једноставнији.

Из ћириличног текста се увек једнозначно може добити текст писан латиничним писмом. Уз „Вучка“, као део пакета, долази и програм c2l који омогућава да од ћириличних страница добијете латиничне странице. Израдом HTML страница и интернет презентација одмах у ћириличном писму латинична верзија се лако добија, а могуће је урадити и динамичко пребацивање и тиме уштедети и место на серверу!

Ово је само по себи добар разлог за прелаз на ћирилицу и рад на бољем „Вучку“ који би тај прелаз требало да олакша и убрза.

Основне карактеристике:

  • Ради из командне линије (DOS-а, UNIX терминала). Може да ради и као филтер текста, за пребацивање текста „у лету“. Програм долази са помоћним програмом htmlany2utf који представља предфилтар и омогућава рад са великим бројем кодних распореда:
    htmlany2utf 0.801 (2003-10-26)
    Program that converts HTML file from given encoding to UTF-8 encoding replacing
    HTML decimal and hex unicode encoded characters to single unicode character.
    Usage:
    htmlany2utf -inputencoding [-in inputfile] [-out outputfile]
      If inputfile is omitted stdin is used.
      If outputfile is omitted stdout is used.
      Inputencoding is one of: cp850, cp852, cp855, cp866, cp1250, cp1251,
        cp1252,iso8859-1 (latin1), iso8859-2 (latin2), iso8859-3 (latin3),
        iso8859-4, iso8859-5, iso8859-6, iso8859-7, iso8859-8, iso8859-9,
        iso8859-10, iso8859-11, iso8859-13, iso8859-14, iso8859-15 (latin9),
        iso8859-16, koi8-r, utf8.
    Vucko 0.987 (2003-10-26)
    Program that transliterates Serbian HTML/TXT documents written in Latin
    alphabet to Cyrillic alphabet. Works only for pages in UTF-8 encoding!
    For HTML/TXT pages in other encodings first use program 'htmlany2utf'.
    Usage:
    vucko [-text] [-in inputfile] [-out outputfile]
      If inputfile is omitted stdin is used.
      If outputfile is omitted stdout is used.
      -text	Process file as text, ignore HTML tags.
             Useful for emails, agency news...
    c2l 0.01 (2003-10-26)
    Program that transliterates Serbian HTML/TXT documents written
    in Cyrillic alphabet to Latin alphabet. Works only for pages in
    Unicode UTF-8 encoding!  For HTML/TXT pages in other encodings
    first use program 'htmlany2utf'.
    Usage:
    c2l [-in inputfile] [-out outputfile]
      If inputfile is omitted stdin is used.
      If outputfile is omitted stdout is used.
    Пример позива: htmlany2utf -cp1250 -in index.html | vucko -out index-c.html (програм htmlany2utf улазну датотеку index.html која је у cp1250 кодном распореду пребацује у Unicode UTF-8 распоред и шаље је на stdout-стандардни излаз (пошто -out датотека није наведена) који даље прихвата „Вучко“ са stdin-стандардног улаза (пошто -in датотека није дата) и резултат, текст пребачен у ћирилицу, уписује у датотеку index-c.html). Пример позива за пребацивање странице из ћирилице у латиницу: htmlany2utf -iso8859-5 -in index.html | c2l -out index-l.html (ћирилични HTML документ index.html се уз помоћ програма htmlany2utf пребацује из iso8859-5 распореда у UTF-8 распоред и шаље на стандардни излаз одакле га прихвата програм c2l, пребацује у латиницу и уписује у датотеку index-l.html). c2l такође познаје <lang></lang> тагове и текст који се у њима налази не пребацује у латинично писмо.
  • Windows корисници могу користити и bvucko.bat датотеку и позивати програм и на следећи начин: bvucko -cp1250 -in index.html -out index-c.html
  • Windows корисници могу користити и bc2l.bat датотеку и позивати програм и на следећи начин: bc2l -iso8859-5 -in index.html -out index-c.html
  • htmlany2utf може да пребаци интернет странице из било ког распореда у стандардни Unicode UTF-8 распоред без пребацивања текста у ћирилицу. Може се искористити да се поправе странице које су грешком записане у распореду где нема ни наших латиничних слова већ је за њих коришћен децимални или хексадецимални Unicode HTML запис (&#xxx;).
  • Препознаје мејл и интернет адресе и не пребацује их у ћирилицу.
  • Текст између <lang></lang> и <code></code> тагова не пребацује у ћирилицу! Интернет читачи игноришу непознате тагове (<lang>) па је њихова употреба безбедна, а при пребацивању у ћирилицу „Вучко“ уклања <lang></lang> тагове.
  • Реч која у себи садржи неко од слова qwyx се не пребацује у ћирилицу (треба имати у виду да програм не разуме енглески и друге језике па ће стране речи без тих слова ипак бити пребачене у ћирилицу; у тим случајевима делове текста претходно ставити у <lang></lang> тагове — што је коришћено при пребацивању неких од тест страница на ћирилицу).
  • Труди се да преуреди наводнике тако да буду исправни по правопису ("Вучко" постаје „Вучко“)
  • Ако треба спречити стапање слова, n и j у слово њ онда треба поставити празан таг између,<!> ће послужити.

Доста примера и слика можете наћи на следећој страници.

Повратна информација о програму „Вучко“ је пожељна: шта мислите да би требало да се дода или одузме, шта за сада ваља а шта не...

JavaScript имитација „Вучка“

Као део пакета „Вучко“ долази и JavaScript имитација „Вучка“ - ради у вашем browser-у (Mozilla, Netscape, Internet Explorer, Opera...). Страница са програмом само пребацује текст из једног писма у друго, не водећи рачуна о електронским адресама, таговима... Употребљива је за пребацивање чистих текстова из латинице у ћирилицу, али и обратно. Могуће је уносити текст и у dual распореду па самим тим и добити ћирилични текст и тамо где на рачунарима нема инсталиране ћириличне тастатуре (погодно за форуме на мрежи где корисници у недостатку нашег писма и тастатура користе „ћелаву“ латиницу).

Ако JavaScript имитацију „Вучка“ користите у Internet Explorer-у део текста који је пребачен у ћирилицу грешком (стране речи) можете пребацити назад у латиницу селектовањем у прозору - леви клик, држати дугме и превући мишем преко текста који треба вратити назад у латинично писмо.

Поставите JavaScript „Вучка“ и на вашу интернет страницу!

Ауторска права — да ли и под којим условима могу користити програм?

За личну употребу: За ваше личне стране коришћење програма је слободно и бесплатно. На личном сајту који је пребачен на ћирилицу уз помоћ „Вучка" ставити линк на http://galeb.etf.bg.ac.yu/~alexa/ и послати е-пошту аутору.

За употребу за сајтове група, установа, предузећа и држава, те друге сајтове који имају службену или полуслужбену сврху: контактирати аутора ради једноставног договора.

Одрицање права (Disclaimer)

Аутор не сноси одговорност за било какве последице настале употребом програма „Вучко“.

  Александар Веселиновић
[последња измена: 26. октобар 2003.]
 
Unicode: UTF-8