PomocKontaktMapaPretragaO projektuNovostiPromena pismaTIA JanusProjekat Rastko

 

 

Србислав Букумировић

Миломир Павловић

Прве српске ћириличке базе података на Интернету

Излагање на научно стручном скупу "Интернет и ћирилица" у Београду, 11. 2. 2002.

У в о д

Последњих година је свима јасно, а то је и велика истина, да опстанак сваког језика и културе у новом глобалном информационом друштву зависи како од могућности да буду на Интернету ,тако и од стварне присутности на Интернету.

Интернет као и друге савремене информационе технологије, углавном су развијене на западном енглеском језичком подручју, пре свега у Америци, тако да је постојала реална опасност да у у новом информационом друштву дође до потпуне доминације енглеског језика и одумирања језичке и културне разноврсности и разноликости која је својим богатством красила досадашњи свет и његову културу. Међутим, на време је схваћено да савремена глобализација може у да успе само уз поштовање језичке, културне и друге разноликости и разноврсности, односно политике «цветања свих цветова» .

У том смислу, у оквиру међународне заједнице, донети су одређени закључци који су подржали општу доступност информацијама у 21. веку као и заштиту културне и лингвистичке разноврсности и богаства . Ту би пре свега поменуо

Препоруке и резолуције УНЕСКА о вишејезичности (1), Програм језичке различитости Европске уније (2) и Окинавски документ (хартију) Групе Г8 најбогатијих земаља у којој се подвлачи неопходност смањења јаза у области информација и знања на међународној позорници, с тим што би сваки човек свуда имао могућност да се користи благом глобалног информационог друштва а да се у том односу не подвргне отуђењу.(3)

Како се истиче у УНЕСКО-вом дукументу, «језик је основа општења људи, а такође и део њиховог културног наслеђа. Код многих људи језик је повезан са дубоким емоцијама, асоцијацијама и вредностима које су урасле својим корењем у богато књижевно, историјско, филозофско и културно наслеђе»

Наравно, ово су политички документи али веома важни за даљи развој савремених информационих технологија. Међутим, стручњаци су били ти који су пре политичара почели са озбиљним и мукотрпним радом да би се овакве идеје могле реализовати. Још 1986 године, Међунардна организација за стандардизацију у сарадњи са другим међународним организацијама, владиним и невладиним организацијама покренула је израду одговарајућег стандарда, који је у тзв. ДИС верзији (за дискусију) изашао 1992 –године, под ознаком 10646 и називом: Информационе технологије – универзални вишебајтни сет кодних каратера, чији се први део зове Архитектура и базични вишејезички пројекат. Затим се појавио УНИКОД, који обезбе]ује јединствени број за свако слово односно карактер, без обзира на рачунарску платформу, програм или језик. УНИКОД стандард усвојен је од водећих индустријских лидера у области информационих технологија као што су Мајкрософт, ИБМ, Оракле, САН и дригих. Укључен је у све савремене стандарде као што су ХМЛ, ЈАВА и др., тако да је постао званични пут за имплементацију односно реализацију међународног (ИСО/ИЕЦ) стандарда 10646. Подржан је од већине оперативних система, свих браузера односно читача, и већине других производа из области ИТ. О УНИКОДУ брине Уникод конзорциум који је непрофитна организација, основана за развој, ширење и промоцију овог стандарда. (WWW.UNICODE.ORG) (4)

Израда и примена овог стандарда текла је упоредо са развојем инфотехнологија, тако да данас имамо примена УНИКОД стандарда у разним оперативним системима и језицима, од Виндоуса, Јаве, и др. Као и на разним читачима односно браузерима као што је Интернет експлорер, Нетскејп и др. Развијају се и претраживачи на разним језицима и писмима, наравно са закашњењем у односу на енглески језик и енглеску латиницу.

Ћирилица у Уникоду заузима значајно место са око 220 слова односно карактера и више десетина језика и специфичних варијанти писма. После кинеског писма и латинице, ћирилица је најраспрострањеније писмо на свету. Поред источно-словенских народа који су дуго једини користили ћириличко писмо, после Октобарске револуције око 50 народа Европе и Азије, све до неких ескимских племена, који су се тек тада описменили, прихватило је ћириличко писмо, наравно са разним модалитетима. У Русјији их називају «Молодописменије народи». Поред њих и неки други народи са ових простора, који су већ користили одређена писмо, такође је развило своја ћириличка писма, као нпр. Монголи, Узбеки и др. (5)

2. ИНТЕРНЕТ И ВУКОВА ЋИРИЛИЦА

Преласком на нове информационе технологије појавили су се велики проблеми, како обрадити, пренети и представити писано стваралаштво српског народа, које је углавном писано ћирилицом, поштујући међународне и наше стандарде и правила. Посебно, јер је почетак рада на аутоматизације СНТИС и Библиотечког информационог система, па самим тим и НБС базирао на програмима који су искључиво користили латиницу.

Са тим проблемом се суочио Центар за научне информације и рефералну делатност НБС у свом раду на аутоматизацији пословања Центра али и других установа, и успео да уз помоћ неколико спољних сарадника реши већину питања која су се постављала. Као основа за решавање ових питања послужио је Унесков програмски пакет ЦДС/ИСИС, интерфејс Вебисис који су заједнички развили Унеско и Светска здравствена организација (за Јужну Америку), односно њихов Центар за биомедицинске научне информације из Бразила, скраћено БИРЕМЕ, и апликација у ЦДС/ИСИС- у БИБЛИО, коју је развио Центар за научне информације и РД НБС.

    1. ПРОГРАМ БИБЛИО
    2. Библио је апликација израђена у програмском пакету ЦДС/ИСИС, који се примењује у преко 130 земаља света и у хиљадама установа;

      Апликацију је развио Центар за научне информације и РД НБС. ( Специјални програми развијени су у сарадњи са спољним сарадницима).

      Програма БИБЛИО је на ћирилици, и омогућава рад скоро на свим ћириличким и латиничким писмима, а инсталиран је у око 300 установа науке и културе у Југославији и Републици Српској. То је постигнуто без икаквих улагања државе, а са ентузијазмом аутора и њихових сарадника. (6)

      ПРОГРАМСКИ ПАКЕТ ЦДС/ИСИС препоручен је од УНЕСКО-а и Генералног информационог програма (Даље: ГИП) као стандардизовани програмски пакет за библиотеке, архиве, музеје, ИНДОК службе и др. установе у оквиру Светског система научних и технолошких информација. [7]

      Заснован је на базним међународним стандардима. Омогућава коришћење бројних језика и писама, и више софтверских система (дос, вмс, униx, wиндоус);

      Званична верзија основног програмског пакета ЦДС/ИСИС 1.311 под ВИНДОУС оперативним системом добијена је од УНЕСКО-а у августу 1988., и уз велико залагање завршене су измене у апликацији и решени неки важни проблеми до почетка октобра исте године. Решено је питање истовремене обраде докумената на свим ћирилицама, латиници коју користи српски народ и енглеској латиници, чиме су створени предуслови да се овакве базе података поставе на Интернету.

      С обзиром да нисмо располагали са сервером који ради под Виндоусом НТ, у помоћ нам је прискочио колега Миломир Павловић који је тада радио на Фармацеутском факултету. Он је свакако најзаслужнији у решавању проблема пребацивања података у Јуникод и прилагођавања програма Перл за одговарајуће конверзије. Кроз нашу сарадњу и помоћ од осталих чланова екипе, базе су постављене на сајту Фармацеутског факултета у марту 2000.године.

    3. ПРЕТРАЖИВАЊЕ ЋИРИЛИЧКИХ БАЗА ПОДАТАКА ПРЕКО ИНТЕРНЕТА
    4. У априлу 2000. године лист «Политика» је у рубрици «Свет компјутера» објавила чланак под називом «Базе података. Ћирилица на Интернету». С обзиром да сам аутор текста, дозволићу себи да цитирам повећи део текста који се односи на претраживање у ћириличкој бази ЦИП+:

      «Например за претраживање базе података ЦИП+, која садржи податке о издавачкој делатности у Југославији (тренутно, пробна база садржи близу 42.000 записа), потребно је да корисник избором тастатуре, (српска ћирилица, латиница и енглеска латиница ) укуца по избору – аутора, наслов дела ,педметну одредницу, кључну реч, издавача, годину издања, итд, и нпр, формат ЛИСТ, добиће веома брзо исписе у облику који је већ поменут. Адреса сајта је WWW.pharmacy.bg.ac.yu где се избором на библиотеку и претраживач улази на страницу где даље бирате базу података и остале опције које су на располагању. Треба напоменути, због лакшег претраживања, да је претраживање олакшано суфиксацијом. Довољно је укуцати корен неке речи и на крају ставити знак $(долар) да се добије резултат са свим суфиксима који следе после корена речи односно термина, односно презимена. (Например, укуцавањем речи Јован$ приликом претраживања аутора, добиће се сви аутори са презименима Јовановић, Јованић, Јованчевић итд).

      Конвертор је тако направљен да сваки корисник Виндоус оперативног система који у опцијама изабере српску ћириличку тастатуру ( нажалост већина верзија Виндоус 98 нема тастатуру за српски језик и латиницу), или хрватску и словеначку тастатуту, може претраживати поменуте базе и са специфичним словима латинице као што су Ч,Ћ,Ш.Ђ,Ж – док је претраживање ћирилицом нормално за сва слова. У поменутој бази све одреднице су на ћирилици, па их тако треба и претраживати, док наслови, кључне речи и делом издавачи садрже податке и на латиници и тако их алтернативно можете претраживати латиницом. Ових дана биће завршена и опција уласка у речник који је сређен азбучно и абецедно, зависно од података на ком су писму.» (Напомена: То је убрзо реализовано) (6?) С обзиром да је у међувремену дошло до квара на серверу Фармацеутског факултета, и да новонабављени сервер ради под Линуксом, базе нису постављене на њему. Остале су на једном рачунару који ради под Виндоусом 98 у НБС. (8)

      Ово је популарни текст намењен широкој публици, а како ради апликација коју смо развили, посебно залагањем М. Павловића дајемо у тексту који следи.

    5. РАД ПРОГРАМА ВИНБИБЛИО У ИНТЕРНЕТ ОКРУЖЕЊУ – WEBISIS

2.3.1 ВЕБИСИС

Приступ ИСИС базама, иако су све мрежног типа није једноставан ни безбедан изван локалне мреже (нпр. преко Телнет протокола).

Да би се тај приступ поједноставио и приближио обичним корисницима преко Интернета, развијени су разни тзв. CGI скрипт језици (нпр. Перл).

Њихово коришћење се састоји у томе да корисник преко свог Интернет-претраживача позове неки HTML документ на веб-серверу на коме је инсталиран програм у коме је написан ЦГИ скрипт.

Веб-сервер проследи упит за базу ЦГИ програму који, затим приступа бази, упише, измени или прочита податке и врати их веб-серверу у виду ХТМЛ документа.

На крају веб-сервер врати кориснику ХТМЛ документ који је ЦГИ програм направио.

Један специјализовани тзв. интерфејс за ИСИС базе који ради под Виндоусом 95 или Виндоус НТ-ом, који ради и као ЦГИ програм развила је Панамеричка здравствена организација (ПАХО) у оквиру Центра БИРЕМЕ (Латино-Амерички и Карибски центар за научномедицинске информације) из Бразила за своје потребе и потребе Унеска.

Тај интерфејс са комплетним упутством за коришћење може се наћи на њиховом сајту :.....

Назив интерфејса је Wwwisis.exe ili www32i.exe. Може да чита и ДОС и Wиндоwс базе, а поставља се у неки заштићени поддиректоријум wеб-сервера (само "execute" дозвола). На Windows NT-u CGI script се поставља у виртуелни поддиректоријум "scripts" а у ХТМЛ документу се позива нпр. Са <FORM action="http://web-server/scripts/wwwi32.exe/[in=fajl1.nas] method="post">.

Име фајла "фајл1" и његова екстензија ".нас" су произвољни. У том фајлу треба да се иницијализује wwwi32.еxе да направи тзв. "environmental records" у које смешта податке добијене од корисника преко wеб-сервера.

Параметар за иницијализацију је cgi=@fajl2.cgi, при чему сви параметри за иницијализацију могу да се наведу иза знака једнако (акоје само један) или у посебном фајлу "fajl2.cgi" ако их има више.

Фајл"fajl2.cgi" мора да садржи под једноструким знаком навода (') име базе, Булов израз за претраживање, pft формат фајл или параметре за форматирање излаза, затим пролог и епилог параметре

иза којих се наводе фајлови са заглављем и крајем ХТМЛ документа. Ово је један пример:

'db=c:\isis\data\biblio\biblio'

'bool="AU=JURIC$"'

'prolog=@pocetak.pro'

'pft=@format1.pft'

'epilog=@kraj.epi'

Овај програм омогућава претраживање било које базе података рађене у ИСИС програмском пакету, уз коришћење произвољног формата.(9)

2.3.2 ЈАВАИСИС

Јава је програмски језик за мреже и Интернет одн. виртуална машина за извршавање тог језика на различитим платформама;

Слоган “Пиши једном, извршавај било где” и преносивост софтвера без компромиса су идеје које су одушевиле програмере. Брзи развој и примена то најбоље потврђују:

Прве идеје о Јави појавиле су се 1991.године, а од маја 1995 (када је Нетскејп почео да подржава Јаву) па до краја године ИБМ и Мајкрософт су лиценцирали Јаву, а 1966 и 1977 SUN произведи 1.0 и 1.1 JDK. Java (TM) 2 Runtime Environment (скраћено JRE), Standard Edition Version 1.3.0_02, са којом ми данас радимо произведена је 7.априла ове 2001 године!

Такође је развијен и ЈАВА ИСИС. Јава исис служи за претраживање и процесирање ЦДС/ИСИС текстуалних односно ненумеричких база података. ЈАВАИСИС пакет састоји се из два дела:

(а) ЈАВА ИСИС Сервер: процесира ЦДС/ИСИС базе података на серверу, листа и одговара на претраживачке упите који долазе са ЈАВАИСИС клиента преко ТЦП/ИП мреже (Интернет, Интранет, Еxтранет);

(б) ЈАВА ИСИС клиент: кориснички интерфејс преко кога финални корисник може да користи ЦДС/ИСИС базе података. Организација менија и подменија скоро је идентична онима у Wинисис–у.

Прва верзија JAVAISIS-а урађена је у марту 1998 и дистрибуирана од старне Друштва за библиотеке и архиве Италије. Верзија 3.0 радила је под Јавом1.0. 2 и није подржавала УНИКОД и вишејезичност;

Верзија 3.5 бета ради под Јавом 2 и углавном подржава УНИКОД. Наравно, Јава се стално усавршава, тако да ће неки багови и проблеми који су тешко видљиви, надамо се, ускоро бити отклоњени. Апликацију Јаваисис-а за подршку наших база података на српском језику и ћирилици израдили су: Др Србислав Букумировић и Дарко Ивошевић.

JAVAISIS обавља односно има следеће функције:

  • Интернационализацију;
  • Читач база података;
  • Експертно претраживање;
  • Речник;
  • Модул за унос података;
  • Ажурирање;
  • Подршку за штампу;
  • Графичке и хипертекст команде;
  • ИСО2709 импорт података;
  • ИСО2709 експорт података
  • Међународне верзије;
  • Преузимање локалних ASCII фајлова

Софтвер је у потпуности Open Source и може се слободно модификовати.

Шта ново пружа JAVAISIS за библиотеке и ИНДОК центре :

  • Постављање својих база на Интернет без израде посебних сајтова;
  • Креирање база података са удањених локација;
  • Заштита: унос података као и друге функције заштићене су лозинкама, тако да власници база одређују шта ће дозволити и ком кориснику;
  • JavaIsis у погледу хардвера није захтеван. Ради на рачунарима 486/Вин.95 па до најновијих конфигурација;
  • Базе података зузимају заиста мало простора. Нпр. база са 17.000 записа заузима само 14 МБ, 4 МБ мање него под Виндоусом.

Запажени проблеми:

- Што се тиче записа, Јаваисис је у потпуности компатибилан са Виндоусом, међутим,

  • на масци и у речнику, не виде се слова која је још у 7-битном стандарду ИСО оставио као контролне позиције. Међутим, већ давно су и Мајкрософт и многе земље кроз своје стандарде почеле да користе ове позиције. Али надамо се да ће то ускоро бити отклоњено. То се посебно односи на наша специфична слова и на слова са дијакритичким знацима у многим европским језицима;
  • У боксу за експертско претраживање, ових проблема нема, и све функционише као у Виндоусу. Једино Јаваисис приликом претраживања разликује мала и велика слова.

Аутор софтвера Јаваисис је Ренато Енеа у сарадњи са УНЕСКО/ИСИС-ом и БИРЕМЕ из Бразила. Јаваисис се састоји од клијент и сервер апликације. Верзија 3.5 Бета пуштена је у марту 2001.године, са напоменом да се мора користити ЈРЕ 1.2 и више.

3. З А К Љ У Ч А К

Као што се из напред изложеног види, група ентузијаста окупљених око Центра за научне информације и РД НБС, успела је да без материјалне подршке државе реализује низ програма и задатака везаних за примену ћирилице у савременим информационим системима. Идеја водиља у овим напорима била је да српски језик и писмо а самим тим и култура, могу равноправно да буду заступљени у сваременим информационим технологијама и наравно рачунарима.

Ми смо у једном чланку истакли констатацију академика Лихачова: “Земља, држава, народ без своје културе губе право на постојање”. У преломним временима као што је данашње, треба добро размислити о овим речима. [7]

ЛИТЕРАТУРА

[1] Meeting of Experts to examine the Draft Recommendation concerning the Promotion and Use of Multilingualism and Universal Access to Cyberspace, “UNISIST Newsletter Vol.29,No.1, 2001, str.5-6; i Razvitie I ispol`zovanie mnogojazyčija i vseobščij dustup k kiberprostranstvu, "Bjuleten` JUNISIST, Tom 28, No.2, 2000, str.8

[2] Sajt Evropske zajednice

[3] G8- Okinavska hartija o globalnom informacionom društvu, Japan, 23.jula 2000.

[4] WWW.UNICADE.ORG

[5] Bol`saja sovetskaja enciklopedija.- Moskva, 1977, Tom16, str.359

[6] Vidi tabele u WWW.UNICADE.ORG

[7] Bukumirović, S. – N.Popović – Vidović Lj. : Biblio na ćirilici, “Info”, 1994, br.1, s.29-31.

[8] MINI-MIKRO CDS/ISIS. Referentni priručnik.Verzija 2-3.- Beograd, Saobraćajni fakultet Univeziteta u Beogradu, 1992 I Baxton,A.- A.Hopkinson : The CDS/ISIS.Handbook.- London,Lybrary Associations Publishing, 1994

[9] Bukumirović S. – N. Popović: Standardi i preporuke Generalnog informacionog programa i Svetskog sistema naučnih i tehnoloških informacija i primena ćirilice (sa primerima rešenja), “Vukova zadužbina”, br.27, s.7

[10] Bukumirović, S. i saradnici: Prezentacija programa Biblio pod WINDOWS operativnim sistemom, "Info Science", br.6, 2000, s.49-50.