|
Post by hrafn on Aug 21, 2007 8:32:45 GMT -5
Hver var afrakstur Tungutækniverkefnis menntamálaráðuneytisins og hvað hefur gerst í máltækni á Íslandi síðan verkefninu lauk árið 2004?
|
|
|
Post by sigrunma on Aug 22, 2007 6:24:52 GMT -5
Tungutækniverkefni menntamálaráðuneytisins styrkti 10 verkefni þau voru: 1. Beygingakerfi - Málfræðigreinikerfi - Málfræðipúki Þar var ekki þróað ákveðið notendakerfi heldur var byggður upp grunnur sem mun nýtast og hefur nýst í ýmsan hugbúnað. Byggt hefur verið orðasafn sem byggist á beygingar- og setningafræði. 2. Beygingarlýsing íslensks nútímamáls Þessu verkefni var lokið 2004 og var útgáfan 173.389 beygingardæmi sem hægt er að nálgast á vef Orðabókar Háskólans. 3-4. Endurbætt tillögugerðar- og orðskiptiforrit Púkans Þar var orðasafn bætt, bullorðum fækkað, notkun viðskeyta þrengd, algeng orð sett inn sem ein heild og villuleit víkkuð, þ.e. að gefa möguleika á að 2 eða fleiri villur geti leynst í einu orði. Orðskiptiforritið var endurbæt með það að markmiði að Púki gæti skipt öllum orðum rétt og veldi alltaf líklegustu skiptinguna hverju sinni. 5. Endurforritun orðabanka Íslenskrar málstöðvar Orðabankinn var endurbættur með tilliti til þeirra framfara sem orðið hafa í smíði vefforrita. Endurbæturnar snúa fyrst og fremst að vinnsluhluta orðabankans. 6. Hagnýt notkun tungutækni í símtölvunarlausnum Talgervillinn Snorri var hannaður sem reyndar telst vera lélegur og ónotendavænn. Meiri tíma var varið í notkun talgreina og munu þeir nýtast vel við frekari tungutæknilausnir. 7. Hjal - gerð íslensks stakorðagreinis Safnað var talsýnum 2005 einstaklinga til að þjálfa talgreini. Fullbúnum talgreini var skilað 2003. 8. Markari fyrir íslenskan texta Námfús markari var notaður á textasafn Orðabókar Háskólans og svo öðru efni sem ekki var hluti af textasafninu. 9. Mörkuð íslensk málheild Íslenskur texti var markaður til að mynda íslenska málheild en málheild er grunnur fyrir ýmsar rannsóknir. 10. Talkennsl og texti í tal Þessi rannsókn var grunnur fyrir talgervilinn Hjal. Eftir 2004 hafa fleiri rannsóknir verið gerðar eins og til dæmis ,,Aukin mörkunarnákvæmni íslensks texta", ,,Hlutaþáttari fyrir fyrir íslenskan texta", ,,Íslenskt orðanet", ,,Íslenskur reglumarkari", ,,Íslenskur textaskimi", ,,Mörkuð íslensk málheild", talgervillinn Ragga, ,,Samhengisháð ritvilluleit", ,,Veflæg orðmyndabók", ,,Vélræn greining setninga" og ,,Þýðingarforrit fyrir íslensk-enskar þýðingar".
|
|
|
Post by birnagu on Aug 24, 2007 7:56:41 GMT -5
|
|
|
Post by indridi on Aug 24, 2007 12:07:05 GMT -5
Afraksturinn er m.a. Styrkur til ýmissa verka í beygingar, talgreiningu og mörkun. Gekk verkefnið að mörgu leiti vel og má lesa nánar um það á bella.mrn.stjr.is/utgafur/samspil.pdfSíðan verkefninu lauk hefur verið stofnað hefur verið til meistaranáms í máltækni. Fyrir nema með grunn í raungreinum annars vegar og nemum með grunn í málfræði hins vegar. Farið er að nýta afurðir verkefnisins að auknum mæli. Tam er nú boðið upp á villuyfirlestur á blog.is. Ennfremur virðist vera að eiga sér stað vakning um mikilvægi máltækni og hefur orðabók.is tam sagst vera kominn með góðann markara eins og kom fram í fyrirlestri. Þó blasir við að til að hægt verði að halda íslensku samkeppnishæfri verður mikið verk að eiga sér stað til að komast á það stig sem að tam enska er á. Tvennt veldur þessu, því hefur ekki verið sinnt að halda í við ensku og íslenska hefur tiltölulega flókna málfræði.
|
|
|
Post by birnagu on Aug 24, 2007 14:36:50 GMT -5
Ennfremur virðist vera að eiga sér stað vakning um mikilvægi máltækni og hefur orðabók.is tam sagst vera kominn með góðann markara eins og kom fram í fyrirlestri. Sagðist hann hann á ordabok.is ekki vera kominn með nothæfan þýðanda (enska/ísl) ekki markara ? .. kannski ætti ég bara að gá að því . www.ordabok.is
|
|
|
Post by birnagu on Aug 24, 2007 15:07:26 GMT -5
Sagðist hann hann á ordabok.is ekki vera kominn með nothæfan þýðanda (enska/ísl) ekki markara ? .. kannski ætti ég bara að gá að því . www.ordabok.isÉg skoðaði þetta aðeins og fékk mér prufuákskrift. Mér sýnist orðabókin vera bein orða uppfletting alveg án samhengis við texta í kring. Orðabókin fann ekki "signed" sem þátíðarmynd af orðinu "sign" sem hún finnur. Þetta segir mér að orðabókin sé lík orða"bókum" í því að þekkja bara orð sem eru í sinni grunnmynd. En ordabok.is býður uppá þægilegan aðgang sé verið að lesa vefsíður. Það er hægt að lita orð, hægrismella og fá upp þýðinguna. Mjög handhægt!
|
|
|
Post by indridi on Aug 24, 2007 16:48:08 GMT -5
Ennfremur virðist vera að eiga sér stað vakning um mikilvægi máltækni og hefur orðabók.is tam sagst vera kominn með góðann markara eins og kom fram í fyrirlestri. Sagðist hann hann á ordabok.is ekki vera kominn með nothæfan þýðanda (enska/ísl) ekki markara ? .. kannski ætti ég bara að gá að því . www.ordabok.isJá, ok þá var ég kannski eitthvað að misskilja. En þarf hann ekki að geta markað textann til að geta þýtt. Eða það hélt ég sko. Semsagt að einn af kostunum við það að marka textann, væri að geta þýtt hann síðan vélrænt. Nema ordabok.is sé að gera þetta með öðrum hætti.
|
|
|
Post by hrafn on Aug 25, 2007 4:00:42 GMT -5
Já, þýðingarforritið er ekki aðgengilegt á www.ordabok.is. Skv. viðtali í dagblöðum í sumar þá er von á þýðingarforritinu bráðlega og það verður mjög spennandi að prófa það. Höfundurinn hefur þegar líst því yfir að það virki sérstaklega vel.
|
|
|
Post by hrafn on Aug 25, 2007 4:15:31 GMT -5
Þið hafið nokkur nefnt mörkun sem eitt af þeim verkefnum sem unnið hefur verið að í tengslum við Tungutækniverkefni menntamálaráðuneytisins og einnig síðan því lauk árið 2004. Mörkun er eitt af þeim grundvallartólum sem nauðsynleg eru til að greina texta.
Getið þið fundið út hvaða nákvæmni hefur náðst við mörkun á íslenskum texta? Hér er nákvæmni skilgreind sem hlutfall réttra marka af heildarfjölda marka sem markari stingur upp á. Nákvæmnin hefur verið mæld með því að prófa markarana á texta Íslenskrar Orðtíðnibókar.
|
|
|
Post by indridi on Aug 25, 2007 5:14:23 GMT -5
Skv. tungutaekni.is/news/sigrun.pdf var markmið tungutækniverkefnisins að ná 92% nákvæmni Notaðir eru markararnir TnT, MXPOST og fnTBL. Stakur markari heur náð 90,36% nákvæmni, Með því að kjósa milli markarana næst síðan 91,54% nákvæmni. Þessar tölur miða við rétt mörkuð orð. Ef nægir að marka orðflokk hefur nást 98% nákvæmni. Af mörkurunum reynist TnT markarinn nákvæmastur og hefur náð 93% nákvæmni við mörkun utan Íslenskrar Orðtíðnibókar.
|
|
|
Post by birnagu on Aug 25, 2007 6:19:00 GMT -5
Já, eins og tölurnar sem ég sá hjá Sigrúnu, .. best 93% með því að láta bestu aðferðinar vinna saman. En hér er allt um Cygwin, Linux undir Windows en.wikipedia.org/wiki/Cygwin og www.cygwin.com/ til að downloada. Það tók ca 5 mín --- prófaði linux haminn með þessu hér .. ( Ord.txt = Orðskviðirnir úr gamla testamentinu) [glow=blue,1,500] $ grep -i kona c:\\Ord.txt > c:\\svar.txt
13 Alls konar dýra muni munum vér eignast, og hórkona sækist eftir dýru lífi. 10 Gekk þá kona í móti honum, búin sem portkona og undirförul í hjarta - 16 Yndisleg kona hlýtur sæmd, svo er fríð kona, sem enga siðprýði kann. 4 Væn kona er kóróna manns síns, en vond kona er sem rotnun í beinum hans. en skynsöm kona er gjöf frá Drottni. 10 Tvenns konar vog og tvenns konar mál, . 23 Tvenns konar vog er Drottni andstyggð, alls konar dýrum og yndislegum fjármunum. og þrasgjörn kona - er hvað öðru líkt. en sú kona, sem óttast Drottin, á hrós skilið. [/glow]
ég fæ líka " Tvenns konar ", þarf að krefjast þess að það sé bil í kring
|
|
|
Post by indridi on Aug 26, 2007 5:19:57 GMT -5
Já, eins og tölurnar sem ég sá hjá Sigrúnu, .. best 93% með því að láta bestu aðferðinar vinna saman. En þá átti sér stað einhver einföldun á vinnslumenginu var það ekki?
|
|
|
Post by bjarnia on Aug 27, 2007 20:32:52 GMT -5
Hver var afrakstur Tungutækniverkefnis menntamálaráðuneytisins Niðurstaða verkefnisins var sú að átakið yrði á 4 sviðum: 1) Byggð verði gagnasöfn Þetta virðist vera ennþá "work in progress" hérna: www.lexis.hi.is/malheild.htmÞetta á að klárast á árinu og innihalda um 25 milljón orð sem er ágætis fjöldi. (BNC inniheldur 100m til samanburðar) 2) Peningum veit til að styðja við rannsóknir 3) Fyrirtæki styrkt til að þróa afurðir sem nota tungutækni Sigrún útlistaði 2 og 3 ágætlega í svari sínu. 4) Menntun á sviði tungutækni og málvísinda elfd Þetta markmið hlýtur að vera komið vel á veg, enda er núna hægt að fara í meistaranám í máltækni hjá HR (í samstarfi við HÍ), sbr www.hr.is/?PageID=2697Ætli stærstu fréttirnar séu ekki þær að ordabok.is gaurinn fann galdralausn til að þýða frá íslensku yfir á ensku sem er skotheld
|
|
|
Post by wowposter on Sept 8, 2008 6:02:53 GMT -5
|
|
|
Post by wowgoldplus on Mar 19, 2009 9:00:32 GMT -5
|
|