أدوات برمجية لخدمة اللغة العربية
ما هي أدوات وجود ؟
- أدوات و حُزم من التقنيات الخاصة باللغة العربية, تُسخر كل من الذكاء الاصطناعي وخصائص اللغة والإحصائيات لتكوين أدوات مختلفة لخدمة علميات البحث والمعالجة النصية للغة العريية.
وجود . أسماء
- وهي
حزمه من الأدوات الخاصة بمعالجة النصوص
العربية المتكونة من أسماء الأشخاص.
وتحتوي
هذه الحُزمة على:
- مصنف الأسماء:
أداة قادرة على تصنيف الأسماء حسب نوعها (اسم مذكر, اسم مؤنث, اسم عائلة ).
- مترجم الأسماء
:
نظام قادر على ترجمة أسماء الأشخاص من العربية إلى الانجليزية وذلك بتسخير إحصائيات وقواعد بيانات قوية تعمل على تحليل أفضل الترجمات المتبعة للاسم المدخل.
- مصحح إملائي
اسمي متخصص
:
يعمل على تصحيح الأخطاء الإملائية في الأسماء المدخلة و يمتاز هذا النظام بقدرته على القيام بتحليلات عميقة لبناء الاسم الصحيح, ومن غير الوقوف على عدد معين من الأخطاء.
- نظام اقتراح
آلي :
وهي أداة مفيدة في تعبئة وإدخال البيانات وخاصة الاسمية منها , بحيث تعمل على اقتراح إلي وفوري لأسماء بشكلها الصحيح لتسريع عملية الإدخال.
وجود . عربي
- وهي حزمة عامة من الأدوات الخاصة بمعالجة النصوص العربية بشكل عام وتشمل:
- مصحح إملائي آلي بسيط :
وهو نظام سنقوم بتوفيرها لمحركات البحث و معالجات النصوص لتعمل على تصحيح الأخطاء – مهما كان حجمها في الكلمة الواحدة- واقتراح أفضل الحلول بالاعتماد على مقاييس مختلفة.
- مصحح إملائي آلي مركب: وهو نظام يشبه النظام البسيط ولكن يقوم بالتركيز على مجموعة من كلمتين أو ثلاثة كمدخله واحده في التصليح, مما يعطيه الإمكانية للوصول إلى دقة أفضل في اقتراح الكلمات الصحيحة.
- نظام التصنيف
الرئيسي:
وهو نظام يعمل على تصنيف النصوص العربية إلى عدة تصنيفات رئيسية معرفة مسبقا و تشمل : العلوم والهندسة , الطب , الأدب , السياسة , التاريخ , الجغرافيا , الاقتصاد , الرياضة .
- نظام التصنيف
الفرعي:
وهو نظام يعمل على إيجاد تصنيفات فرعية للنصوص المصنفة بتصنيف رئيسي معين , أو إيجاد مجموعه من التصنيفات التي يمكن استخدامها في تصنيف نص معين , وهذه التصنيفات الفرعية تشمل : كرة قدم , كرة سلة , تنس , اولمبياد , سباقات , فيزياء , كيمياء . إحياء .تاريخ , دين إسلامي , دين مسيحي , فن , موسيقى , شعر , مسرح , جغرافيا , طب بشري , صيدلة , اقتصاد وغيرهم.
- أداة تحليل
صرفي لغرض استرجاع المعلومات:
وهي أداة مفيدة في محركات البحث حيث تقوم على إيجاد كافة المشتقات والإشكال المختلفة للكلمة المدخلة, فمثلا كلمة يدرسون سوف تعطي الناتج التالي:درس, مدرسة, يدرس, دراسة, تدريس, الدراسات, المدارس, المدرسون وغيرها.
- نظام تحديد اللغة: وهو أداة بسيطة تعمل على استخلاص النص العربي فقط و يقصد بالنص العربي هنا هو النص المكتوب باللغة العربية وبأحرف عربيه وليس النص المكتوب بأحرف عربية للغة أخرى كالفارسية.
- استخلاص جذور
الكلمات:
تقوم هذه الأداة بإعادة الكلمات إلى جذورها العربية.
- ملخص نصوص :
وهي أداة نقوم بتطويرها لتعمل على تخليص النصوص العربية المدخلة.
- مستخرج الكلمات المفتاحية : وهي أداة تعمل على البحث عن مجموعة من الكلمات الفردية , الزوجية والثلاثية التي يمكن اعتبارها كمفتاح للنص المدخل.
وجود . بي دي أف:
- وهي حزمة من الأدوات الخاصة لمعالجة النصوص العربية في ملفات البي دي اف و تشمل:
- نظام استخلاص
النص العربي ومعالجته من ملفات البي دي
اف:
وهو نظام يعمل على محاولة استخلاص النصوص العربية من ملفات بي دي اف التي لا تدعم استخراج النص العربي بشكل سليم.
- نظام بحثي :
يعمل على تخزين وأرشفة صفحات البي دي اف العربية لاستعمالها كقواعد بيانات لمحركات البحث.
وجود . قواعد:
- وهي عبارة عن قواعد بيانات ضخمة متخصص باللغة العربية وتحتوي على:
- قاعدة كلمات
عربية مفرده :
وهي قاعدة بيانات تتكون من كمية هائلة (أكثر من نصف مليون كلمة مختلفة) من الكلمات العربية مع بيانات تدل على مدى كثرة استعمال كل كلمة منهم.
- قاعدة كلمات
عربية مركبة زوجية:
تحتوي على كميه كبيره من التعابير العربية المزدوجة مثال : الوطن العربي , العالم الإسلامي.
- قاعدة كلمات
عربية ثلاثية :
وتحتوي على تعابير ثلاثيه مثال : البحر الأبيض المتوسط , التراث العربي الأصيل.
مراحل حياة "وجود"
- 8-2007
بداية "وجود" كانت كمشروع تخرج في كلية تكنولوجيا المعلومات للعام 2007 بإشراف الدكتور عدنان يحيى وعمل الطلبة علي صالحي , أنوار حثناوي , ميرنا وفواضلة و فكرة المشروع تتمحور حول إنشاء محرك بحث وأدوات تحسين البحث باللغة العربية.
- 5-2008
تم ترشيح "وجود" للمشاركة في فعاليات معرض أعمال طلبة تكنولوجيا المعلومات في الوطن العربي باختياره كأحد أفضل ثلاث مشاريع في كلية تكنولوجيا المعلومات للعام 2008.
- 7-2008
فوز "وجود" بجائزة أفضل مشروع تخرج في معرض ومسابقة أعمال طلبة تكنولوجيا المعلومات في الوطن العربي.
- 8-2008:
الترشح لجائزة غوغل للأبحاث العلمية.
- 2008-10:
التقدم لبرنامج سواعد من مؤسسة محمد بن راشد ال مكتوم لدعم المشاريع والأعمال.
- 3-2009:
فوز جامعة بيرزيت وفريق "وجود" بجائزة غوغل للأبحاث العلمية لتصبح الجامعة العربية الوحيدة الحاصلة على تلك الجائزة.
- 5-2009:
إعلان نتائج برنامج سواعد ووصول "وجود" لمراحل متقدمه .
- 8-2009:
بدء العمل على تطوير المشروع ضمن نطاق جائزة غوغل للأبحاث العلمية بالتركيز على الأدوات اللغوية التي تخدم اللغة العربية.
- 4-2010:
إطلاق وجود لحزمة "وجود.أسماء" وقريبا سوف يتم العمل على إطلاق بعض الأدوات من حزمة "وجود.عربي".
أدوات تجريبية
- أضغط على اسم الأداة او الحزمة لتجربتها
- نظام إستخلاص الاسماء العربية جديد
نظام يعمل على استخراج اسماء الأشخاص من النصوص والمقالات العربية.
- نظام تعبئة بطاقة الاسم جديد
نظام للإقتراح الأسماء وتصحيحها ومعالجتها ويعتمد على وجود.أسماء
- ادوات تجريبية مختلفة
هذه الأدوات بنسخ تجريبية - توجد تعديلات جديدة كثيره ستطرح قريبا
- استخراج الجذور و مشتقات الكلمات
أدوات تجريبية لإستخراج الجذور ومشتقات الكلمات - وهي أدوات بإصدارات قديمة وسنقوم قريبا بإصدار نسخ جديدة منها
Copyright © 2011 Birzeit University,
Wojood All rights reserved.
Powered by Google App Engine.
Developed by: Eng.Ali Salhi.
Supervised by: Dr.Adnan Yahya.
Contact: asalhi@birzeit.edu
Powered by Google App Engine.
Developed by: Eng.Ali Salhi.
Supervised by: Dr.Adnan Yahya.
Contact: asalhi@birzeit.edu