..
الثامنه
تعريف الكوربس وهو مجمع لغوي
A corpus is a collection of language material, made in some principled way (not haphazardly), either on tape or written in hard copy (e.g. books, student essays) or in electronic form. We are concerned only with the last type.
.................................................. .............................................
اغراض استخدام الكوربس ومن يستخدمه
1) by linguists to help describe language, and test theories
2) by teachers and learners to aid language learning (i.e. a form of CALL).
.................................................. ..............................................
للاستفاده من او استخدام أي كوربس لابد من تواجد شيئين مهمين :كوربس – سيرتش انجين
To perform any electronic corpus-based task directly you need two things - a corpus and a search engine.
.................................................. ..............................................
طبيعة الكوربس انه مجرد نص ( قاعدة بيانات ) مجموعه من المفردات اللغويه ..
A corpus itself is just text (a form of data), which may have been originally written, or be transcribed speech.
.................................................. ...............................................
المجاميع " كوربورا " مجموع كوربوس ليست مخزنه جميعا بنفس الصيغه :
Corpora are not all stored in the same format (though often they are in the plainest of DOS or ASCII text),
.................................................. ...............................................
المجاميع اللغويه قد تحتوي على معلومات مرمزه داخل او خارج النص :
and they may have coded information (tags) added in and out of the text
.................................................. ..............................................
لتستطيع استخدام الكوربس لابد لك من الدخول الى محرك بحث
To use a corpus for any task you have to access it by using a search engine
.................................................. ..............................................
مستخدمي الكوربورا " مجاميع اللغه ":
USERS OF CORPORA
معدي القواميس : ليعرفوا كيف بالفعل تستخدم الكلمات والشكل الذي تستخدم به غالبا , واضافة مدخلا تجديده الى القواميس .
Dictionary makers - e.g. to find out how words are actually used, and how often, and improve dictionary entries
.................................................. ...............................................
النحويون الذين ينهجون المنهج الوصفي : لتحسين وتطوير وصفهم ليتناسب مع الاستخدام الحقيقي للبنيه النحويه للكلمه .
Descriptive grammarians - e.g. to improve their descriptions to fit the facts of actual use of constructions
.................................................. ...............................................
لمعرفة الاختلافات بين استخدامات الكتاب المختلفين لنفس الكلمه :
Stylisticians - e.g. to see what differences there are in how frequently different authors use certain words
.................................................. ...............................................
علماء اللغه الاجتماعيين : لمعرفة كيف تتكرر بنيه محدده في المحادثات .
Sociolinguists - e.g. to see how frequent certain constructions are in conversation
.................................................. ................................................
...: لمعرفة ما اذا كان برنامج التحليل القواعدي سوف يحدث بشكل طبيعي
Computational linguists - e.g. to see if their grammatical parsing programs will work on naturally occurring language
.................................................. .................................................
- Language learning researchers - e.g. to see how often learners with a particular L1 get something wrong
-Writers of teaching syllabuses - e.g. to see how often the passive really occurs in academic English
-Writers of teaching course materials - e.g. to incorporate authentic examples into their material
-Teachers making class tasks, or even learners directly themselves - e.g.
to supply additional clues for context guessing word meaning
-for guidance on how to use word when writing to help prompt self-correction
-for word study
for 'language awareness' work on grammer
التاسعه ..
التاسعه :
مسائل تتعلق بالكوربس ..
العباره لسينكلير : Let the data speak for itself?
العباره لشومسكي : I-language versus E-language
العباره لويدوسون : Missing context, intention, ‘ethnographic’ information. Third person not 1st person view
.................................................. .................................................. .......
من عيوب او نقاط الضعف في الكوربس :لايمكن للكوربوس ان تظهر مالن يحدث او اللذي ممكن ان يحدث :
Corpus can't show what doesn't occur, or all that can occur
.................................................. .................................................. .........
Introspection may be surprised by what does occur
.................................................. .................................................. ..........
من عيوب الكوربورا انها لاتستطيع تغطية جميع جوانب اللغه ومجالاتها .
Areas of language that corpora don’t illumine
.................................................. .................................................. ............
من الاسئله المتعلقه بالكوربس ماهو الحجم المفترض له ..؟؟
Size of corpus and individual word frequency. How big should it be?
.................................................. .................................................. ...........
مكلف نوعا ما احيانا الحصول على الكوربوس ,
Cost effectiveness - more running words doesn't give more different words proportionally
.................................................. .................................................. ...........
احيانا ممكن ان تحتاج الى 10-20 ساعه للاطلاع الى 2000 كلمه
10-20 hours to process 2000 words of speech (prosodic tagging)
.................................................. .................................................. ............
لايعني كثافة السكان انه من الضروري ان يكون هناك ايضا تضخم وكثافه في الكوربوس .
Just because a population is vast does not mean samples have to be vast to be representative, as some think… Depends on feature of interest and variability. Word frequency problem
.................................................. .................................................. .................
هل الكوربورا جامد ام من الممكن التعامل معه بالاضافه والتعديل عليه ..
Static or dynamic (monitor) corpora?
.................................................. .................................................. ..............
Sampling and how to be representative e.g. of general English? Any collection of texts is not a useful (principled) corpus. Problems…
..................................................
معليش سوري ع التاخير بس التاسعه طويله جدا ..
الانحياز الى الشكل المكتوب في الكوربس ..
Opportunistic - biased to written, accessible varieties?
.................................................. .................................................. ...................
يجب ان يكون تقديم الكوربوس بشكل ممنهج ومتوازن
Systematic- balanced and representative: a corpus of corpora
.................................................. .................................................. .......................
هل يجب استبعاد اللغات الغير رسميه كلغة العامه او لغة الشوارع ؟؟
Exclude non-standard?
.................................................. .................................................. .............
هل يجب التنويع في الكوربوس بضم مصطلحات الاقطار المختلفه ؟
What national varieties?
.................................................. .................................................. ..............
من أي زمن يجب البدء بادراج لغوياته في الكوربوس ..
How far back?
.................................................. .................................................. ...............
ماهي نسب التنوع ؟؟
What proportions of varieties?
.................................................. .................................................. ............
عامل المتحدث والكاتب .تكون المشكله اكبر مع المكتوب اكثر من المتحدث ..؟
Speaker/writer factors as well (demographics)? Problem more with written than spoken (L1 from name?). Addressee
.................................................. .................................................. .............
الاختيار العشوائي يقول الدكتور انه الافضل ..
Then: Random selection?
.................................................. .................................................. ........
اختيار العينه على اساس معين ؟؟
Stratified sampling? What varieties?
.................................................. .................................................. ...
الاختيار على حسب كم مره قرأت الكلمه او بمدى تاثيرها ؟؟
Weighting by how much read or by 'influence'? Expert judgment
.................................................. ...............................................
ماهو حجم العينه التي ناخذها من نص معين ؟؟ حقوق المؤلف ..
How to sample each text, and sample size again? Copyright issues
.................................................. .................................................. ...............
ماهي طبيعة الداتا التي تريدها .. محكيه .. الخ ؟
Spoken? how natural are speeches, TV etc.?
.................................................. .................................................. .
مثلا الحاجه الى اخذ اذن الاشخاص لتدوين معلومات شخصيه عنهم يجعل الامر اقل طبيعيه ؟؟
Fully natural: observer’s paradox and how to be ethical? Permission. Labov’s tricks
.................................................. .................................................. ........
مسألة النسخ : مالذي يجب نسخه ومن الذي يجب ان يفعل ذلك ؟؟
Transcription issues: what to transcribe and who does it (expert or not)
.................................................. .................................................. ..
اخذ العينات العشوائيه مره اخرى : مشكلة اللغات واللهجات .
Random sampling again; problem of accents and dialects
.................................................. .................................................. .........
التحليل : كيفية استخراج المعلومه المفيده بشكل تلقائي ؟؟
Analysis - how to extract useful information automatically?
.................................................. .............................................
التكرار والاشتقاق ..
frequency and its derivatives:
.................................................. ........
g