قانون زيبف في: اللغة الإحصائية

نحن نتكلم اللغة والأدب والرياضيات إحصاءات تتبع مبدأ السنوكر.

قدرة الإنسان على التعلم والاستخدام والتخلص من لغتنا مع غيرها من الحيوانات منفصلة. يستخدم لغة التواصل بشكل فعال، ولكن أيضا يسمح لنا للتعبير عن قدرتنا على الإبداع من خلال الأدب والشعر والأغاني وأشكال أخرى. ربما كنت لاحظت أبدا، في الواقع، استخدام لغة يتبع أيضا صارمة مبادئ الرياضيات ، وأبرزها قانون زيبف ل و(القانون زيبف ل).

[الخلفية النظرية التي الرياضيات

إذا مقالا مطولا في كلمات مختلفة تنازليا وفقا لتواتر حدوث، وسوف تجد أن متوسط التردد هو الأكثر شيوعا يظهر كلمة عن مرتين في الكلمات الشائعة الثانية، أي ثلاثة أضعاف الكلمات شيوعا الثالثة وأكثر من ذلك بكثير. وبعبارة أخرى، و تردد كلمة حدوث (ص) مع مرتبة في الجدول التردد يتناسب عكسيا مع ص: و (ص) 1 / ص .

وكانت هذه الظاهرة هارفارد غوي جورج زيبف (جورج زيبف) وصف شعبية لمدة 70 عاما. في الواقع، اقترح وجود علاقة أكثر عمومية:

المعادلة (1)

وأعتقد أن لتردد كلمة، فإن المعلمة تكون قريبة إلى 1.

العلاقة أعلاه هو مثال على ما يسمى قانون السلطة. قانون السلطة هو سمة رئيسية في وغاريتمي مزدوج (سجل-السجل) نظام الإحداثيات، ويترتب على ذلك العلاقة الخطية .

وكما يوحي اسمها، رسم بياني لوغاريتمي مزدوج على جانبي قيمة محور س من قيمة المحور الصادي من الزوج المعادلة. العلاقة الخطية قانون القوة لا يمكن أن يتحقق من كلا الجانبين من المعادلة (1) مع اللوغاريتم، وإعادة كتابة قليلا.

أولا، فإننا سوف المعادلة (1) وإعادة كتابة إلى المعادلة الصحيحة:

المعادلة (2)

حيث C هو ثابت. على سبيل المثال، افترض أن C يساوي كلمة الأكثر استخداما (أي ص = 1) و تردد (1)، و= 1، والعودة بعد ذلك يتم استبدال القيم في المعادلة (2)، وسوف يعطي تسلسل و (1) = C، و (2) = و (1) / 2، و (3) = و (1) / 3 وما شابه ذلك.

وفي وقت لاحق، ونحن لوغاريتم أيضا من جانبي المعادلة (2)، وإعادة كتابتها للحصول على:

المعادلة (3)

ونحن نعلم أن المعادلة العامة للخط مستقيم هي ص = م + ب، حيث m هو ميل الخط، من المعادلة (3) يمكننا أن نرى أن سجل اللوغاريتم (و (ص)) للسكك تردد معادلة سجل اللوغاريتم رتبة (( R & لتر)) غير -a هو المنحدر من خط مستقيم.

نحن نسمي هذا التردد كلمة لوحظ في هذه الظاهرة القانون زيبف ل. حتى أكثر إثارة للاهتمام، ونحن أيضا لاحظت نفس الظاهرة في العديد من المجالات المختلفة الأخرى. هذا القانون، ليس فقط في مثل الموسيقى، لغة التعليمات البرمجية الكمبيوتر ترتبط ارتباطا وثيقا وغيرها من المناطق . أيضا في حجم اتصال الشبكة لا علاقة لها تماما، مثل شبكة الكهرباء في المدينة والإنترنت ويظهر النظام . ويبدو حتى إحصاءات السنوكر في (الكلام أدنى)! والفرق الرئيسي هو أن هذه الأنظمة المختلفة، قيمة المعلمة (أي، المنحدر من علاقة خطية بين لوغاريتم) قد تكون مختلفة تماما في القانون الطاقة المقابلة.

 تطبيق [الفعلي]

لديك الروح العلمية، وربما تحتاج أيضا إلى تحليل بعض من قانون المواد المفضلة لديهم الزوج هو الانحياز لاختبار ذلك! في الواقع، وهذا ليس من الصعب تطبيقها. (أدناه باللغة الإنجليزية، على سبيل المثال، تشير بعض الدراسات إلى أن الإحضار الصيني يجتمع ايضا مع القانون زيبف ل)

يمكننا استخدام مواقع مثل كوربوس المعاصر الإنجليزية الأمريكية (COCA) ليتم الكشف عن القوائم موقع الكلمات الإنجليزية الأكثر شيوعا 5000 وتردد الفعلي لاستخدام. COCA هو عبارة عن مجموعة من النص الانكليزي المعاصر 450 مليون كلمة، والتي تغطي العديد من فئات مختلفة من الأدب والمؤلفين.

اختيار 50 من أكثر الكلمات الشائعة من هذه القائمة، ورسم وتيرتها في الرسم البياني لوغاريتمي مزدوج - علاقة الترتيب. يمكننا أن نكون القيم تردد لوغاريتمي والترتيب تحليل الانحدار الخطي للكشف عن علاقتهم الخطية، في حين أن القيمة المقدرة للمعلمة من قانون السلطة.

الشكل 1: COCA كلمة قاعدة بيانات توزيع التردد. قد تكون مبرمجة تحليل الانحدار الخطي التي كتبها R .

FIG أفضل قاء الانحدار الخطي للبيانات مع منحدر من -0.922، أي الموافق للقانون على السلطة في = 0.922، وهو قريب القيمة إلى 1 كما زيف الأولي. وعلاوة على ذلك، وفقا لالانحدار، هذه العلاقة الخطية قد يفسر الملاحظة 98 من التوزيع التكراري، فهم قليل من الإحصاءات قد يكون على دراية R ^ 2 = 0.98 هذا التعبير، وهو قيمة جيدة جدا.

هذه النتيجة لن يكون مجرد صدفة؟ يمكننا تغيير على سبيل المثال، الشكل الثاني هو البيانات تردد من داروين "أصل الأنواع" من كلمات. من خلال تحليل الانحدار الخطي للعثور على قيمة المعلمة المقابلة لسلطة القانون و= 0.829، أقل قليلا من قيمة المعلمة قاعدة بيانات الجهاز المركزي للرقابة، ولكن لديه جزء المناسب أفضل الخطي، لR ^ 2 = 0.99.

الشكل 2: "أصل الأنواع" توزيع كلمة تردد. يمكن استخدام العمق الدلالي محلل لعرض تردد بيانات الكتاب.

وكما يتبين من المثال أعلاه، على الرغم من أن كلاهما يتبع قانون السلطة، قاعدة بيانات COCA "متوسط" هناك فرق بين كلمة وتيرة توزيع الكتب المستقلة. أولا، كل القيم المعلمة مختلفة من قانون السلطة، على سبيل المثال، COCA قاعدة بيانات قيمة المعلمة = 0.922، و "أصل الأنواع" ل= 0.829، إلا أنها قد تكون أكثر أهمية، وهناك اختلافات معينة بين الكلمات رتبة ص الفعلية.

على سبيل المثال، في المرتبة COCA في ترتيب الكلمات الخمس الأولى هي، يكون، و، من و، بينما في داروين "أصل الأنواع" في الكلمات الخمس الأولى من الترتيب هو، من، وفي و.

 [قانون والسنوكر زيبف ل]

ولإعطاء مثال على اهتمام. أنا لا أعرف إذا رأيت في حين يعود بطولة السنوكر العالمية التى اختتمت لتوها حتى الآن؟ في الواقع، قانون زيبف هو أيضا موجود في إحصاءات السنوكر.

الجدول الأول: الجزء المرتبة العقلة أكثر من مائة اللاعبين. (المصدر: HTTP: //snookerinfo.webs.com/100centuries)

إذا كنت معتادا السنوكر، بالتأكيد على "طلقة واحدة أكثر من مائة" ليس غريبا على هذا المفهوم، وهذا هو، في درجة مستمرة أكثر من 100 نقطة، وهو أعلى مستوى يسجل من أصل 147، ونحن نسميها "بار كامل". السنوكر طلقة واحدة أكثر من مائة قوائم الترتيب كل الأحداث المهنية في طلقة واحدة لعبت أكثر من 100 لاعب، هو من بين أعلى لها "صاروخ" أوسوليفان (روني "الصاروخ" أوسوليفان)، في كتابه مهنة، لعبت 874 طلقة واحدة أكثر من مائة، منها 13 لشريط كامل.

الشكل (3): لاعب السنوكر العقلة خلال التوزيع الإحصائي مئة.

إذا يتم رسم هذه الإحصاءات في رسم بياني لوغاريتمي مزدوج، ويمكن تركيب سلطة القانون الحصول على نتائج هو مبين في الشكل الثالث. على الرغم من أن وتيرة الكلمات من المثال السابق، كما هو موضح في الشكل السفلي تركيب خط مستقيم إلى البيانات وبعض النظر عن درجة اتفاق، ولكن R ^ 2 = 0.95 يعني أنه لا يزال صالح سليم معقول. بيانات أعلى وأدنى مرتبة، والفرق بين البيانات الفعلية وتناسب أكثر وضوحا أن هذا هو الحال بالنسبة للإحصاءات التي تحدث عادة. الموافق المعلمات سلطة القانون و= 0.594، كلمة تردد، وهو تماما معلمات مختلفة. ومع ذلك، وجدت أن قانون زيبف في وجود إحصاءات السنوكر هو في حقيقة الأمر مفاجأة مثيرة للاهتمام!

[دعونا كلمتك "العد" كلمات]

سوف الترددات كلمة الفعلية بين نصوص مختلفة من قبل المؤلفين أو توزيع هناك مختلفة تكون هناك اختلافات، لا يسعنا إلا أن أفكر، إذا يمكنك أن تأتي لفهم بعض المعلومات التي وزعتها مؤلف تردد معين ذلك؟

في الواقع، علم النفس جيمس Pennebaker (جيمس Pennebaker) يعتقدون أن الطريقة الكتاب تعبر عن أفكارهم تكشف عن طابعها الخاص إلى حد ما. على وجه الخصوص، بعض الكلمات استخدام وظيفة (مثل الضمائر، المواد ينقل سوى القليل من المعلومات هذه الكلمات) مع المؤلف على ما يبدو علاقة مباشرة الى الدولة الاجتماعية والنفسية. ببساطة، كلامك يمكن أن تفسر شخصيتك .

Pennebaker وله وضعت في وقت واحد برنامج كمبيوتر متطور ، واستخدامها لجمع أنواع مختلفة نبذة عن الكاتب يستخدم كلمة الإحصاءات. وقام الباحثون بتحليل آلاف من الكتب، بلوق والعروض، الخ مع هذا البرنامج، ويمكن أن يكون من حيث محددة مع الشخصية، والصدق، والمهارات والنوايا الاجتماعية المرتبطة. تم العثور على هذه الجمعية في وقت مبكر منذ وقت طويل، ولكن مع هذا البرنامج أداة جديدة، فإنها يمكن إجراء تحقيقات أكثر تفصيلا وأكبر، تثبت وجود صلة متينة بين اللسانيات وعلم النفس.

لغة الإحصائية ليست دائما سهلة الفهم، ولكن يوفر التحليل الإحصائي أداة مفيدة وتنوعا. ولغتها الرياضية يمكن أن تستخدم أيضا لتحليل اللغة الطبيعية، عن طريق حساب ما تقوله إلى "تدبير" أقول لكم - وهذا هو لغة الإحصاءات.

المصدر المرجعي:

[1] https://plus.maths.org/content/

[2] https://plus.maths.org/content/r-code-linear-regression

[3]

[4] https://liwc.wpengine.com

تحويل سيارة ولد من الله بو تشون 730 والذعر، وسوف تصبح 80،000 أسلوب حار

قبل أربعة آلاف سنة أجدادنا هنا تلتقط قذائف والصيد

ديك الاحتيال! وقعت Hengda دوري أبطال آسيا حتى لفنغ سياوتينغ، والاحتياطي تنازل الحقيقي؟ غير موجود

سكوتر صينية الصنع، والنمل مثل حجم، وشرائه بعيدا عن وسائل النقل العام المزدحمة مؤلمة

مباراة المجموعة الألمانية للخروج في البرازيل الأتعس، الذين لا يسمح لهم بعد نكتة لكرة القدم مع وانغ شينتشاو

ديورانت NBA CBA الجزية "ليس شجاعا العالم" المشهد، نصف بطل وطني دونك خط القدم

الصيف اختلاف درجة حرارة المياه وتأثيرها على تربية الأحياء المائية في المياه العذبة الأكبر

البرت اينشتاين كان يعتقد سابقا مستحيلة، علماء الفلك قد فعلت فقط

تشاوتشو تخصص تخصص للأغنية، كان لديك عدد قليل؟

5 متر طول 26 سيارة، ومعيار 7 ثوان Pobai، والراحة الداخلية سوبر S الفئة-

تشكيل عناصر رحلة

وفي العام الماضي ذكر تقرير عمل الحكومة الأشياء، يجب أن نفعل ذلك؟