الذكاء الاصطناعي الجديد قادر على رواية القصص من خلال الصور
ربما يجسد الذكاء الاصطناعي في يوم من الأيام معنى التعبير "الصورة أبلغ من ألف كلمة"، فعلماء اليوم يدرسون برامج تصف الصور كما يصفها الإنسان.
وقد تكون الحواسيب في يوم ما قادرةً على شرح ما يحدث في مقاطع الفيديو كما يفعل ذلك الإنسان، وذلك وفقاً لأقوال باحثين تضمنتها دراسة جديدة.
لقد ازدادت قدرة الحواسيب على إدراك الوجوه والأشياء الأخرى الموجودة في الصور. وقد أدت هذه التطورات الأخيرة إلى ظهور أدوات شرح للصور بوسعها أن تُنشأ تفاصيل حرفية للصور.
ويعمل العلماء حالياً في مركز ابحاث مايكروسوفت على تطوير نظام بإمكانه وصف سلسلة من الصور تلقائياً بنفس الطريقة التي قد يصفها الإنسان عند سرد أي قصة. ويصرح الباحثون بأن الهدف لا يرمي فقط إلى وصف الأشياء الموجودة في الصور، بل ما يجري في الصورة أيضاً، وكيف لذلك أن يؤثر على ما يشعر به الإنسان. وعلى سبيل المثال إن عرضت على أي شخص صورة رجل يرتدي بدلة سهرة رسمية (توكسيدو) مع امرأة ترتدي فستاناً أبيضاً طويلاً، فعوضاً عن القول "هذا عريس وعروس"، فقد يقول "تزوج أصدقائي ويبدون في غاية السعادة، لقد كان زفافاً رائعاً"
ويحاول الباحثون أن يعطوا الذكاء الاصطناعي إمكانيات مماثلة لإمكانيات سرد القصص لدى الإنسان.
وصرحت مارغريت ميتشيل، قائد فريق الدراسة وعالمة الحواسيب لدى مركز مايكروسوفت للأبحاث : "يتناقل الناس القصص منذ عصور والتي تحمل في طياتها الكثير من الحكم والنصائح والخبرات والعادات وأخلاق وطبائع الشعوب ، لذلك فإنه من خلال تركيزنا على سرد القصص فإننا نعمل على إيجاد ذكاء اصطناعي يدرك مفاهيم الإنسان بشكل أفضل ويكون ذو فائدة للجنس البشري عوضاً عن تعليمه كيف يهزم الجنس البشري".
سرد القصص:
في سبيل إنشاء نظام مرئي لسرد القصص، استعمل الباحثون شبكات عصبية حاسوبية عميقة وأنظمة حاسوبية بإمكانها التعلم عن طريق الأمثلة، ولتوضيح هذا الأمر نأتي بالمثال التالي: إنّ تعلُم كيفية إدراك القطط في الصور يتم عن طريق تحليل آلاف الأمثلة عن صور القطط. ويُشابه النظام الذي اخترعه العلماء تلك الأنظمة المستعملة في الترجمةالمؤتمتة، لكن عوضاً عن تعليم النظام عملية الترجمة من لغة أخرى، عمد العلماء إلى تدريبه كيفية ترجمة الصور إلى جمل.
واستعمل الباحثون سوق "امازون ميكانيكال تورك Amazon's Mechanical Turk"وهو سوق عمل لتأمين الموارد البشرية بهدف كتابة جمل تصف المشاهد التي تتألف من خمسة صور أو أكثر. حيث وصف الذين شاركوا في هذا العمل بالمجمل ما يزيد عن 65.000 صورة من أجل تحميلها في النظام.
ثم قام العلماء بإدخال أكثر من 8.100 صورة جديدة لفحص القصص التي يُنشئها. وعلى سبيل المثال قد يحتاج برنامج إعطاء التعليقات عن الصور إلى خمسة صور ليقول: "هذه صورة عائلة، هذه صورة كعكة، هذه صورة كلب، هذه صورة شاطئ"، غير أن برنامج سرد القصص قد يأخذ الصور عينها ويقول: "اجتمعت العائلة في حفلة شواء، استمتعوا بكثير من الأطعمة اللذيذة، كان الكلب سعيداً أيضاً، لقد حظوا بوقت ممتع في الشاطئ، حتى أنهم سبحوا في المياه."
ومن ضمن التحديات التي واجهها الباحثون كيفية تقييم فعالية النظام في إنشاء القصص، فالطريقة الأمثل والأكثر موثوقية في تقييم جودة أي قصة تتمثل في حكم الإنسان وتقديره، بيد أن الحاسوب يخلق آلاف القصص التي قد تستغرق وقتاً طويلاً وجهداً كبيراً من الناس لكي يفهموها.
وعوضاً عن ذلك لجأ العلماء إلى طرق مؤتمتة لتقييم جودة القصة في سبيل تقييم أداء الحاسوب بسرعة. وفي اختباراتهم، ركزوا على طريقة مؤتمتة واحدة عبر تقييمات تتوافق إلى حد بعيد مع حكم الإنسان وتقديره. ووجدوا أن هذه الطريقة المؤتمتة صنفت راوي القصص الحاسوبي من حيث الأداء بمرتبة شبيهة إلى حد بعيد بالراوي البشري.