خلاصه سازی متن به کمک هوش مصنوعی

خلاصه سازی متن یکی از مهم ترین فعالیت ها در زمینه هوش مصنوعی و پردازش زبان طبیعی است. هدف اصلی خلاصه سازی متن، استخراج اطلاعات کلیدی و مهم از یک متن طولانی و سپس تولید یک نسخه مختصرتر و خلاصه شده از آن است. خلاصه سازی متن در هوش مصنوعی به عنوان یکی از فنون مهم در پردازش زبان طبیعی استفاده می شود. کاربردهای خلاصه سازی متن در حوزه های مختلفی از جمله خبررسانی، خواندن و خلاصه کردن مقالات علمی، جستجوی اطلاعات و مدیریت دانش، پردازش اتوماتیک سندها و متون حقوقی، و همچنین تولید خلاصه خبرها و مقالات در وب سایت ها و رسانه های اجتماعی است.

Natural Language Processing مخفف NLP است.NLP زمینه از هوش مصنوعی است که  به بررسی و پردازش زبان طبیعی انسان می پردازد. هدف اصلی ، فهمیدن و تفسیر کلمات و جملات انسانی توسط سیستم های کامپیوتری است. زبان طبیعی به طور کلی به زبانی اشاره دارد که انسانها برای ارتباط و انتقال اطلاعات استفاده میکنند. زبان بیانی انسان شامل نحو، دستور زبان، معنا و ساختار است. NLPبا استفاده از الگوریتم ها و مدلهای محاسباتی سعی در تحلیل، فهمیدن و تولید زبان طبیعی دارد. خلاصه سازی متن به کمک هوش مصنوعی یکی از زیرشاخه های علم پردازش زبان و گفتار طبیعی می باشد که در آن به کمک مدل ها به خلاصه سازی پرداخته می شود. در حوزه هوش مصنوعی، دو نوع خلاصه سازی متن وجود دارد: خلاصه سازی متن استخراجی و خلاصه سازی متن تولیدی.

در خلاصه سازی متن استخراجی، اطلاعات کلیدی از متن استخراج میشود و به عنوان خلاصه استفاده میشود. این روش معمولاً از روشهای محاسباتی مانند مدلهای مبتنی بر یادگیری ماشین و الگوریتم های تجزیه و تحلیل استفاده میکند.

در خلاصه سازی متن تولیدی، جملات جدیدی تولید میشوند که اطلاعات کلیدی را بازتولید میکنند. این روش معمولاً از روشهای مبتنی بر شبکه های عصبی بازگشتی و شبکه های ترنسفورمر استفاده میکند.خلاصه سازی متن در هوش مصنوعی ابزاری قدرتمند است که در تسهیل و تسریع فرایند استخراج اطلاعات از متن ها و ارائه آن به کاربران با کارایی بالا موثر است. 

مدل‌های زبانی، الگوریتم‌ها یا سیستم‌هایی هستند که بر اساس یادگیری ماشینی و هوش مصنوعی طراحی شده‌اند تا بتوانند زبان طبیعی را درک کنند و تولید متن کنند. این مدل‌ها برای تحلیل و فهم متن، پردازش زبان طبیعی و تولید متن، مثلاً پاسخ به سؤالات کاربران، ترجمه متون، تولید شرح بر تصاویر و بسیاری دیگر از وظایف مربوط به زبان استفاده می‌شوند.

یکی از مهمترین نوع مدل‌های زبانی که در سال‌های اخیر توجه زیادی به آن شده است، مدل‌های زبانی ترتیبی (Sequential Language Models) هستند. این مدل‌ها بر پایه شبکه‌های عصبی بازگشتی (Recurrent Neural Networks) ساخته می‌شوند و قادرند متن ورودی را به ترتیب واژه به واژه تجزیه و درک کنند. مدل‌های زبانی معروفی مانند GPT (Generative Pre-trained Transformer) و LSTM (Long Short-Term Memory) در این دسته قرار می‌گیرند.

مدل‌های زبانی ترتیبی به صورت پیش‌آموزش داده می‌شوند، به این معنی که با دسته‌ای از داده‌های زبانی بزرگ و تنوع‌پذیر مانند متون اینترنت یا کتابخانه‌های متنوع، قبل از آموزش برازش شده و سپس با تعامل با داده‌های جدید در فاز بعدی، بهبود یافته و رویکرد خاصی را برای وظایف خاصی مانند پاسخگویی به سؤالات کاربران یا ترجمه متون به کار می‌برند.

مدل‌های زبانی پیشرفته‌تری نیز وجود دارند که بر پایه معماری‌هایی مانند ترنسفورمر (Transformer) ساخته شده‌اند. این مدل‌ها قادرند ارتباطات بلندمدت بین کلمات را در متن درک کنند و به دلیل قابلیت پردازش موازی، سرعت بالایی را در پردازش زبان ارائه می‌دهند. 

 

مدل زبانی BERT

 مدل زبانی BERT در هسته ی خود دارای یک مدل زبانی مبتنی بر ترنسفورمر با تعداد زیادی از انکودرها و لایه های-self attentionهست. برت به صورت از پیش آموزش داده شده روی دو تسک هست. اولی تسک مدل کردن زبانی است که ۱۵درصد از توکن ها را به صورت ماسک شده قرار داده بوده اند که برت آموزش داده شده است تا بر اساس کانتکست آنها را پیشبینی نماید. تسک دوم هم مرتبط با تسک پیشبینی عبارت بعدی است. در این تسک برت آموزش داده شده است تا اگر یه جمله ی بعدی به صورت احتمالاتی داده شده باشد و یا اصلا جمله ی بعدی را نداشته باشیم چطور بتوانیم از روی یک جمله جمله ی بعدی را پیشبینی نماییم. هردوی این مسئله ها مسائل پایه ای و رایج در پردازش زبانهای طبیعی هستند و به صورت کاربردی در مسائل زیادی در پردازش زبان های طبیعی کاربرد دارند. به عنوان نتیجه از یادگیری مدل برت می توان گفت که برت می تواند به صورت محتوایی کلمات را در جملات و کانتکست های خاص یاد بگیرد. مزیت این مدل این است که پس از اینکه به صورت از پیش آموزش داده شده روی تسک های فوق آماده شد، حال می توان آن را روی هر تسک دلخواهی از پردازش زبان های طبیعی  Finetuneکرد و امروزه با دیتاست های به نسبت کوچک روی تسک های دلخواه پردازش زبان های طبیعی هم میتوان به نتایج خوب با دقت های بالایی رسید و به صورت محاسباتی هم هزینه ی کمتری دارند چراکه قبلا برت روی داده های زیادی آموزش داده شده است.(WikiPedia,2023)

در ادامه برای یادگیری بیشتر به بررسی کد زیر می پردازیم.

در ابتدا به نصب کتابخانه و ماژول مورد نیاز می پردازیم.

!pip install transformers==2.2.0
!pip install bert-extractive-summarizer
!pip install spacy==2.0.12

در ادامه پکیج های مورد نیاز را به پروژه ایمپورت می کنیم.

from summarizer import Summarizer,TransformerSummarizer

حال متن مورد نظر خود را در قالب متغیر Body  تعریف می کنیم.

body = '''
Scientists say they have discovered a new species of orangutans on Indonesia’s island of Sumatra.
The population differs in several ways from the two existing orangutan species found in Sumatra and the neighboring island of Borneo.
The orangutans were found inside North Sumatra’s Batang Toru forest, the science publication Current Biology reported.
Researchers named the new species the Tapanuli orangutan. They say the animals are considered a new species because of genetic, skeletal and tooth differences.
Michael Kruetzen is a geneticist with the University of Zurich who has studied the orangutans for several years. He said he was excited to be part of the unusual discovery of a new great ape in the present day. He noted that most great apes are currently considered endangered or severely endangered.
Gorillas, chimpanzees and bonobos also belong to the great ape species.
Orangutan – which means person of the forest in the Indonesian and Malay languages - is the world’s biggest tree-living mammal. The orange-haired animals can move easily among the trees because their arms are longer than their legs. They live more lonely lives than other great apes, spending a lot of time sleeping and eating fruit in the forest.
The new study said fewer than 800 of the newly-described orangutans exist. Their low numbers make the group the most endangered of all the great ape species.
They live within an area covering about 1,000 square kilometers. The population is considered highly vulnerable. That is because the environment which they depend on is greatly threatened by development.
Researchers say if steps are not taken quickly to reduce the current and future threats, the new species could become extinct “within our lifetime.”
Research into the new species began in 2013, when an orangutan protection group in Sumatra found an injured orangutan in an area far away from the other species. The adult male orangutan had been beaten by local villagers and died of his injuries. The complete skull was examined by researchers.
Among the physical differences of the new species are a notably smaller head and frizzier hair. The Tapanuli orangutans also have a different diet and are found only in higher forest areas.
There is no unified international system for recognizing new species. But to be considered, discovery claims at least require publication in a major scientific publication.
Russell Mittermeier is head of the primate specialist group at the International Union for the Conservation of Nature. He called the finding a “remarkable discovery.” He said it puts responsibility on the Indonesian government to help the species survive.
Matthew Nowak is one of the writers of the study. He told the Associated Press that there are three groups of the Tapanuli orangutans that are separated by non-protected land.He said forest land needs to connect the separated groups.
In addition, the writers of the study are recommending that plans for a hydropower center in the area be stopped by the government.
It also recommended that remaining forest in the Sumatran area where the orangutans live be protected.
I’m Bryan Lynn. '''

 

در این خطوط مدل برت وارد پروژه شده و نتیجه حاصل نمایش داده می شود.

bert_model = Summarizer()
bert_summary = ''.join(bert_model(body, min_length=60))
print(bert_summary)
Scientists say they have discovered a new species of orangutans on Indonesia’s island of Sumatra. 
They say the animals are considered a new species because of genetic, skeletal
and tooth differences. He said he was excited to be part of the unusual discovery of a new
great ape in the present day. He noted that most
great apes are currently considered endangered or severely endangered. Orangutan – which
means person of the forest in the Indonesian and Malay languages - is the world’s biggest tree-living mammal.
It also recommended that remaining forest in the Sumatran area where the orangutans live
be protected.
پیمایش به بالا