شرکت آریا هامان مهر پارسه اعلام می کند محصول «کتابخانه ارائه خدمات NLP مبتنی بر گراف برای زبان فارسی (Rakhshai-Graph-based-NLP)» موفق به دریافت تأییدیه دانشبنیان شده و این شرکت به جمع شرکتهای دانشبنیان کشور پیوسته است.
پروژه متنباز Rakhshai Graph-based NLP، متعلق به شرکت آریا هامان مهر پارسه، بهعنوان یک محصول دانشبنیان، نخستین معماریهای بومی و متنباز برای پردازش، مدلسازی و تولید زبان فارسی است که مسیر کاملی از پیشپردازش، ساختاردهی و تحلیل متن تا یادگیری عمیق و تولید برای زبان فارسی را در یک چارچوب مستقل و یکپارچه ارائه میدهد.
شرکت آریا هامان مهر پارسه با تکیه بر معماریها و روشهای گرافمحور، متن فارسی را از حالت صرفاً خطی و توالیمحور خارج کرده و به ساختاری رابطهمند تبدیل میکند؛ ساختاری که میتواند برای تحلیل متن، طبقهبندی، خلاصهسازی، توصیهگر محتوا و توسعه مدلهای هوش مصنوعی فارسی بهکار رود. معماریها و روشهای گرافمحور، از رویکردهای مدرن در هوش مصنوعی و پردازش زبان طبیعی هستند.
Rakhshai-Graph-based-NLP به زبان ساده چه کاری انجام میدهد؟
برای درک سادهتر Rakhshai-Graph-based-NLP، میتوان متن فارسی را مثل یک شهر تصور کرد. در یک شهر، خانهها، خیابانها، میدانها و مسیرهای ارتباطی وجود دارند. اگر فقط خانهها را جداگانه ببینیم، تصویر کاملی از شهر نداریم؛ اما وقتی مسیرها و ارتباط میان آنها را هم ببینیم، میتوانیم بفهمیم هر بخش چه نقشی دارد و چگونه به بخشهای دیگر وصل میشود.
در پردازش متن هم همین اتفاق میافتد. بسیاری از سامانههای هوش مصنوعی، متن را فقط بهصورت یک ردیف از کلمات پشت سر هم میبینند. اما Rakhshai-Graph-based-NLP تلاش میکند علاوه بر خود کلمات، رابطه میان آنها را هم در نظر بگیرد؛ مثلاً اینکه کدام واژهها به هم نزدیکترند، کدام جملهها با هم ارتباط معنایی دارند، کدام اسناد به یک موضوع مشترک اشاره میکنند و چه مفاهیمی در متن به هم وصل شدهاند.
به زبان ساده، Rakhshai-Graph-based-NLP متن فارسی را از حالت یک نوشته ساده به یک نقشه ارتباطی تبدیل میکند. این نقشه به مدلهای هوش مصنوعی کمک میکند متن را بهتر تحلیل کنند، موضوع آن را تشخیص دهند، آن را دستهبندی کنند، خلاصه بسازند، محتوای مرتبط پیشنهاد دهند یا حتی در مسیر تولید متن فارسی از روابط پنهان میان واژهها و مفاهیم استفاده کنند.
اهمیت این موضوع برای زبان فارسی بیشتر است، چون فارسی ویژگیهای خاصی مانند نیمفاصله، افعال مرکب، تفاوت شکل نوشتاری برخی حروف، و رابطههای معنایی پیچیده دارد. Rakhshai-Graph-based-NLP با تمرکز بر همین ویژگیها طراحی شده تا پردازش زبان فارسی فقط وابسته به ابزارهای عمومی نباشد و یک مسیر بومی، قابل توسعه و شفاف برای هوش مصنوعی فارسی فراهم شود.
بنابراین، دانشبنیان شدن Rakhshai-Graph-based-NLP فقط به معنای دریافت یک تأییدیه اداری نیست؛ بلکه نشان میدهد یک محصول فناورانه ایرانی در حال ساخت زیرساختی برای فهم بهتر، تحلیل دقیقتر و توسعه پیشرفتهتر زبان فارسی در حوزه هوش مصنوعی است.
معماری بومی متناسب با ویژگیهای زبان فارسی
برخلاف بسیاری از مدلهای فارسی موجود که عمدتاً بر پایه معماریهای عمومی و ازپیشتعریفشده توسعه یافتهاند، پروژه متنباز Rakhshai Graph-based NLP با تمرکز بر ویژگیهای زبان فارسی طراحی شده است. در این معماری، متن فارسی تنها بهصورت دنبالهای از توکنها دیده نمیشود؛ بلکه روابط میان واژهها، جملهها، اسناد و مفاهیم نیز استخراج، ساختاردهی و در فرایند یادگیری استفاده میشود.
این معماری به ویژگیهایی مانند نیمفاصله، تفاوت نویسههای عربی و فارسی، ساختارهای واژگانی، افعال مرکب و روابط معنایی میان واژهها توجه دارد و از ابتدا برای پردازش زبان فارسی طراحی شده است.
مسیر اختصاصی Persian Graph-LM
یکی از مزیتهای کلیدی این پروژه، مسیر اختصاصی Persian Graph-LM است؛ مسیری که توکنسازی فارسی، استخراج روابط زبانی، رمزگذاری ساختاری، ترکیب گراف و متن، و مدل زبانی علّی را برای پیشبینی توکن بعدی و تولید متن فارسی در یک مسیر واحد کنار هم قرار میدهد. در این مسیر، مدل بهجای تکیه صرف بر توالی واژهها، میتواند از روابط ساختاری میان واژهها، اسناد و مفاهیم نیز استفاده کند.
ترکیب هوشمند متن، گراف و حافظه ساختاری
در این کتابخانه ، ترکیب متن و ساختار بهصورت ثابت و دستی انجام نمیشود؛ مدل میآموزد در سطح توکن، جمله و زیرساختار، چه مقدار از اطلاعات متنی و چه مقدار از روابط زبانی استفاده کند. همچنین قابلیت Graph Memory در زمان تولید متن به مدل کمک میکند بخشهای مرتبط با prompt را از حافظه ساختاری بازیابی کند تا تولید متن بر پایه زمینه ارتباطی مرتبط انجام شود.
طراحی برای شرایط کمداده در زبان فارسی
این پروژه برای شرایط کمداده نیز طراحی شده و با سازوکارهایی مانند افزایش داده، dropout روی ساختار، نمونهبرداری از زیرساختارها، یادگیری contrastive، curriculum learning و early stopping تلاش میکند آموزش مدل در corpusهای کوچک کنترلپذیرتر و قابلاعتمادتر باشد. این موضوع برای زبان فارسی، که نسبت به زبانهایی مانند انگلیسی منابع و دادههای کمتری دارد، یک مزیت راهبردی محسوب میشود.
زیرساخت یادگیری عمیق مبتنی بر PyTorch
از نظر زیرساخت یادگیری عمیق، استفاده از PyTorch یکی از نقاط مهم این پروژه است. PyTorch امروز یکی از چارچوبهای اصلی و معتبر در پژوهش و توسعه مدلهای هوش مصنوعی محسوب میشود، زیرا امکان طراحی انعطافپذیر مدل، آموزش شبکههای عصبی، استفاده از GPU، توسعه سریع معماریهای آزمایشی و اتصال به کتابخانههای تخصصی مانند PyTorch Geometric را فراهم میکند.
اهمیت این انتخاب زمانی روشنتر میشود که بدانیم شرکت OpenAI نیز در یادداشت رسمی در سال ۲۰۲۰ خود اعلام کرده است که چارچوب یادگیری عمیق خود را بر پایه PyTorch استاندارد کرده است:
https://openai.com/index/openai-pytorch
همراستایی با استانداردهای جهانی توسعه هوش مصنوعی
بنابراین، استفاده از PyTorch و PyTorch Geometric فقط یک انتخاب فنی ساده نیست؛ بلکه نشان میدهد این پروژه بر بستری توسعه یافته که در سطح جهانی برای تحقیق، آموزش و پیادهسازی مدلهای پیشرفته یادگیری عمیق پذیرفته شده است. این موضوع میتواند قابلیت توسعهپذیری، امکان استفاده از GPU، سازگاری با ابزارهای علمی روز و ظرفیت رشد پروژه را برای کاربردهای جدیتر در پردازش زبان فارسی تقویت کند.
کاربردهای این پروژه متن باز در پردازش زبان فارسی
پروژه متنباز Rakhshai Graph-based NLP با ترکیب گرافهای زبانی، شبکههای عصبی گرافی، ترکیب هوشمند گراف و متن، حافظه ساختاری و مدل زبانی علّی، بستری بومی برای تحلیل، یادگیری و تولید متن فارسی فراهم میکند. این محصول میتواند در کاربردهایی مانند تحلیل محتوای فارسی، دستهبندی متن، پیشنهاد محتوا، خلاصهسازی، کشف ارتباطات متنی، تحلیل شبکهای اسناد، تشخیص محتوای نامناسب و تولید زبان فارسی بهکار گرفته شود.
امکانات اجرایی برای توسعهدهندگان
از نظر اجرایی نیز این پروژه فقط یک نمونه پژوهشی نیست و امکاناتی مانند رابط خط فرمان، آموزش و ارزیابی، ذخیره و بارگذاری pipeline، baseline برای مقایسه منصفانه، پشتیبانی از GPU، checkpoint، cache و تولید متن قابل کنترل را در اختیار توسعهدهندگان قرار میدهد.
مزیت راهبردی محصول
مزیت راهبردی این محصول در این است که تنها یک مدل فارسیسازیشده یا فاینتیونشده نیست؛ بلکه یک مسیر معماری مستقل برای زبان فارسی ارائه میدهد و از سطح آمادهسازی داده تا مدلسازی، آموزش، ارزیابی، حافظه ساختاری و تولید متن را در یک زیرساخت واحد پوشش میدهد.
دریافت تأییدیه دانشبنیان برای محصول کتابخانه ارائه خدمات NLP مبتنی بر گراف (Rakhshai-Graph-based-NLP)، گامی مهم در مسیر توسعه زیرساختهای بومی هوش مصنوعی فارسی، تقویت فناوریهای متنباز و ایجاد ظرفیتهای فناورانه مستقل در حوزه پردازش زبان طبیعی فارسی به شمار میرود.
ادامه توسعه با رویکرد متنباز و کاربردی
شرکت آریا هامان مهر پارسه اعلام می کند که توسعه این محصول با تمرکز بر پژوهشپذیری، شفافیت فنی، توسعه متنباز و کاربردپذیری در پروژههای واقعی ادامه خواهد یافت.
دسترسی به کتابخانه ارائه خدمات NLP مبتنی بر گراف (Rakhshai-Graph-based-NLP) :
https://github.com/bazpardazesh-org/Rakhshai-Graph-based-NLP
