نماذج اللغة الكبيرة تعمل بشكل جيد مع النص الخام. تعرف الشركات التي ترغب في إنشاء سير عمل منظمة العفو الدولية الخاصة بها أنه من المهم للغاية تخزين وفهرسة البيانات بتنسيق نظيف بحيث يمكن إعادة استخدام هذه البيانات لمعالجة الذكاء الاصطناعي.
لهذا السبب تقوم Mistral بإطلاق واجهة برمجة تطبيقات جديدة اليوم للمطورين الذين يتعاملون مع مستندات PDF المعقدة. MISTRAL OCR هي واجهة برمجة تطبيقات التعرف على الأحرف البصرية يمكنها تحويل أي PDF إلى ملف نصي.
على عكس معظم واجهات برمجة تطبيقات OCR ، فإن OCR MISTRAL هو واجهة برمجة تطبيقات متعددة الوسائط ، مما يعني أنه يمكن أن يكتشف عندما تكون هناك رسوم توضيحية وصور متشابكة مع كتل من النص. تقوم API على مرأى OCR بإنشاء صناديق محيطة حول هذه العناصر الرسومية وتتضمنها في الإخراج.
وبالمثل ، فإن OCR الخاطئ لا يخرج فقط جدارًا كبيرًا من النص. يتم تنسيق الإخراج في Markdown ، وهو بناء جملة تنسيق يستخدمه المطورون لإضافة الروابط والرؤوس وعناصر التنسيق الأخرى إلى ملف نصي عادي.
تعتمد نماذج اللغة الكبيرة اعتمادًا كبيرًا على التخفيض لمجموعة بيانات التدريب الخاصة بهم. عندما تستخدم مساعد AI ، مثل Mistral’s Le Chat أو Openai’s ChatGpt ، فإنها غالبًا ما تنشئ تخفيضًا لإنشاء قوائم رصاصة أو إضافة روابط أو وضع بعض العناصر بالخط العريض. تطبيقات مساعد تنسيق بسلاسة الإخراج الترددي في إخراج نص غني.
“على مر السنين ، تراكمت المنظمات العديد من المستندات ، غالبًا في تنسيقات PDF أو الشرائح ، والتي لا يمكن الوصول إليها إلى LLMs ، وخاصة أنظمة RAG. مع Mistral OCR ، يمكن لعملائنا الآن تحويل المستندات الغنية والمعقدة إلى محتوى قابل للقراءة بجميع اللغات “.
وأضاف: “هذه خطوة حاسمة نحو التبني على نطاق واسع لمساعدي الذكاء الاصطناعى في الشركات التي تحتاج إلى تبسيط الوصول إلى وثائقهم الداخلية الواسعة”.
تتوفر Mistral OCR على منصة API الخاصة بـ Mistral أو من خلال شركاءها السحابيين (AWS ، Azure ، Google Cloud Vertex ، إلخ). وبالنسبة للشركات التي تعمل مع البيانات المصنفة أو الحساسة ، تقدم MISTRAL أيضًا نشرًا محليًا.
وفقًا لشركة الذكاء الاصطناعى ومقرها باريس ، فإن Mistral OCR يؤدي أفضل من واجهات برمجة التطبيقات من Google و Microsoft و Openai. اختبرت الشركة نموذج OCR الخاص بها مع مستندات معقدة تتضمن تعبيرات رياضية (تنسيق اللاتكس) أو التخطيطات أو الجداول المتقدمة. من المفترض أيضًا أن يكون أداء أفضل مع المستندات غير الإنجليزية.
بالنظر إلى أن Mistral OCR يفعل شيئًا واحدًا وشيءًا واحدًا فقط ، تعتقد الشركة أنه أسرع أيضًا مما هو موجود. هذه ليست مفاجأة إذا قارنتها بنموذج لغة كبير متعدد الوسائط مثل GPT-4O ، والذي يحتوي أيضًا على قدرات OCR.
تستخدم Mistral أيضًا Mistral OCR لمساعد AI الخاص به LE Chat. عندما يقوم المستخدم بتحميل ملف PDF ، تستخدم الشركة OCR MISTRAL في الخلفية لفهم ما هو موجود في المستند قبل معالجة النص.
سيستخدم المطورون أيضًا OCR MISTRAL مع نظام خرقة لاستخدام مستندات متعددة الوسائط كمدخلات في LLM. وهناك العديد من حالات الاستخدام المحتملة. على سبيل المثال ، يمكن أن أرى شركات المحاماة التي تستخدمها لمساعدتها على التحول من خلال كميات كبيرة من المستندات.