
Docling sahnede. Yapay zeka ve büyük dil modellerinin (LLM) en büyük gücü, kendi verilerimizi kullanabilme imkanı sunmalarıdır. Ancak, bir çok veri PDF, Word (docx) veya PowerPoint gibi formatlarda tutulduğu için bunları adam akıllı yapay zeka ile buluşturmak zor bir iş. Veri var, yapay zeka var ama o Yeşilçam buluşması bir türlü gerçekleşmiyor. Çünkü bu tür belgeler; tablo, başlık ve görseller gibi farklı yapılar içerdiğinden, LLM’ler tarafından doğrudan analiz edilmesi, sindirilmesi, kullanılması oldukça güçtür. Uğraşmak lazım. Ansible gibi bir çok açık kaynak kodlu projenin hamiliğini yapan RedHat (geri planda IBM) bu konuda DocLing ile karşımızda.
DocLing Nedir?
IBM Research tarafından geliştirilen açık kaynaklı bir proje olan DocLing, yapay zeka ile farklı formatlardaki veriyi buluşturmak için geliştirilmiş bir araçtır. DocLing, farklı belge formatlarını kolayca işleyebilir. Belgeleri sadeleştirerek yapay zeka modelleriyle kullanılabilir hale getirebilir ve pratiktir. Böylece belgeler, yapay zeka modelleri için çok daha erişilebilir ve anlaşılır hale gelir.
DocLing Neler Sunuyor?
📄 Farklı Belge Türlerini Anlayabilme
PDF, DOCX, XLSX, HTML ve hatta görseller gibi pek çok belge türünü tanır ve işler.
🧠 Gelişmiş PDF Anlayışı
Sayfa düzeni, okuma sırası, tablolar, kod blokları, formüller ve görsel sınıflandırmalar gibi detayları da algılayabilir.
🧬 Tek Tip Çıktı Yapısı
Tüm belgeleri, yapay zeka uygulamaları için uygun, güçlü ve tek tip bir format olan DoclingDocument
yapısına dönüştürür.
🔄 Farklı Çıktı Seçenekleri
Markdown, HTML ve veri kaybı olmadan JSON gibi formatlara dışa aktarım yapılabilir.
🔒 Gizliliğe Uygun Yerel Çalışma
Verilerinizin dışarı çıkmasını istemiyorsanız, tüm işlemleri kendi bilgisayarınızda gerçekleştirebilirsiniz.
⚙️ Popüler AI Araçlarıyla Uyumlu
LangChain, LlamaIndex, Crew AI ve Haystack gibi yapay zeka araçlarıyla doğrudan entegre çalışır.
🔍 OCR Desteği ile Taratılmış Belgeler
PDF veya görsel formatındaki belgelerden metin çıkarma konusunda geniş OCR desteği sunar (EasyOCR, Tesseract vb.).
🧠 Görsel Dil Modellerine Destek (Yeni!)
SmolDocling ile belgeler üzerinde görsel içeriklerden de anlam çıkarabilir.
💻 Basit ve Kullanışlı Komut Satırı Arayüzü
Tek bir komutla belge dönüştürmeye hemen başlayabilirsiniz.
Neden Önemli?
Birçok önemli bilgi PDF gibi kapalı formatlarda saklanır. Ancak yapay zeka modellerinin bu belgelerle etkili çalışabilmesi için içeriğin “düz metin” veya yapılandırılmış bir forma getirilmesi gerekir. DocLing bu dönüşümü otomatik ve etkili şekilde yaparak, LLM’lerle daha doğru ve verimli çalışma imkanı sağlar.
DocLing ve RAG Uygulamaları
DocLing yalnızca dönüştürme yapmakla kalmaz, aynı zamanda LlamaIndex gibi araçlarla birlikte kullanılarak kendi verinizle RAG (retrieval augmented generation) uygulamaları geliştirmenizi sağlar. Örneğin:
- Bir teknik PDF dosyasını Markdown formatına dönüştürürsünüz.
- Dönüştürülmüş veriler vektör veri tabanına yüklenir.
- Kullanıcıdan gelen bir soru, bu belgelerdeki içerikle eşleştirilerek anlamlı bir cevap oluşturulur.
Bu sürecin tamamı açık kaynak araçlarla ve kendi bilgisayarınızda çalıştırılabilir.
Performans Ne Durumda?
DocLing, diğer benzer açık kaynak araçlarla karşılaştırıldığında oldukça hızlıdır. Yapılan testlerde, M3 işlemcili MacBook’ta 1.2 saniyede bir sayfa işleyerek en iyi performansı sergilemiştir. Ayrıca tabloları, başlıkları, görselleri ve metni oldukça başarılı bir şekilde analiz edip doğru şekilde dönüştürmektedir.
Kurulum ve Kullanım
DocLing’i pip ile kolayca kurabilirsiniz:
pip install docling
Komut satırından veya doğrudan Python kütüphanesi olarak kullanabilirsiniz. Ayrıca OCR seçenekleri arasında EasyOCR veya Tesseract tercih edilebilir.
Sonuç
Eğer PDF belgelerinizi yapay zeka ile kullanmak istiyorsanız, DocLing başlangıç için mükemmel bir araç. İster soru-cevap sistemleri geliştirin, ister model eğitimi yapın, bu araç sayesinde verilerinizi LLM’lerle entegre etmek artık çok daha kolay.
Kaynaklar
- https://github.com/docling-project/docling
- How Docling turns documents into usable AI data by RedHat (YouTube)
- Kapak Görseli: ChatGPT