Kaynaklar

Yorumlar

  • Datasetinin her bir entrysindeki textleri daha küçük chunklara ayırdım. Chunkların her biri en az 320 kelimeden oluşacak şekilde paragraflarla split edildi.
  • Her bir entry için random olarak bir tane chunk’ı context olarak seçip yeni oluşturduğum “context” column’unda kaydettim.
  • Langchain kullanarak llama-3.1-70b-versatile modelini groq yardımıyla bu entrylerin ilk 4970 tanesi için question ürettirdim.
  • Elimdeki verileri Multilingual bir sentence transformers modeli olan AlibabaNLP ile test ettim.
  • 4970 entry ve tüm entrylerin ilk 50k sı vector database olarak kullanılarak alınan sonuç şu şekilde:
    • Relevant answer in first answer: 3358 / 4970
    • Relevant answers in top-5: 3995 / 4970
  • Yukarıdaki veriler doğrultusunda model yetersiz bulunursa daha çok sentetik question ürettirilerek finetune alınabilir.

todo:

  • Inference sonuçları metriklerine bak (wikirag-tr, outpus.json, sentetik veri)
    • map@1
    • map@5
    • ndcg@5 ndcg@k hesaplamak için yeterince gerçek değer yok. Şuanki datasetlerinde her birinin sadece 1 tane gerçek context eşleşmesi var. Yani @k içinde bir relevancy sırası yapamıyoruz
    • ndcg@10
  • finetune alıp performans iyileşmesi oluup olmadığına bak
  • iyileşme durumuna hem wikirag-tr hem output.json a bak

Alibaba-NLP/gte-multilingual-base inference sonuçları

  • Before rerank
datasets / metricsmap@1map@5map@10ndcg@5ndcg@10
output.json0.410.590.610.660.69
wikirag-tr0.660.820.820.870.87
sentetik_49700.680.730.730.750.76
  • After rerank
datasets / metricsmap@1map@5map@10ndcg@5ndcg@10
output.json
wikirag-tr
sentetik_49700.680.770.790.780.8