başka alanlarla kesişimlerini düşün
Drug → dokümanlar üzerine bir chat ama train etmeden
Çapraz disiplinler arasındaki teknikleri başka tarafa kaydırabilir miyiz?
Uğraştığınız problemler sizin için bir sınırlandırma olmamalı
tdd → test driven development
- pytest fixtures kullanıyoruz
- training için test yazabilrisin
- pytest e bak
- environment.yml ve conda hallet
- environementı kru
llama1 llama2 llama3 neyi değiştirmişler baştan sonra highşightları vererek git -top down bir approach güderek oku
- chatpdf, chatbot vs pdf leri atıp bakabilirisn
bi encoderda
- t1 i bir berte veriyorum. t2 yi başka berte cross encoderda
- t1 ve t2 yi aynı berte veriyorum
30.07.2024 metric learning aşina ol
ilk etap:
- toy küçük bir dataset belirle şimdilik. İlk çalışıp çalışmadığına bakalım yani. Sistemin çalıştığını görmek için şimdilik ingilzice eri seti bile bulabilrisin.
- küçük bir dataseti bul
- türkçe pretrain edilmiş model var mı bak. Performans metriklerine bak ve inference alıp gözlem yap. BertTurk vs var sanırım ama farklı modeller de eğitilmiş.
- https://huggingface.co/dbmdz/bert-base-turkish-cased
- vs. vs. bul araştır
- küçük modeller ulmaya çalılıyotuz hızlı olması için o yüzden llamaturk gibi bir şeyi almak mantıklı değil
- araştırmanın key pointlerini not et
- pretrain’i devam ettir (fine tune etme)
- türkçe modeli embeddinge contrastive learning ile
- bunu repoya bakarak yap
Inference için: asıl amaç rag bir tarafa paragraf. diğer tarafa o paragrafın cevaplayabileeceği bir soru. birkaç tane related birkaç tane unrelated paragraf ekle. diğer tarafa da cevaplayabilceği bir soru. Aradaki similarity score u almaya çalış
command line dan çalıştırılabilecek bir şeyler yapabilrisin.
Minik dataseti yap wikipedia gibi kullan. Inference al türkçe modelleri üzerinde
Bi-encoder kullanalım query leri yazdım ama çok istediğim gibi dönmedi. soru sorduğumuzda yakın şeyler çıkmıyor ama bi-encoder + cross-encoder yapabilriz
beraber in progress done board u aktiff kullan artık sub-task olarak açma
question ve contextleri
şöyle bir task açalım bu datayı nasıl utilize edebilriiz yeni data oluşturmadan önce bunu düşünelim task aç board üzerinden git new line lar ile context sayısını karşılaştır doğru olanları al.
ilk task → daha sutructured bir dataset yaratmak context key altında vs dictionary oluşturablirsin
squad formatına bakılabilir dattaste converter uymayanlar fazlaysa uymayanlara ne yapabilriz
jira boardunda belirle
deep learning specialization kursu Module modle gidelim learning altına subtask aç
base chunk önemli değil query ile retrieved chunka bakıp related olup olmadığına bak
bu json dosyası verileriyle modellerle bir inference al karşılaştırma yap
cuda aliaba nlp ne kadar hızlı çalışıyor bak alibaba nlp için histogram çıkart fine tune yap ali baba nlp tekrar inference al histogram vs de bak
llama sunumu için hazırlanlow
todo
- Cuda problemini çöz
- alibaba nlp ne kadar hızlı çalışıyor bak
- alibaba nlp histogram çıkart
- alibaba nlp finetune yap ve tekrar inference alıp histogramını da çıkart
- llama sunumu için hazırlan
- Coursera dls week5 module3