Meeting Notes

başka alanlarla kesişimlerini düşün

Drug → dokümanlar üzerine bir chat ama train etmeden

Çapraz disiplinler arasındaki teknikleri başka tarafa kaydırabilir miyiz?

Uğraştığınız problemler sizin için bir sınırlandırma olmamalı

tdd → test driven development

pytest fixtures kullanıyoruz
training için test yazabilrisin
pytest e bak
environment.yml ve conda hallet
environementı kru

llama1 llama2 llama3 neyi değiştirmişler baştan sonra highşightları vererek git -top down bir approach güderek oku

chatpdf, chatbot vs pdf leri atıp bakabilirisn

bi encoderda

t1 i bir berte veriyorum. t2 yi başka berte cross encoderda
t1 ve t2 yi aynı berte veriyorum

30.07.2024 metric learning aşina ol

ilk etap:

toy küçük bir dataset belirle şimdilik. İlk çalışıp çalışmadığına bakalım yani. Sistemin çalıştığını görmek için şimdilik ingilzice eri seti bile bulabilrisin.

küçük bir dataseti bul
türkçe pretrain edilmiş model var mı bak. Performans metriklerine bak ve inference alıp gözlem yap. BertTurk vs var sanırım ama farklı modeller de eğitilmiş.
1. https://huggingface.co/dbmdz/bert-base-turkish-cased
2. vs. vs. bul araştır
3. küçük modeller ulmaya çalılıyotuz hızlı olması için o yüzden llamaturk gibi bir şeyi almak mantıklı değil
4. araştırmanın key pointlerini not et
pretrain’i devam ettir (fine tune etme)
türkçe modeli embeddinge contrastive learning ile
1. bunu repoya bakarak yap

Inference için: asıl amaç rag bir tarafa paragraf. diğer tarafa o paragrafın cevaplayabileeceği bir soru. birkaç tane related birkaç tane unrelated paragraf ekle. diğer tarafa da cevaplayabilceği bir soru. Aradaki similarity score u almaya çalış

command line dan çalıştırılabilecek bir şeyler yapabilrisin.

Minik dataseti yap wikipedia gibi kullan. Inference al türkçe modelleri üzerinde

Bi-encoder kullanalım query leri yazdım ama çok istediğim gibi dönmedi. soru sorduğumuzda yakın şeyler çıkmıyor ama bi-encoder + cross-encoder yapabilriz

beraber in progress done board u aktiff kullan artık sub-task olarak açma

question ve contextleri

şöyle bir task açalım bu datayı nasıl utilize edebilriiz yeni data oluşturmadan önce bunu düşünelim task aç board üzerinden git new line lar ile context sayısını karşılaştır doğru olanları al.

ilk task → daha sutructured bir dataset yaratmak context key altında vs dictionary oluşturablirsin

squad formatına bakılabilir dattaste converter uymayanlar fazlaysa uymayanlara ne yapabilriz

~~jira boardunda belirle~~ ~~deep learning specialization kursu Module modle gidelim learning altına subtask aç~~

base chunk önemli değil query ile retrieved chunka bakıp related olup olmadığına bak

bu json dosyası verileriyle modellerle bir inference al karşılaştırma yap

cuda aliaba nlp ne kadar hızlı çalışıyor bak alibaba nlp için histogram çıkart fine tune yap ali baba nlp tekrar inference al histogram vs de bak

llama sunumu için hazırlanlow

todo

Cuda problemini çöz
alibaba nlp ne kadar hızlı çalışıyor bak
alibaba nlp histogram çıkart
alibaba nlp finetune yap ve tekrar inference alıp histogramını da çıkart
llama sunumu için hazırlan
Coursera dls week5 module3

🪴 Quartz 4.0

Explorer

Meeting Notes

Graph View

Backlinks