Spaces:

umitgunduz
/

news-extractor

Build error

App Files Files Community

Ümit Gündüz commited on May 29, 2023

Commit

d166ac8

•

1 Parent(s): d84735c

update for evaluate

Browse files

Files changed (46) hide show

data/dataset/test/milliyet.json +0 -0
data/dataset/test/milliyet.pickle +3 -0
data/dataset/test/ntv.json +0 -0
data/dataset/test/ntv.pickle +3 -0
data/dataset/test/trthaber.json +0 -0
data/dataset/test/trthaber.pickle +3 -0
data/dataset/{100 → train/100}/aa.json +0 -0
data/dataset/{100 → train/100}/aa.pickle +0 -0
data/dataset/{100 → train/100}/aksam.pickle +0 -0
data/dataset/{100 → train/100}/cnnturk.pickle +0 -0
data/dataset/{100 → train/100}/cumhuriyet.pickle +0 -0
data/dataset/{100 → train/100}/ensonhaber.pickle +0 -0
data/dataset/{100 → train/100}/haber7.pickle +0 -0
data/dataset/{100 → train/100}/haberglobal.pickle +0 -0
data/dataset/{100 → train/100}/haberler.pickle +0 -0
data/dataset/{100 → train/100}/haberturk.pickle +0 -0
data/dataset/{100 → train/100}/hurriyet.pickle +0 -0
data/dataset/{1000 → train/1000}/aa.pickle +0 -0
data/dataset/{1000 → train/1000}/aksam.pickle +0 -0
data/dataset/{1000 → train/1000}/cnnturk.pickle +0 -0
data/dataset/{1000 → train/1000}/cumhuriyet.pickle +0 -0
data/dataset/{1000 → train/1000}/ensonhaber.pickle +0 -0
data/dataset/{1000 → train/1000}/haber7.pickle +0 -0
data/dataset/{1000 → train/1000}/haberglobal.pickle +0 -0
data/dataset/{1000 → train/1000}/haberler.pickle +0 -0
data/dataset/{1000 → train/1000}/haberturk.pickle +0 -0
data/dataset/{1000 → train/1000}/hurriyet.pickle +0 -0
data/dataset/{10000 → train/10000}/aa.pickle +0 -0
data/dataset/{10000 → train/10000}/aksam.pickle +0 -0
data/dataset/{10000 → train/10000}/cnnturk.pickle +0 -0
data/dataset/{10000 → train/10000}/cumhuriyet.pickle +0 -0
data/dataset/{10000 → train/10000}/ensonhaber.pickle +0 -0
data/dataset/{10000 → train/10000}/haber7.pickle +0 -0
data/dataset/{10000 → train/10000}/haberglobal.pickle +0 -0
data/dataset/{10000 → train/10000}/haberler.pickle +0 -0
data/dataset/{10000 → train/10000}/haberturk.pickle +0 -0
data/dataset/{10000 → train/10000}/hurriyet.pickle +0 -0
model/confusion_matrix_test.jpg +0 -0
model/confusion_matrix_train.jpg +0 -0
model/model-10-1000_0_metrics.json +22 -0
model/model-10-1000_1_metrics.json +22 -0
model/model-10-1000_2_metrics.json +22 -0
model/model-10-1000_3_metrics.json +22 -0
model/model-10-1000_4_metrics.json +22 -0
model/model-10-1000_metrics.json +22 -0
src/train.py +42 -7

data/dataset/test/milliyet.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/dataset/test/milliyet.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585be7ab8cb6bfcaa9008463bae2314c1a44be5f87b7f0adbe6ed22a93e86f19
+size 3421809

data/dataset/test/ntv.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/dataset/test/ntv.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2dcf2df5b231846a78217d8dee458dba96711b4d0e10b0cb3704f90ecdebdad0
+size 2565944

data/dataset/test/trthaber.json ADDED Viewed

The diff for this file is too large to render. See raw diff

data/dataset/test/trthaber.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d58c157566b662d53ff919d9b64fbae033163f07328908b88540f2388b638fe3
+size 2848309

data/dataset/{100 → train/100}/aa.json RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/aa.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/aksam.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/cnnturk.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/cumhuriyet.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/ensonhaber.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/haber7.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/haberglobal.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/haberler.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/haberturk.pickle RENAMED Viewed

File without changes

data/dataset/{100 → train/100}/hurriyet.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/aa.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/aksam.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/cnnturk.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/cumhuriyet.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/ensonhaber.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/haber7.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/haberglobal.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/haberler.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/haberturk.pickle RENAMED Viewed

File without changes

data/dataset/{1000 → train/1000}/hurriyet.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/aa.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/aksam.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/cnnturk.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/cumhuriyet.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/ensonhaber.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/haber7.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/haberglobal.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/haberler.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/haberturk.pickle RENAMED Viewed

File without changes

data/dataset/{10000 → train/10000}/hurriyet.pickle RENAMED Viewed

File without changes

model/confusion_matrix_test.jpg ADDED Viewed

model/confusion_matrix_train.jpg ADDED Viewed

model/model-10-1000_0_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.9681234674743978,
+    "content_recall": 0.9866235484345142,
+    "content_f1": 0.9772859638905067,
+    "content_number": "6803",
+    "date_precision": 0.9992685183193133,
+    "date_recall": 0.9961823056300269,
+    "date_f1": 0.9977230253689343,
+    "date_number": "46625",
+    "description_precision": 0.9794250194250195,
+    "description_recall": 0.9844120954642009,
+    "description_f1": 0.9819122252169442,
+    "description_number": "32012",
+    "title_precision": 0.9863267466478476,
+    "title_recall": 0.9820241824516205,
+    "title_f1": 0.9841707621213233,
+    "title_number": "34157",
+    "overall_precision": 0.98844452620049,
+    "overall_recall": 0.98844452620049,
+    "overall_f1": 0.98844452620049,
+    "overall_accuracy": 0.98844452620049
+}

model/model-10-1000_1_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.999260464428339,
+    "content_recall": 0.9930912832573865,
+    "content_f1": 0.9961663226186965,
+    "content_number": "6803",
+    "date_precision": 0.9998069870681335,
+    "date_recall": 0.9998927613941019,
+    "date_f1": 0.9998498723915328,
+    "date_number": "46625",
+    "description_precision": 0.9948554859227388,
+    "description_recall": 0.9967512182931401,
+    "description_f1": 0.9958024498712646,
+    "description_number": "32012",
+    "title_precision": 0.9970703697193414,
+    "title_recall": 0.9963989811751618,
+    "title_f1": 0.9967345623874302,
+    "title_number": "34157",
+    "overall_precision": 0.9976671655643536,
+    "overall_recall": 0.9976671655643536,
+    "overall_f1": 0.9976671655643536,
+    "overall_accuracy": 0.9976671655643536
+}

model/model-10-1000_2_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.9986713906111603,
+    "content_recall": 0.9944142290166104,
+    "content_f1": 0.9965382632393017,
+    "content_number": "6803",
+    "date_precision": 0.9999570953555722,
+    "date_recall": 0.9997426273458445,
+    "date_f1": 0.9998498498498499,
+    "date_number": "46625",
+    "description_precision": 0.9959747878182726,
+    "description_recall": 0.9970948394352118,
+    "description_f1": 0.9965344989072745,
+    "description_number": "32012",
+    "title_precision": 0.9975995316159251,
+    "title_recall": 0.9976871505108762,
+    "title_f1": 0.9976433391395991,
+    "title_number": "34157",
+    "overall_precision": 0.9981437661479803,
+    "overall_recall": 0.9981437661479803,
+    "overall_f1": 0.9981437661479803,
+    "overall_accuracy": 0.9981437661479803
+}

model/model-10-1000_3_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.998820406959599,
+    "content_recall": 0.9957371747758342,
+    "content_f1": 0.9972764078027236,
+    "content_number": "6803",
+    "date_precision": 0.9998069994853319,
+    "date_recall": 0.9999571045576408,
+    "date_f1": 0.9998820463879386,
+    "date_number": "46625",
+    "description_precision": 0.9972210947013458,
+    "description_recall": 0.9976883668624266,
+    "description_f1": 0.9974546760567778,
+    "description_number": "32012",
+    "title_precision": 0.9983019088886287,
+    "title_recall": 0.9982726820271101,
+    "title_f1": 0.9982872952439505,
+    "title_number": "34157",
+    "overall_precision": 0.9986287281453549,
+    "overall_recall": 0.9986287281453549,
+    "overall_f1": 0.9986287281453549,
+    "overall_accuracy": 0.9986287281453549
+}

model/model-10-1000_4_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.9982324348210341,
+    "content_recall": 0.9961781566955755,
+    "content_f1": 0.9972042377869335,
+    "content_number": "6803",
+    "date_precision": 0.9997426659804426,
+    "date_recall": 0.9998927613941019,
+    "date_f1": 0.9998177080540871,
+    "date_number": "46625",
+    "description_precision": 0.9968141924602555,
+    "description_recall": 0.9969698862926403,
+    "description_f1": 0.9968920332974122,
+    "description_number": "32012",
+    "title_precision": 0.9977458356509266,
+    "title_recall": 0.997804256814123,
+    "title_f1": 0.997775045377364,
+    "title_number": "34157",
+    "overall_precision": 0.9983026330091892,
+    "overall_recall": 0.9983026330091892,
+    "overall_f1": 0.9983026330091892,
+    "overall_accuracy": 0.9983026330091892
+}

model/model-10-1000_metrics.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "content_precision": 0.9982324348210341,
+    "content_recall": 0.9961781566955755,
+    "content_f1": 0.9972042377869335,
+    "content_number": "6803",
+    "date_precision": 0.9997426659804426,
+    "date_recall": 0.9998927613941019,
+    "date_f1": 0.9998177080540871,
+    "date_number": "46625",
+    "description_precision": 0.9968141924602555,
+    "description_recall": 0.9969698862926403,
+    "description_f1": 0.9968920332974122,
+    "description_number": "32012",
+    "title_precision": 0.9977458356509266,
+    "title_recall": 0.997804256814123,
+    "title_f1": 0.997775045377364,
+    "title_number": "34157",
+    "overall_precision": 0.9983026330091892,
+    "overall_recall": 0.9983026330091892,
+    "overall_f1": 0.9983026330091892,
+    "overall_accuracy": 0.9983026330091892
+}

src/train.py CHANGED Viewed

@@ -145,6 +145,40 @@ class NewsTrainer:
         ]
         return true_predictions, true_labels
     @staticmethod
     def __compute_metrics(metric, return_entity_level_metrics=True):
         """
@@ -320,9 +354,10 @@ class NewsTrainer:
         train_data_path = "../data/dataset/test"
         model_path = "../model/model.pth"
         label_list = ["" + x for x in list(id2label.values())]
         dataset = self.__get_dataset(train_data_path)
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-        dataloader = DataLoader(dataset, batch_size=100)
         model = torch.load(model_path, map_location=torch.device(device))
         i = 0
         y_pred = []
@@ -369,12 +404,12 @@ class NewsTrainer:
 if __name__ == '__main__':
     trainer = NewsTrainer()
     # Eğitim
-    model_name = "model-10-1000"
-    _train_data_path = "./data/dataset/100"
-    _model_output_path = "./models"
-    trainer.run(model_name=model_name,
-                train_data_path=_train_data_path,
-                model_output_path=_model_output_path)
     # Değerlendirme
     trainer.evaluate()

         ]
         return true_predictions, true_labels
+    @staticmethod
+    def __get_labels_2(predictions, references, label_list, device):
+        """
+        Tahminleri ve referansları kullanarak etiketleri alır.
+        Args:
+            predictions (torch.Tensor): Tahminler tensörü.
+            references (torch.Tensor): Referanslar tensörü.
+            label_list (list): Etiket listesi.
+            device (torch.device): Cihaz türü.
+        Returns:
+            list, list: Gerçek tahminler ve gerçek etiketler listeleri.
+        """
+        # Tahminleri ve referansları numpy dizilerine dönüştürme
+        if device.type == "cpu":
+            y_pred = predictions.detach().clone().numpy()
+            y_true = references.detach().clone().numpy()
+        else:
+            y_pred = predictions.detach().cpu().clone().numpy()
+            y_true = references.detach().cpu().clone().numpy()
+        # İgnor index'ini (özel belirteçler) kaldırma
+        true_predictions = [
+            [label_list[p] for (p, l) in zip(pred, gold_label)]
+            for pred, gold_label in zip(y_pred, y_true)
+        ]
+        true_labels = [
+            [label_list[l] for (p, l) in zip(pred, gold_label)]
+            for pred, gold_label in zip(y_pred, y_true)
+        ]
+        return true_predictions, true_labels
     @staticmethod
     def __compute_metrics(metric, return_entity_level_metrics=True):
         """
         train_data_path = "../data/dataset/test"
         model_path = "../model/model.pth"
         label_list = ["" + x for x in list(id2label.values())]
+        label_list = label_list[:4]
         dataset = self.__get_dataset(train_data_path)
         device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+        dataloader = DataLoader(dataset, batch_size=10)
         model = torch.load(model_path, map_location=torch.device(device))
         i = 0
         y_pred = []
 if __name__ == '__main__':
     trainer = NewsTrainer()
     # Eğitim
+    # model_name = "model-10-1000"
+    # _train_data_path = "./data/dataset/100"
+    # _model_output_path = "./models"
+    # trainer.run(model_name=model_name,
+    #            train_data_path=_train_data_path,
+    #            model_output_path=_model_output_path)
     # Değerlendirme
     trainer.evaluate()