İkili (Binary) Dosyalardan Veri Ayıklama Aracı Nedir ve Ne İşe Yarar?
Binary Text Extractor Pro, bilgisayarınızda bulunan ve standart metin editörleri (Not Defteri, Word vb.) ile açılamayan, açıldığında anlamsız semboller (örn: PK) gösteren devasa ikili (binary) dosyaların içindeki "insan tarafından okunabilir" gerçek verileri, e-posta adreslerini, bağlantıları (URL) veya size özel belirlediğiniz kalıpları (Regex) bulup çıkartan son teknoloji bir tarayıcı aracıdır.
En büyük avantajı; %100 tarayıcı içinde (Client-side) çalışmasıdır. Yani ister 10 Megabaytlık bir log dosyası olsun, ister 50 Gigabaytlık devasa bir SQL veritabanı yedeği olsun, dosyanız hiçbir zaman internete yüklenmez. Tüm veri madenciliği bilgisayarınızın kendi işlemcisi (CPU) kullanılarak RAM'i şişirmeden gerçekleştirilir.
Hangi Dosya Türlerinde Kullanılabilir?
Sistem, dosyanın uzantısıyla ilgilenmez. Dosyayı ham bayt (byte) akışı olarak okuduğu için sınır yoktur. En yaygın kullanım alanları şunlardır:
- Sistem Dosyaları ve Çalıştırılabilir Formatlar:
.exe,.dll,.sys,.bin - Arşiv ve Disk İmajları:
.iso,.img,.tar,.zip(Şifresiz arşivlerin içindeki ham metinler) - Veritabanı Dosyaları:
.sql,.db,.sqlite,.mdf - Bozuk veya Kurtarılmaya Çalışılan Belgeler: Açılmayan
.pdf,.docx,.xlsxdosyalarının içindeki kurtarılabilir saf metin parçaları. - Devasa Log (Kayıt) Dosyaları: Not Defterinin açarken donduğu 5GB'lık
.log,.txtveya.csvdosyaları.
Gerçek Hayattan Kullanım Senaryoları
🛠️ Senaryo 1: Çöken Veritabanından Müşteri E-postalarını Kurtarma
Durum: Şirketin sunucusu çöktü ve elinizde sadece bozulmuş, hiçbir veritabanı yazılımının açmadığı devasa bir backup.db dosyası var. Müşterilerin e-posta adreslerini acilen bulmanız gerekiyor.
Çözüm: Dosyayı bu araca sürükleyin. Çıkarım Modu olarak "E-posta Adreslerini Ayıkla" seçeneğini belirleyin ve Başlat'a tıklayın. Araç o bozuk dosyanın içindeki tüm baytları tarar, sadece isim@sirket.com formatındaki verileri bulur ve size tertemiz bir TXT dosyası olarak verir.
🛡️ Senaryo 2: Siber Güvenlik (Malware Analizi)
Durum: Bir siber güvenlik analistisiniz. Ağınızda şüpheli bir .exe dosyası yakaladınız. Bu dosyanın hangi IP adreslerine veya URL'lere bağlandığını statik olarak analiz etmek istiyorsunuz.
Çözüm: Araca şüpheli dosyayı yükleyin. Çıkarım Modu kısmından "URL Bağlantılarını (Linkler) Ayıkla" seçeneğini seçin. Program, derlenmiş makine kodunun içine gizlenmiş veya hardcode edilmiş tüm web adreslerini saniyeler içinde karşınıza çıkarır. Güvenlidir çünkü EXE dosyası tarayıcıda "çalıştırılmaz", sadece metin olarak okunur.
📄 Senaryo 3: Parçalanmış Word / PDF Belgesi Kurtarma
Durum: Haftalardır üzerinde çalıştığınız tez dosyanız (tez.docx) bozuldu. "Dosya okunamıyor" hatası veriyor. Word programı dosyayı açmayı reddediyor.
Çözüm: Aracı açın. "Tüm Okunabilir Metni Çıkar" modunu seçerek bozuk belgeyi yükleyin. Araç, dosyanın formatiğini (kalın yazı, renkler, resimler) yok sayar, XML kodları arasındaki yazdığınız saf metinleri cımbızla çekerek kurtarır.
Gelişmiş Özellik: Regex (Düzenli İfadeler) Kullanımı
Eğer aradığınız veri sadece e-posta veya URL değilse, tamamen kendi senaryonuza uygun veri madenciliği yapabilirsiniz. Bunun için "Özel Regex Deseni" modunu kullanın. Yeni başlayanlardan uzmanlara kadar kullanılabilecek bazı hazır kod (Regex) şablonları:
- IP Adreslerini Bulmak İçin:
\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b - Kredi Kartı Numaralarını Bulmak İçin (16 hane):
\b(?:\d[ -]*?){13,16}\b - Tarihleri Bulmak İçin (GG/AA/YYYY):
\b\d{2}[\/\-]\d{2}[\/\-]\d{4}\b - Sadece 4 Haneli Şifreleri / Pin Kodlarını Bulmak İçin:
\b\d{4}\b - Bitcoin Cüzdan Adreslerini Tespit Etmek İçin:
\b[13][a-km-zA-HJ-NP-Z1-9]{25,34}\b
Sistemin Arkasındaki Teknoloji: Nasıl RAM Çökmüyor?
Standart web sitelerinde büyük bir dosya seçtiğinizde, tarayıcı bu dosyanın tamamını sisteminizin ana belleğine (RAM) yüklemeye çalışır. Örneğin 10 GB bir dosya seçerseniz tarayıcınız anında donar ve "Out of Memory" hatası vererek çöker.
Bu profesyonel araç, modern web API'leri olan Streams API ve File System Access API kullanır. Dosya bir bütün olarak değil, küçük damlalar (chunk'lar) halinde işlenir. Tarayıcı 64 KB'lık bir bloğu okur, içindeki e-postayı bulur, diskinizdeki yeni txt dosyasına yazar ve o 64 KB'ı RAM'den hemen siler. Bu sonsuz döngü sayesinde bilgisayarınızın donanımı hiç yorulmaz.