Avatar

🇹🇷 🇬🇧

Doğukan Sahil

Antalya / Konya

Genetics and Bioengineering BEng. Biomedical Engineering M.Sc. Student.
#multidisciplinary



UGENE TÜRKÇE REHBER

Notlar > Biyoenformatik · 328

  1. Neden UGENE?

  2. Giriş

  3. Açık Okuma Pencereleri

Neden UGENE?

DNA ve protein dizileri, çoklu dizi hizalaması, 3B yapılar ve filogenetik ağaçlar için görüntüleyici ve editörler içeren giriş seviyesi bir tool olarak düşünülebilir.

  • Dizi içerisinde arama yapılabilir.
  • ClustalW, ClustalO, Muscle, K-Align, Mafft, T-Coffee gibi algoritmalarla multiple sequence alignment yapılabilir.
  • Açık okuma pencereleri gözlemlenebilir.
  • Filogenetik ağaç oluşturulabilir.
  • Protein yapısı incelenebilir.
  • FASTA (.fa) GenBank (.gb) Clustal (.aln) PDB (.pdb) gibi formatları destekler.

UGENE (Unipro UGENE) genellikle moleküler biyoloji ve biyoinformatik çalışmaları için kullanılan bir yazılımdır. Bu yazılımın diğer biyoinformatik araçlarından öne çıkaran özelliklerinden biri, kullanıcı dostu grafiksel kullanıcı arayüzüdür. Bu, biyoinformatik algoritmalara ve analizlerine kolay erişim sağlar, böylece programlama bilgisi olmayan araştırmacılar bile karmaşık analizler yapabilirler. Ayrıca, UGENE çoklu platform desteği sağlar ve birçok farklı biyoinformatik aracı ve algoritmayı bir arada sunar. Bu, araştırmacıların tek bir yazılım çözümü içerisinde birçok farklı işlemi gerçekleştirebilmesini sağlar, bu da iş akışını hızlandırır ve verimliliği artırır.

İndirme Linki | İndirme linkini tıkladığınızda yazılımın hem Windows hem de macOS işletim sistemleri için uyumlu olduğunu göreceksiniz ayrıca yazılımı indirdiğiniz ilk dikkatinizi çekecek özelliği Türkçe dil desteği olabilir.

UGENE, kapsamlı bir biyoinformatik yazılım aracı olarak birçok özelliği bir araya getirir. Temelde, DNA ve protein dizilerini oluşturma, düzenleme ve annotasyon eklemeyi sağlar. Bu, biyolojik veri manipülasyonu için temel bir işlevdir. Hızlı dizi arama kapasitesi ile birlikte, veri setlerinin kolayca incelenmesine olanak tanır. Çoklu dizi hizalamada, Clustal W ve O, MUSCLE, Kalign, MAFFT ve T-Coffee gibi popüler algoritmaları destekler. Bunun yanı sıra, çevrimiçi veri tabanlarını, örneğin NCBI, PDB, ve UniProtKB gibi kaynaklardan hızlı bir şekilde arama yapmayı sağlar. Lokal ve NCBI Genbank BLAST araması da mevcuttur, bu sayede dizi karşılaştırmaları çok daha erişilebilir hale gelir.

Araç, açık okuma çerçevesi (ORF) ve restriksiyon enzimleri gibi önemli biyolojik özellikleri hızlıca tanımlamanıza olanak sağlar. Aynı zamanda, Primer3 entegrasyonu ile PCR primer tasarımı yapabilir ve plazmid inşası ve annotasyonu gerçekleştirebilirsiniz. Klonlama işlemleri için de in silico (bilgisayar destekli) tasarım araçları sunar. UGENE, NGS (Next-Generation Sequencing) verilerini de işleyebilir ve görüntüleyebilir. Örneğin, Bowtie ve BWA gibi kısa okuma eşleme algoritmalarını kullanarak genom hizalamaları yapabilir, ve SAMtools ile varyant çağrısı yapabilirsiniz. RNA-Seq ve ChIP-Seq veri analizleri için Tuxedo ve Cistrome boru hatlarını destekler.

Ötesinde, yazılım çeşitli istatistiksel ve algoritmik araçlar sunar; örneğin HMMER 2 ve 3 paketleri, Smith-Waterman algoritması için lokal dizi hizalaması, ve phylogenetic ağaç oluşturma ve düzenleme yetenekleri. Ayrıca, kullanıcılar kendi özel iş akışlarını UGENE İş Akışı Tasarımcısı ile oluşturabilirler. Son olarak, bu yazılım protein 3D yapıları için bir görüntüleyici sunar, protein ikincil yapı tahminleri yapabilir, ve bir dizi farklı algoritmanın sonuçlarını bir arada değerlendirebilir. Kısacası, UGENE, biyoinformatikte ihtiyaç duyulan birçok farklı görevi yerine getirebilen çok yönlü ve kapsamlı bir araçtır.

Giriş seviyesi için bu makale oldukça bilgilendirici olabilir; Okonechnikov, K. Unipro UGENE: a unified bioinformatics toolkit Oxford Academic.

Giriş

Elde edilen numunelerin analizi karmaşık bir süreç içerir. İlk adım, hücrelerden veya dokulardan numune elde etmektir. Daha sonra, bu numunelerdeki DNA'nın ayrıştırılması işlemi gerçekleştirilir. Bu ayrıştırılmış DNA örneği, sanger metodu kullanılarak incelenir. Sanger metodu, DNA'nın spesifik bazlarını belirlemek için florasan boyama yöntemini kullanır. Her baz, farklı bir dalga boyunda floresanla işaretlenir. Bu işaretlenmiş bazlar, bir dedektör tarafından yakalanarak bir kromatogram grafiği oluşturur. Bu grafik, DNA dizisinin her bir noktasındaki bazların sıralamasını gösterir.

Daha sonra, elde edilen DNA dizileri özel veritabanlarına yüklenir. Bu veritabanları genellikle NCBI veya GenBank gibi büyük kaynaklar olabilir. Veriler, bu veritabanlarına uygun bir formatta düzenlenir ve yüklenir. Bu aşama genellikle uzun bir süreçtir ve yaklaşık olarak 30 gün sürebilir. Sonuç olarak, bu analiz süreci sayesinde DNA dizileri belirlenir ve genetik bilimsel araştırmalarda veya tıbbi teşhislerde kullanılabilir.

UGENE, biyoinformatikte sıkça kullanılan birçok dosya formatını destekler. Örneğin, FASTA, GenBank ve EMBL gibi nükleotid ve protein dizileri için standart dosya formatlarını; SAM/BAM, VCF gibi next-generation sequencing (NGS) veri formatlarını; ve PDB gibi 3D yapı dosyalarını açabilir ve işleyebilir.

Üst Panel: Açık okuma pencereleri (ORF), Ekran Resmi, Dairesel DNA, Baz İçerikleriyle ilgili istatistikler (Örneğin GC seviyelerinin yüksek olduğu yerlerde 3lü hidrojen bağı olduğu stabilitenin yüksek olduğunu, dolayısıyla da DNA esnekliğinin ters oranda azaldığı söylenebilir.)

Sağ Panel: Dizi içerisinde karakter araması yapılabilir, seçilen genomik dizi ile ilgili uzunluk, içeriği, moleküler ağırlığı, erime sıcaklığı gibi değerlere ulaşabiliriz. (ssDNA = Tek Sarmal, dsDNA = Çift Sarmallı DNA )

Açık Okuma Pencereleri

Orf, "Açık Okuma Çerçevesi" veya İngilizce adıyla "Open Reading Frame (ORF)" olarak bilinir. Genetik bir terim olan orf, bir DNA dizisinde veya RNA molekülünde protein üretimi için potansiyel bir kodlayıcı bölgeyi temsil eder. Genler, organizmanın yaşamında önemli olan proteinlerin üretildiği bölgelerdir ve bu proteinler vücudun farklı işlevlerini yerine getirmek için kullanılır. Orf, genetik bilimciler ve biyoinformatikçiler tarafından DNA veya RNA dizilerini analiz etmek için kullanılan bir terimdir. Bir orf, başlangıç kodonu (genellikle AUG olarak bilinir), son kodon ve bu iki kodon arasındaki nükleotidlerden oluşur. Eğer bir DNA veya RNA dizisinde belirli bir orf, protein üretmek için gerekli kodon dizilimlerini içeriyorsa, bu potansiyel bir geni temsil edebilir.

Yine aynı şekilde kromozom görüntülemesi yapmak mümkün, tüm bu örneklere ugene programını indirdikten sonra Sample klasöründen ulaşabilirsiniz.

Multiple sequence alignment için dosyaları birlikte yüklemeye çalıştığınızda "Dizileri hizalamayla birleştirin" seçeneğini seçerek ardından iki diziyi soldaki panelden seçip sağ tık yaptıktan sonra hizalama yapabilirsiniz.

Eğer ayrı sıra modunu seçerseniz yukarıdaki menüden "dotplot" yani nokta grafiği aktif olacaktır. X ve Y eksenlerine burada bu iki diziyi seçmek oldukça önemlidir.

Desteklenen dosya formatları:

  • Dizi Dosyaları: FASTA, GenBank, EMBL
  • Hizalama Dosyaları: Clustal, MSA, MEGA
  • NGS Dosyaları: FASTQ, SAM/BAM, VCF
  • 3D Yapı Dosyaları: PDB, MMDB

UGENE, internet üzerinden veri indirme kapasitesine de sahiptir. Örneğin, NCBI veritabanından doğrudan GenBank formatında dizileri veya protein yapılarını indirebilirsiniz. Bunun için tek yapmanız gereken dosya menüsünden Uzak veritabanına eriş veya NCBI genbank'ta ara seçeneklerinden birini seçmek.

Örneğin burada NC_045512 kaynak kimliği olarak bir veri alalım (NC_045512 kodu, SARS-CoV-2'nin RNA genomunu temsil ediyor.).

Kategori Açıklama
NC Tam genomik moleküller
NG Tamamlanmamış genomik bölge
NM mRNA
NR ncRNA
NP Protein
XM Tahmini mRNA modeli
XR Tahmini ncRNA modeli
XP Tahmini Protein modeli (ökaryotik diziler)
WP tahmini Protein modeli (prokaryotik diziler)
  • Genomik İstatistikler:
    • 3' ve 5' Uçlar: Genomun 3' ve 5' uçları hakkında bilgi, işlevselliği veya düzenleyici özellikler için önemli olabilir.
    • Dizi Uzunluğu: Genomun toplam uzunluğu temel bir parametre olabilir.
    • Baz Sayıları ve Yüzdesi: Adenin (A), Sitozin (C), Guanin (G), ve Timin (T) gibi nükleotidlerin toplam sayısı ve yüzdesi, GC içeriği gibi özelliklerin analizini sağlar.
  • Kodon Analizi:
    • Kodon Kullanımı: Farklı kodonların ne sıklıkla kullanıldığına dair bir analiz yapabilirsiniz.
    • Başlangıç ve Bitiş Kodonları: Genlerin başlangıç ve bitiş kodonları işlevsel bilgiler içerir.
  • Genomik Özellikler:
    • Gen Annotasyonları: Dizide yer alan genler, protein kodlayıcı bölgeler, düzenleyici bölgeler vb. incelenebilir.
    • Açık Okuma Çerçeveleri (ORFs): Protein kodlayan bölgelerin yerleri belirlenebilir.
  • Dizi Analizi:
    • Blast Araması: Diziyi diğer benzer viral dizilerle karşılaştırabilirsiniz.
    • Mutasyon Analizi: Dizi içerisinde olası mutasyonları ve bu mutasyonların olası etkilerini analiz edebilirsiniz.
  • Yapısal Biyoloji:
    • Protein Yapıları: Protein kodlayan bölgeler belirlendikten sonra, bu proteinlerin olası 3D yapıları tahmin edilebilir.
    • Düzenleyici Motifler: Düzenleyici bölgeler ve bu bölgelerde yer alan potansiyel transkripsiyon faktörü bağlama siteleri araştırılabilir.
  • Evrimsel Analiz:
    • Filogenetik Analiz: SARS-CoV-2'nin diğer koronavirüsler veya SARS-CoV-2 varyantları ile olan evrimsel ilişkisini incelemek için filogenetik ağaçlar oluşturabilirsiniz.
    • Taksonomik Karşılaştırmalar: Virüsün diğer virüs türleri ile benzerliklerini ve farklılıklarını değerlendirebilirsiniz.