Abstract:
ABSTRACT : Over the last decade, advances achieved in genomic technologies have led to uncover vast amount of protein-protein interaction data. Nevertheless, the existing protein-protein interaction databases cover the interactions related only to a part of the proteome and protein isoform interaction databases are sparsely populated. Such isoforms are generated through transcript diversity mechanisms (e.g. alternative splicing) and could exhibit functional differences. Protein-protein interaction data on isoforms is necessary for analysing their functional similarities and understanding the effects of transcript diversity on protein-protein interaction networks. Biomedical literature is an invaluable complementary resource to experimental data. Automated tools are required to gather, view and analyse the isoform interactions from the biomedical literature. This study presents a comprehensive automated text mining based analysis, which extracts protein interactions from the biomedical literature for human protein isoforms linked to the transcripts clustered in HumanSDB3 (an alternative splicing database of the human transcriptome). Extracted protein-protein interaction data is delivered to public through a new database called TBIID which stands for Transcript Based Isoform Interactions Database. TBIID contains a total number of 31,819 interactions between 7,161 unique proteins. The interaction data is automatically gathered from a subset of 205,207 interaction abstracts, which are selected from about 4 million Medline abstracts belonging to the isoforms in HumanSDB3. The automatic extraction methods achieve state-of-the-art performance (53.22% precision, 68.94% recall, 60.07% F1-score). TBIID is utilised to quantify the variability in the isoform interactions based on their shared and unique interactions. Results reveal that almost all clusters analysed (99%) contain isoforms interacting with unique protein partners, with an average unique to shared interaction rate of ~5. Similar results are obtained by analysing the data from public protein-protein interaction databases. These findings are significant in that they demonstrate that isoforms tend to interact with unique partners, indicating that they could be involved in different interaction networks potentially for performing different functions. Hence, it can be concluded that transcript diversity has a potential to generate a significantly diverse interactome.
The literature analysis presented here gives access to protein interactions that are not yet contained in public resources and in particular, that are linked to transcript isoforms generated by alternative splicing and stored in HumanSDB3. TBIID is accessible at http://tbiid.emu.edu.tr serving as an up to date and comprehensive resource for future experiments on isoform interactions.
Keywords: alternative splicing, protein isoforms, biomedical text mining, abstract retrieval, interaction abstract selection, protein-protein interaction extraction, machine learning, interaction variability analysis.
……………………………………………………………………………………………………………………………………………………………………………………………………………………
ÖZ: Son on yılda, genomik teknolojilerde elde edilen gelişmeler, büyük miktarda protein-protein etkileşimi verisinin ortaya çıkarmasına yol açmıştır. Yine de, mevcut protein-protein etkileşimi veritabanları proteomun sadece bir kısmı ile ilgili etkileşim bilgisini kapsamakta ve protein izoformu etkileşimleri bilgisini de seyrek olarak içermektedirler. Bu izoformlar, transkript çeşitliliği mekanizmaları (örneğin alternatif sıplays) tarafından üretilirler ve işlevsel farklılıklar gösterebilirler. İzoformların protein-protein etkileşim verileri, fonksiyonel benzerliklerini analiz etmek ve transkript çeşitliliğinin, protein-protein etkileşim ağlarına etkilerini anlamak için gereklidir. Biyomedikal literatür, izoform etkileşim bilgisini, bilgisayara dayalı yöntemler ile toplamak, görüntülemek ve analiz etmek için deneysel yöntemlere paha biçilmez bir tamamlayıcı kaynak oluşturur. Bu çalışmada, HumanSDB3‟de (insan transkriptomu alternatif sıplays veritabanı) kümelenmiş transkriptler ile bağlantılı insan proteini izoformlarına ait protein etkileşimlerini biyomedikal literatürden çıkaran, kapsamlı bir otomatik metin madenciliği tabanlı analiz sunulmaktadır. Çıkarılan protein-protein etkileşimi verileri, transkript tabanlı izoform etkileşimleri veritabanı (ingilizce kısaltması TBIID) adı verilen yeni bir veritabanı üzerinden erişime ve kullanıma sunulmuştur.
TBIID 7,161 değişik proteine ait, toplam 31,819 etkileşim bilgisi içerir. Etkileşim verileri, otomatik olarak, HumanSDB3‟deki izoformlara ait yaklaşık 4 milyon Medline kayıtından seçilen 205,207 etkileşim özetinden toplanmıştır. Kullanılan, otomatik ekstraksiyon yöntemleri, bu alanda ulaşılan en son gelişmeleri yansıtan yüksek bir performans sergilemektedir (53.22% Duyarlık, 68.94% Geri Çağırım, 60.07% F1-skor). TBIID, izoformların ortak ve özgün etkileşim ortaklarına dayalı olarak, izoform etkileşimleri değişkenliğini ölçmek için kullanılmıştır. Sonuçlar, hemen hemen tüm transkript kümelerinin (%99), özgün etkileşimin ortak etkileşime oranı ~5 olan izoformlar içerdiğini ortaya koymaktadır. Kamuya açık protein-protein etkileşimi veritabanlarının içeriği analiz edilerek benzer sonuçlar elde edilmiştir. Bu bulgular, izoformların, potansiyel farklı işlevleri yerine getirmek için, farklı etkileşim ağlarında görev alıp, farklı ortaklar ile etkileşim eğiliminde olabileceklerini gösterdiğinden önem taşımaktadır. Bu nedenle transcript çeşitliliğinin, önemli ölçüde çeşitlilik gösteren bir interaktom oluşturmak için potansiyele sahip olduğu söylenebilir. Burada sunulan literatür analizi, var olan protein-protein etkileşimi veritabanlarında henüz bulunmayan ve özellikle HumanSDB3‟de bulunan ve alternatif sıplays mekanizması ile ortaya çıkmış insan transkript izoformlarına ait proteinlerin etkileşimlerine erişim sağlamaktadır. TBIID, http://tbiid.emu.edu.tr adresinden erişilebilen, gelecekte yapılabilecek deneyler için güncel ve kapsamlı bir kaynak olarak hizmet vermektedir.
Anahtar Kelimeler: Alternatif Sıplays, protein izoformları, biyomedikal metin madenciliği, öz erişimi, etkileşim bilgisi içeren özlerin seçimi, proteinler arasındaki etkileşimlerin çıkarımı , otomatik öğrenme, etkileşim değişkenligi analizi.