Apple, 1986’dan bu yana ABD’de yayınlanan “Machine Learning” adlı dergide, “Hey Siri”nin nasıl çalıştığını ayrıntılı olarak açıkladı. Yayınlanan içerikte, Siri kullanılırken arka planda neler olduğuna dair anlaşılması biraz güç ve pek çok ilginç bilgi yer alıyor.
Makaleye göre kullanıcılar iPhone ya da Apple Watch’un detektörü üzerinden Siri’ye seslendiğinde, Apple mikrofondan gelen sesi saniyede 16.000 anlık dalga akışına dönüştürüyor. Her biri yaklaşık 0.01 saniyelik bu dalga formu spektrumu, Derin Sinir Ağı (DNN – Deep Neural Network) üzerinde ses olasılıklarına ayrıştırılıyor. “Hey Siri” cümlesinin yanı sıra, sessizlik ve diğer sesler, konuşmalar, toplamda 20 farklı ses sınıfı içinde ayrıştırılıyor. Böylece Apple, Siri’yi çağırıp çağırmadığınızı tespit ediyor.
Tabii kalabalık ortamlar gibi zorlu koşullarda işin rengi biraz değişiyor. Bu tür durumlarda Apple, yanlış aktivasyon sayısını mümkün olduğunca artırmayacak şekilde bazı teknik esnekliklere başvuruyor. Konuyla ilgili açıklamaya göre normalde Siri’yi tetiklemeyen bir ses alt eşiği var. Eğer sesin derecelendirmesi bu alt eşiği aşıyorsa, üst eşiği de aşıyorsa, o zaman gerçek bir “Hey Siri” çağrısı ıskalanmış olabilir. Eğer ortam seslerindeki değerler bu aralık içerisindeyse sistem birkaç saniye boyunca hassas bir moda geçiyor. Bu modda kullanıcı cümleyi tekrarlarsa, bu Siri’yi tetikleyecektir. Bu ikinci şans mekanizması, yanlış alarm oranını artırmaksızın sistemin kullanışlılığını önemli ölçüde geliştiriyor ve yalnızca kısa süre için sistemi ekstra duyarlı yapıyor.
Bilindiği üzere Hey Siri, fiziksel bir işlem gerektirmeden, yalnızca tetikleyici kelimelerle aktif oluyor ve bu süreci dinlemek için Apple, iPhone ve Apple Watch’daki eş işlemciye güveniyor. Hey Siri’nin bu şekilde çalışması, cihazlara yarattığı bilgi işlem yükü yalnızca %5 olarak belirtilmiş.
Apple, tetikleyici ibare olarak “Hey Siri”yi kullanmasının sebebi, ilk detektör modelinde eğitim için bu sözcüklerin tercih edilmiş olması. Eğitim ifadelerinde otomatik transkripsiyon kullanılarak, “Hey Siri” ifadesinin dile özgü fonetik özellikleri oluşturuldu. ABD İngilizcesinde benzer seslere sahip “Serious” ve “Syria” gibi farklı kelimeler tespit edildi. Gelinen noktada Apple, doğru bir giriş için “Hey Siri”nin düzgün bir şekilde okunmasını önemsiyor.