(Tämä on neljästä osasta koostuvan postauksen kolmas osa, jossa 10 Gt/s asetetaan perspektiiviin. Ensimmäisessä osassa kuvailimme, mitä hypoteettinen elokuvia katseleva robotti voisi tehdä 10 Gt/s SSD-asemalla. Osassa 2 määriteltiin tietotekniikassa käytetyt standardimittayksiköt – bitit ja tavut. Tässä osassa yritetään selittää tallennukseen ja dataan liittyvä erityisen hämmentävä ongelma: kaksi yleisesti käytettyä määritelmää samoille yksikköjen etuliitteille.)
Oletko koskaan ostanut tietokonejärjestelmän, jossa oli esimerkiksi 500 Gt:n tallennuslaite, mutta kun käynnistit sen ensimmäistä kertaa, käyttöjärjestelmä ilmoitti vain 465 Gt:n kokoiseksi? Näimme osassa 2, että giga- tarkoittaa miljardia, joten 500 Gt:n aseman kapasiteetin pitäisi olla 500 miljardia tavua – ei 465 miljardia. Eikö niin?
Oikein!
Eikä myöskään oikein.
Jos satuit tutkimaan ristiriitaa, huomasit luultavasti, että puuttuva 35 Gt ei puuttunut lainkaan. Kyse on vain siitä, että giga- ei aina käytetä juuri niin kuin luulet, että sen pitäisi. Aivan kuten monet leipurit katsovat sanan tusina tarkoittavan 13:aa, joissain piireissä giga- käytetään tarkoittamaan 1,073,741,824! Monille meistä, jotka ovat kasvaneet ymmärtäen, että miljardi on 1 ja sen jälkeen yhdeksän 0:ta, tämä ”toinen” määritelmä saattaa tarvita selvennystä.
Muistimatkalla
Tietokoneet käyttävät datatiedostoissa olevia tietoja ja ohjeita. Nämä datatiedostot sijaitsevat nykyaikaisessa tietokonejärjestelmässä kahdessa paikassa: ensisijaisessa muistissa ja toissijaisessa muistissa. Ensisijainen muisti, nykyisin yleisimmin RAM-muisti (random access memory), sisältää tietoja, joita tietokoneen prosessorit voivat käyttää välittömästi. Toissijainen muisti on pääasiassa pidempiaikaista tallennustilaa, kuten kiintolevyjä (HDD) ja kiintolevyjä (SSD). Toissijaisessa muistissa olevat tiedot on ensin siirrettävä RAM-muistiin, ennen kuin tietokone voi käyttää niitä. Tilanne muistuttaa toimiston työpöytää ja arkistokaappia: Toimiston työpöydällä olevat asiakirjat ovat kuin RAM-muistissa olevia tiedostoja, sillä ne ovat ainoat, joita sinä – kuten tietokoneen prosessori – voit käyttää, lukea ja ryhtyä toimenpiteisiin välittömästi; voit käyttää myös arkistokaapissa eli toissijaisessa tallennusmuistissa olevia asiakirjoja, mutta vasta sen jälkeen, kun olet hakenut ne arkistokaapista ja sijoittanut ne työpöydälle.
Tiedoston koko riippumatta siitä, mistä se löytyy, ilmaistaan yleensä tavuina. Ja kuten tämän viestin osassa 2 mainittiin, koska nämä koot ovat tyypillisesti tuhansia, miljoonia tai jopa miljardeja tavuja, nämä koot mainitaan harvoin ilman erityisiä etuliitteitä. Ongelma johtuu siitä, että toissijaisten tallennuslaitteiden valmistajat ovat perinteisesti käyttäneet perinteisiä etuliitemääritelmiä asemiensa tallennuskapasiteetin mittaamiseen, kun taas RAM-muistien ja prosessorisirujen valmistajat ovat päättäneet käyttää toista määritelmää samoille etuliitteille!
Kahden järjestelmän tarina
Tietokone- ja elektroniikkateollisuudessa käytetään useimmiten metristä eli desimaali- eli desimaali- eli desimaalista etuliitejärjestelmää. Sen nykyinen muoto standardoitiin alun perin kansainvälisessä yksikköjärjestelmässä (SI) vuonna 1960. Metrisen etuliitejärjestelmän perustana on luku 10, joten sen etuliitteet vastaavat lukuja, jotka ovat 10:n kokonaislukupotensseja. Esimerkiksi kilo on 103 eli 10 kerrottuna kolme kertaa itsellään eli 1000. Järjestelmän myöhemmät etuliitteet voidaan helposti ilmaista tämän 1 000:n potensseina. Esimerkiksi etuliite mega- on 1,0002 (1,000,000) ja giga- on 1,0003 (1,000,000,000,000). Tallennusteollisuus käyttää metristä etuliitejärjestelmää kuvaamaan toissijaisten tallennuslaitteiden kapasiteettia.
Binäärinen etuliitejärjestelmä tulee käyttöön, kun puhutaan ensisijaisesta muistista. Binäärisen etuliitejärjestelmän pohjana on luku 2, joten sen etuliitteet vastaavat lukuja, jotka ovat kokonaislukujen potensseja 2:sta. Kun tiedot päätyvät primaarimuistiin, jokaiselle tiedolle annetaan yksilöllinen osoite, jonka avulla prosessori löytää tiedot tarvittaessa. 1960-luvun puoliväliin mennessä binääriosoitejärjestelmästä tuli tietokonearkkitehtuurien standardi, koska binäärijärjestelmän avulla muistissa oleva binäärinen data voidaan järjestää tehokkaimmin siten, että kaikilla on kelvolliset osoitteet.
Aluksi keskusmuistin kapasiteetit ilmaistiin absoluuttisina lukuina, mutta kun varhaistietokoneiden ammattilaiset huomasivat tarpeen ilmaista suurempia muistikapasiteetteja, he huomasivat myös tarpeen käyttää etuliitteitä niiden kuvaamiseen. Tallennusteollisuus oli jo omaksunut SI-pohjaisen metrisen etuliitejärjestelmän käytön. Yksinkertaisuuden vuoksi nämä ammattilaiset päättivät ottaa käyttöön myös etuliitejärjestelmän… tietyin muutoksin. He huomasivat, että luku 1 024 eli 210 (binääriluku) oli suunnilleen yhtä suuri kuin 1 000 eli 103 (desimaaliluku), joten he alkoivat käyttää etuliitettä kilo, joka ei tarkoita 1 000:ta vaan 1 024:ää! Järjestelmän myöhemmät etuliitteet voidaan ilmaista tämän 1 024:n potensseina. Esimerkiksi mega- muuttui 1,0242:ksi ja giga- muuttui 1,0243:ksi.
Oheinen taulukko laajentaa tämän postauksen toisessa osassa esiteltyä taulukkoa sisällyttämällä siihen kunkin etuliitteen merkityksen lisäksi myös molempien järjestelmien etuliitteiden tarkan arvon.
On kuitenkin muistettava, että hypoteettisen SSD-levyasemamme kokonaiskapasiteetti on edelleen 500 000 000 000 000 tavua. Kun tämä luku vain jaetaan gigatavulla, saadaan kaksi eri arvoa, koska gigatavulle on kaksi eri määritelmää. Kun määrittelet gigatavun 1 0003 (tai 1 000 000 000 000) tavuksi, kuten kansainvälisessä yksikköjärjestelmässä ja tallennusvälineiden valmistajilla on tapana, 500 000 000 000 000 tavua on sama kuin 500 Gt. Kun määrittelet gigatavun 1 0243 (tai 1 073 741 824) tavuksi, kuten RAM-valmistajat ja jotkin suuret käyttöjärjestelmät tekevät, 500 000 000 000 tavua on sama kuin 465 Gt.Alkuaikoina tämä ei ollut ongelma – ero likimääräisessä laskennassa oli häviävän pieni. Loppujen lopuksi metrisen kilotavun ja binäärisen kilotavun välinen ero on vain 2,4 prosenttia. Lisäksi jokainen, joka koskaan puhui kilotavusta, tiesi jo, oliko kyseessä 1 000 tavua tallennustilaa vai 1 024 tavua muistia. Ajan myötä sekä muistin että tallennustilan kapasiteetti alkoi kuitenkin kasvaa. Kapasiteetin kasvaessa saman etuliitteen desimaali- ja binääriarvojen väliset suhteelliset erot korostuvat. Vaikka esimerkiksi binäärisen ja metrisen kilo-arvon välinen ero saattaa olla vain 2,4 %, giga-arvon ero kasvaa molemmissa tulkinnoissa 7,4 %:iin ja 12,6 %:iin, kun puhutaan peta-arvosta!
Koska tämä ero saattaa aiheuttaa ongelmia, 1990-luvun lopulla alettiin tieteellisissä piireissä pyrkiä virallisesti ottamaan käyttöön uusi selkeä nimeämiskäytäntö suurten binäärilukujen etuliitteitä varten. Vuonna 1998 standardointielimet, Kansainvälinen sähkötekninen komitea (IEC), Kansainvälinen standardisoimisjärjestö (ISO) ja Kansallinen standardointi- ja teknologiainstituutti (NIST), hyväksyivät tuloksena syntyneet binääriset etuliitteet, ja niitä kutsutaan nyt ”IEC-etuliitteiksi”. Tämän järjestelmän etuliitteiden tarkoituksena on tehdä selvä ero näiden kahden järjestelmän välillä, ja ne muodostetaan supistumina, joissa yhdistetään SI-etuliitteiden kaksi ensimmäistä kirjainta ja kirjaimet bi (lyhenne sanoista binary). Seuraavassa taulukossa on luettelo etuliitteistä ja niiden merkityksistä.
Vaikka seuraukset siitä, että käytetään erehdyksessä yhtä etuliitettä, kun pitäisi käyttää toista, eivät ehkä ole yhtä dramaattiset kuin NASA:n Mars Climate Orbiterin surullisenkuuluisaan palamiseen vuonna 1999 johtanut sekaannus, kun sen ohjelmisto laski työntövoiman ”puntina”, mutta erillinen ohjelmisto otti tiedot vastaan olettaen, että ne olivat metrisessä yksikössä ”newtonit”, mutta näiden järjestelmien välisen eron ymmärtäminen voi pelastaa sinut yllätykseltä – tai ainakin hämmennykseltä.Valitettavasti kaikki tietokone-, ohjelmisto- ja muistivalmistajat eivät ole vielä alkaneet käyttää standardoituja tieteellisiä määritelmiä, joten näet todennäköisesti edelleen samaa etuliitettä käytettävän sekä metri- että binääritulkinnoissa. Kuluttajat voivat edelleen hämmentyä, kun heidän asentamansa tallennuslaite ilmoittaa yhden kapasiteetin käyttämällä vakioesimerkkejä, mutta heidän käyttöjärjestelmänsä, joka saattaa ilmaista ensisijaisen muistin ja toissijaisen tallennuskapasiteetin binääriesimerkillä, näyttää eri kapasiteetin. Nykyään useimmat tallennuslaitevalmistajat sisällyttävät tuotteisiinsa ja kirjallisuuteensa selityksiä, jotka määrittelevät käyttämänsä etuliitteen tarkan arvon.
Tämän postauksen seuraavassa osassa käsitellään tiedonsiirtonopeuksia ja erityisiä näkökohtia, jotka otetaan huomioon, kun niitä ilmaistaan datan avulla.