Monitorujemy media aby przewidywać przyszłość (Culturomics 2.0)

Culturomics 2.0 to narzędzie, dzięki któremu możliwe jest monitorowanie mediów na całym świecie i analizowanie danych, jakich dostarczają. To maszyna, która dosłownie czyta wszystkie codzienne wiadomości na całym świecie i przedstawia nam wnioski, jakie z tego wyciągnęła. Pośród rozlicznych zastosowań tego narzędzia znajduje się prognozowanie wydarzeń kulturowych, gospodarczych czy politycznych. Culturomics 2.0 działa od roku 2011 i ma już na swoim koncie przewidzenie momentu rozpoczęcia rewolucji w Egipcie czy też oszacowanie z dokładnością do 200 km miejsca, w którym znaleziono Osamę bin Ladena. Brzmi jak science-fiction? To czytajcie dalej, podczas warszawskiego Forum IAB rozmawiałam z twórcą tego projektu – Kalevem Leetaru.

Barbara Jakubek: W prostych słowach: czym jest Culturomics 2.0?
Kalev Leetaru: Mniej więcej rok temu grupa z Harvardu współpracująca z GoogleBooks (ich prezentację możecie zobaczyć tutaj) stworzyła tak zwany Culturomics 1.0, czyli koncepcję tego, co się stanie, jeśli się weźmie zeskanowaną treść książek i sprawdzi jak często pewne słowo pojawia się w tych książkach w określonym przedziale czasu, co stanowi o popularności słowa na przestrzeni czasu.

My zastosowaliśmy ten pomysł, by zobaczyć, co się stanie, jeśli się użyje codziennych wiadomości i spojrzy na geograficzny rozkład całości, żeby zobaczyć jak odpowiednie dane się ze sobą łączą. Zatem przykładowo obserwujesz to, jak dana emocja, pozytywna lub negatywna, wiąże się z danymi obszarami świata i jak one łączą się z innymi lokalizacjami w czasie i przestrzeni.
Zatem wychodzimy poza śledzenie słowa w czasie, rozważamy jak możemy badać te rzeczy jako całość, budując sieć emocji, i geograficznie i w czasie, i obserwujemy, co z tą wiedzą możemy zrobić.

BJ: Czy używacie tylko prasy czy też innych mediów? Czy używacie mediów społecznościowych i blogów?
KL: W tym konkretnym badaniu bierzemy pod uwagę tylko media głównego nurtu. Zatem badamy telewizję, radio, radio krótkofalowe, prasę – a więc dzienniki, magazyny, czasopisma branżowe etc. Zatem badamy całość głównego nurtu mediów, które tłumaczymy na angielski. Nie badamy natomiast mediów społecznościowych, ponieważ przez większość połowy stulecia, nad którym pracujemy, oczywiście media społecznościowe jeszcze nie istniały.

Teraz zaczynamy badać współczesną sieć, wkładamy dużo pracy w zgłębianie tego tematu. Kluczowe zagadnienia, jakie się pojawiają to takie, jak np. Twitter. Twitter ma duży zasięg w Stanach Zjednoczonych, natomiast w pewnych innych krajach go nie ma – są inne strony społecznościowe chętniej uczęszczane. Oczywiście trzeba zrozumieć ten krajobraz. Niejednokrotnie przekonujemy się, że inne media są częściej używane w branży technologicznej,a inne w branży sportowej, więc trzeba nieco lepiej zrozumieć ten układ. Ale to jest dokładnie to, do czego dążymy – media głównego nurtu, dają nam wgląd w historyczne prawidłowości, zaś social media dają nam coraz większą dokładność.

Na przykład w odniesieniu do ostatnich lat badamy anglojęzyczne Google News oraz wiadomości internetowe, co daje bardzo dużą dokładność danych. Zatem na przykład zamiast tysięcy lub dziesiątek tysięcy artykułów dziennie, możemy mieć ponad sto tysięcy dziennie. O tyle większe może być zagęszczenie artykułów z całego świata – a naszym zamysłem jest osiągać coraz większe zagęszczenie danych, w miarę jak wchodzimy w temat social media – i łączyć te dane.

Na przykład, jeśli zobaczę, że ilość tysięcy twitów o danym produkcie opada, czy ma to duże znaczenie? Mając tylko jeden rok danych, nie mogę dokonać wystarczających obserwacji. Jednak jeśli połączę te dane z danymi z GoogleBooks, z wiadomościami historycznymi, z wiadomościami z internetu i jeszcze z mediów społecznościowych, wówczas mogę spojrzeć na trend obejmujący znacznie dłuższy okres.

BJ: Jakie są najstarsze źródła, z jakich korzystacie?
KL: Obecne badania obejmują archiwum New York Times między 1945 a 2005 rokiem, kolekcję Summary of World Broadcasts (SWB), czyli kolekcję obejmującą brytyjskie źródła telewizyjne, monitorującą globalne media na świecie – od 1979 roku do teraz, kolekcję GoogleNews w języku angielskim – wiadomości z całego świata.

BJ: Czy będziecie sięgali po starsze media?
KL: Tak. W istocie badamy sporo projektów z tej samej kategorii, przewidując kondycję krajów. Ale także bardziej tradycyjne zagadnienia. Badamy zagadnienia z okresu wojny secesyjnej, cały zakres zagadnień historycznych, które są związane naukami humanistycznymi czy socjologią, zatem badamy ogromną ilość historycznych gazet, historycznych książek, nowszych materiałów z wielu różnych rodzajów źródeł. Spora część historii to nie tylko gazety i książki, ale i rękopisy, dokumenty pisane przez ludzi.

Jak w przypadku Abrahama Lincolna, jest wielka kolekcja jego listów i dokumentów.
Zatem integrujemy coraz więcej danych, ponieważ właśnie w tym są świetne maszyny, gdy nakarmimy je masą danych.

BJ: Zatem nawet bardzo stare dane są przydatne, ale jak stare?
KL: Póki co sięgamy do 1800 roku. Przykładowo GoogleBooks nie skanuje zbyt wielu książek sprzed 1800 rokiem, ponieważ są to materiały tak delikatne, że skanowanie musi być robione ręcznie. Nowsze materiały mogą zostać wsadzone do automatycznego skanera i nie trzeba się martwić o drobne uszkodzenia, ponieważ zwykle te książki występują w wielu egzemplarzach. Jednak gdybyśmy skanowali biblię Gutenberga, której zachowało się tylko parę egzemplarzy, raczej nie powierzy się skanowania tego maszynie. Zatem wiele zależy od dostępności materiałów.

Borykamy się też z tym, że jest sporo materiałów zeskanowanych pod kątem użycia przez ludzi, ale które nie zostały do końca opracowane. Przykładowo, znaleźliśmy kolekcję historycznych gazet zeskanowanych z mikrofilmów, zatem mieliśmy ogromne pliki pdf, po 2000 stron, które dają się przeczytać przez człowieka, ale trzeba nad nimi popracować, by były one możliwe do przeczytania przez maszynę, żeby to maszyna mogła przemielić te oryginalne artykuły, żebyśmy w ten sposób mogli jej podawać coraz więcej i więcej materiałów. Tak więc wiek materiałów jest istotnym czynnikiem, także czasem opłaca się zapłacić człowiekowi, by opracował dany materiał.

BJ: Czy używacie podobnych narzędzi jak te do prognozowania giełdy czy pogody?
KL: Nie jesteśmy za bardzo zainteresowani badaniami o tematyce ekonomicznej, już zbyt wielu ludzi się tym zajmuje. Prawdziwą wartością dla nas jest zobaczyć, w jakim kierunku porusza się dana giełda. To jest wartościowe, ale docelowym rezultatem tego jest wiedzieć na przykład (czym każda firma jest zainteresowana), który kraj może upaść. Jeśli jesteś firmą międzynarodową, inwestujesz w danym kraju, zdecydowanie interesuje cię, który kraj może jutro upaść. Ale zdecydowanie badamy całe spektrum zastosowań, zaczynamy poznawać cały zakres możliwości, jakie daje ten rodzaj technologii.

BJ: Jaki jest właściwie główny cel tego projektu?
KL: Cóż, istotą tego projektu jest sprawdzić, co można zrobić z danymi. Co się stanie, jeśli weźmiesz ogromny zbiór danych jak te, co możesz z tego wyciągnąć, jakie ciekawe obserwacje możesz poczynić. Także wiąże się to z zagadnieniem międzynarodowego bezpieczeństwa – co możemy powiedzieć o niebezpieczeństwie w różnych krajach, na ile są stabilne. Oczywiście zastosowanie wiąże się też z naukami humanistycznymi i socjologią.

Więc, patrząc wstecz badamy to co zostało powiedziane o zderzaniu się cywilizacji. To jest klasyczna sprawa, od najdawniejszych czasów, ludzie próbowali się włamać do cywilizacji. Mamy znane prace, od takich jak książka Huntingtona, w której on mówi, że w tym możemy upatrywać jak załamuje się świat, do badań nad tym, które kraje mają zamiar rozpocząć ze sobą wojnę – a które ze sobą handlują.
Ale to sprowadza się do tego, że jest wiele różnych punktów widzenia jak grupować kraje świata w cywilizacje. Tymi rzeczami się zajmujemy, patrzymy jak media opisują świat. Zatem to jest sposób, w jaki my używamy danych w nowy sposób, jak możemy wyciągnąć z tego nowy rodzaj informacji, i to jest rzecz, na której rzeczywiście się skupiamy.

BJ: Ale czy to będzie głównie do zastosowania dla polityki, dziennikarstwa, nauki?
KL: Dla wszystkich tych dziedzin. Według mnie, niewątpliwie i polityka i dziennikarstwo i wszelkie nauki humanistyczne i socjologia, to wszystko są przestrzenie, w których można to zastosować, jak również badania rządowe mające na celu zrozumienie, co się dzieje na świecie. Moim zdaniem, zastosowania są nieskończone, my szukamy raczej ogólnego spojrzenia, nowego sposobu myślenia o tym jak możemy użyć tych danych. Obecnie mamy nadzieję, że uda się stworzyć stronę dostępną publicznie na początku przyszłego roku, by pozwolić ludziom zobaczyć codziennie odświeżaną mapę światowych danych, by mogli naprawdę zobaczyć jak to się dzieje na żywo.

BJ: A więc to będzie dostępne dla wszystkich?
KL: Taką mamy nadzieję.

BJ: A co z zastosowaniem komercyjnym?
KL: Bardzo chętnie o tym rozmawiamy. Wykonaliśmy dużą pracę nad danymi firm z listy Fortune 500 i obserwujemy, co możemy wyciągnąć z ich danych. Pracujemy z dużą ilością firm, które mają tak wiele danych, że bardzo potrzebują odpowiednich narzędzi, by wyciągnąć z nich wnioski. Gromadząc ogromny zasób danych dotarli do punktu, w którym wszystkie pytania, jakie mogli postawić przed tymi danymi, już postawili. Kiedy my zaczynamy pracować z tymi modelami, widać, co się dzieje, jeśli ma się maszynę z miliardem zmiennych, która ci powie jakie prawidłowości widzi w tych danych i co z tego może być przydatne. Także my bardzo chętnie rozmawiamy o tym z ludźmi.

BJ: Czy widzisz różnicę w jakości danych pomiędzy mediami z Azji, np. z Pakistanu, a danymi, jakie pozyskujecie ze Stanów Zjednoczonych?
KL: Jeśli chodzi o sprawę mediów, które możemy monitorować w Pakistanie w porównaniu z naszymi – jak najbardziej tak. I to jest problem, nad którym teraz mocno pracujemy. Na przykład Haiti – nie mamy globalnie zbyt wielu wiadomości na temat Haiti. Przed trzęsieniem ziemi w New York Times ostatnia wzmianka o Haiti była kilka miesięcy, jeśli nie rok wcześniej.

To samo jest z social media. W pewnych krajach są bardzo silne, zaś w innych, np. w Meksyku, w wielu miejscach Ameryki Południowej, pewne typy mediów społecznościowych, jak mikroblogi, są bardzo rzadkie, albo są używane tylko na obszarach bardziej rozwiniętych centrów albo większych miast.

Także nie możemy się dostać wszędzie, nie mamy sygnału z terenów słabiej zamieszkanych. To stanowi problem na wielu obszarach, nawet w Stanach Zjednoczonych nie sięgamy do większości ludzi, lecz tylko do większych miast mocno ze sobą zkomunikowanych. Rolnicy na całym świecie nie siedzą cały czas na Twitterze twittując.

Zatem częścią trudności, z jakimi się zmagamy jest gromadzenie danych z całego świata. To, co odkryliśmy, to fakt, że próbuje się budować coś, co nazywamy mediafabric. Na przykład CIA, to, co zauważyli monitorując Afrykę w ostatnich latach, to to, że kraje, które były wcześniej francuskimi koloniami albo koloniami innych europejskich krajów, są monitorowane przez media takie jak AFP (Agence France-Presse – francuska agencja prasowa). Oczywiście Francję obchodzi to, co się dzieje w jej byłych koloniach, więc jest wielu reporterów obserwujących wydarzenia w tych krajach. Także AFP wykonuje lepszą pracę lub raczej pracę, do której wyników łatwiej się dostać pisząc o Gabonie, niż byśmy mogli otrzymać korzystając z innych źródeł.

źródło: uic.edu

A i odwrotnie, te kraje patrzą uważnie na inne. Zatem zastanawiasz się, kto mógłby być zainteresowany krajami takimi jak Liberia, które media mogą obejmować ją swoim zasięgiem, a monitorując to wszystko, możesz rozpocząć triangulację dotyczącą tego kraju. Jednak to oczywiście jest problem. Oczywiście jest o wiele więcej mediów opisujących Stany Zjednoczone niż opisujących Liberię, to stanowi trudność, ale znowu to jest to, o co chodzi w kreatywnej analizie.

Rozpatrujemy ilość tweetow dotyczących tych krajów. Oczywiście, że jest ich duża ilość. Jednak tym, co nas interesuje jest to, co ludzie mówią o tych krajach i co my możemy z tego wywnioskować. Czasem potrzebujesz wystarczającą ilość materiału, nie ogromną, ale wystarczającą, by wysnuć wiarygodne wnioski o prawidłowościach.

BJ: Czy widzicie cenzurę w niektórych krajach?
KL: To ciekawa część. Jeśli spojrzysz na ton prasy egipskiej na dzień przed rozpoczęciem protestów – jest stabilna, solidna, nie widzisz żadnych niepokojących oznak – ponieważ to, co faktycznie miało miejsce, to fakt, że rząd egipski chciał mieć kontrolę nad mediami. Zatem rząd egipski bardzo pilnował mediów, by zapobiec wypływowi negatywnych informacji lub też generować pozytywne. I tu jest zaleta monitorowania całego świata, a nie tylko prasy egipskiej, ponieważ reszta światowej prasy nie była w ogóle objęta cenzurą, (poza pewnymi krajami, jak Iran, który w końcu zaczął cenzurować informacje o Egipcie, by zapobiec rewolucji u nich). Dzięki agregowaniu wiadomości z całego świata możemy połączyć elementy układanki w całość i w ten sposób poradzić sobie z tego rodzaju problemami.

BJ: Czy sądzisz, że nastąpi sprzężenie zwrotne między Twoim narzędziem a prasą?
KL: Myślę, że jest jak najbardziej odbicie pomiędzy tymi mediami. Jest to przydatne z punktu widzenia reportera, który może zobaczyć trendy na całym świecie, które mogą być interesujące do zbadania. Ale także pozwala to zrozumieć jak działa praca reporterów, co dzieje się w konkretnej Liberii, jak to jest opisywane w mediach i jak ta informacja rozchodzi się po świecie. Zwłaszcza przypadku mediów społecznościowych. Jak media społecznościowe oddziałują na media głównego nurtu, jakie jest sprzężenie miedzy nimi, co my możemy z tego zrozumieć w sensie znalezienia dla tego zastosowania, jak możemy użyć tego rodzaju materiałów. Tak więc myślę, że są ogromne możliwości rozwijania tego wszystkiego.

BJ: Dzięki wielkie za wywiad.

About Barbara Jakubek

Barbara Jakubek – zastępca Maćka w redakcji Mediafun Magazynu.
Jeśli nie chcesz przegapić żadnego wpisu na tym blogu (zarówno mediafunowych tematów jak i z www.ProjektIslandia.pl) zostaw swojego maila – na Twoją skrzynkę mailową będziesz dostawał na powiadomienia o nowych materiałach (w każdej chwili możesz wypisać się z tej listy).

Podobne wpisy

2 Responses to Monitorujemy media aby przewidywać przyszłość (Culturomics 2.0)

  1. Z podobnych projektów, które pochodzą głównie z USA, polecam także aplikację Recorded Future. Skupia się głównie na tym, co pojawia się w sieci, także w mediach społecznościowych. I jest to projekt komercyjny – firmy mogą z tego spokojnie korzystać: https://www.recordedfuture.com/

  2. Barbara Jakubek says:

    Też o podobnym podejściu do analizy danych jest rodzimy blog http://smarterpoland.pl/,
    autor bloga Przemysław BIecek pojawia się w ostatniej Polityce:
    http://www.polityka.pl/nauka/komputeryiinternet/1

Leave a Reply

Please use your real name instead of you company name or keyword spam.