summaryrefslogtreecommitdiff
path: root/lib/Dakkar/TweetArchive/Store.pm
blob: c3840ea61f0daf2eb79fb3fcb63b9ef88b4d168e (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
package Dakkar::TweetArchive::Store; 
use 5.024;
use Moo;
use experimental 'signatures';
use DBI;
use Types::Standard qw(Str InstanceOf);
use DateTime::Format::Strptime;
use DateTime::Format::Pg;
use JSON::MaybeXS;
use namespace::clean;
 
has [qw(dsn user pass)] => (
    is => 'ro',
    required => 1,
    isa => Str,
);
 
has dbh => (
    is => 'lazy',
    isa => InstanceOf['DBI::db'],
);
 
sub _build_dbh($self) {
    return DBI->connect(
        $self->dsn, $self->user, $self->pass,
        {
            PrintError => 0,
            AutoCommit => 1,
            RaiseError => 1,
        },
    );
}
 
sub BUILD($self,@) {
    $self->_ensure_schema;
}
 
my $dt_parser = DateTime::Format::Strptime->new(pattern => '%a %b %d %T %z %Y');
my $dt_printer = DateTime::Format::Pg->new();
 
my $json_printer = JSON::MaybeXS->new(
    ascii => 1,
    pretty => 0,
    allow_nonref => 1,
    allow_unknown => 1,
    allow_blessed => 1,
    convert_blessed => 1,
);
 
sub latest_tweet_id($self) {
    return $self->dbh->selectall_arrayref(
        q{SELECT MAX(id) FROM tweets},
    )->[0][0];
}
 
sub store_tweet($self,$tweet) {
    # yes, the source most probably decoded this from a string, we 
    # have to serialise it again, so that PostgreSQL can parse it 
    # *again* 
    my $tweet_str = $json_printer->encode($tweet);
    my $created_at = $dt_parser->parse_datetime($tweet->{created_at});
 
    $self->dbh->do(<<'SQL', {},
INSERT INTO tweets(id,created_at,data) VALUES(?,?,?)
 ON CONFLICT (id) DO UPDATE SET
   created_at = EXCLUDED.created_at,
   data = EXCLUDED.data
SQL
                   $tweet->{id_str},
                   $dt_printer->format_datetime($created_at),
                   $tweet_str,
               );
}
 
sub _store_people($self,$people) {
    my @ids;
    for my $person ($people->@*) {
        my $person_str = $json_printer->encode($person);
        push @ids,
            $self->dbh->selectall_arrayref(<<'SQL',{},$person_str)->[0][0];
INSERT INTO people(data) VALUES (?)
ON CONFLICT (people_details(data)) DO UPDATE
 SET data=EXCLUDED.data
RETURNING id
SQL
    }
 
    return \@ids;
}
 
 
sub store_friends($self,$friends) {
    my $ids = $self->_store_people($friends);
 
    $self->dbh->do(<<"SQL", {}, $ids);
INSERT INTO friends(users) VALUES(?)
SQL
}
 
sub store_followers($self,$followers) {
    my $ids = $self->_store_people($followers);
 
    $self->dbh->do(<<"SQL", {}, $ids);
INSERT INTO followers(users) VALUES(?)
SQL
}
 
sub _schema_deploy($self,$next_version) {
    my $method_name = "_schema_deploy_${next_version}";
    if (my $method = $self->can($method_name)) {
        $self->dbh->begin_work;
        $self->$method();
        $self->dbh->do(<<'SQL', {}, $next_version);
INSERT INTO meta(version) VALUES (?)
SQL
        $self->dbh->commit;
        return 1;
    }
    else {
        return 0;
    }
}
 
sub _ensure_schema($self) {
    my $dbh = $self->dbh;
    # simple-minded schema version management 
    {
        # silence the 'NOTICE:  relation "meta" already exists, skipping' 
        local $dbh->{PrintWarn} = 0;
        $dbh->do(<<'SQL');
CREATE TABLE IF NOT EXISTS meta (
  version INTEGER PRIMARY KEY,
  created_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP
)
SQL
    }
    my $current_version = $dbh->selectall_arrayref(
        q{SELECT max(version) FROM meta}
    )->[0][0];
    $current_version //= 0;
 
    my $next_version = $current_version + 1;
    while ($self->_schema_deploy($next_version)) {
        ++$next_version;
    }
}
 
sub _schema_deploy_1($self) {
    $self->dbh->do(<<'SQL');
CREATE TABLE tweets (
  id VARCHAR(255) PRIMARY KEY,
  created_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP,
  data JSONB NOT NULL
)
SQL
}
 
sub _schema_deploy_2($self) {
    $self->dbh->do(<<'SQL');
CREATE TABLE followers (
  taken_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP PRIMARY KEY,
  users JSONB NOT NULL
)
SQL
    $self->dbh->do(<<'SQL');
CREATE TABLE friends (
  taken_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP PRIMARY KEY,
  users JSONB NOT NULL
)
SQL
}
 
sub _schema_deploy_3($self) {
    my $dbh = $self->dbh;
    $dbh->do(<<'SQL');
CREATE TABLE people (
  id SERIAL PRIMARY KEY,
  data JSONB NOT NULL
)
SQL
    $dbh->do(<<'SQL');
CREATE FUNCTION people_details(data jsonb) RETURNS text[] AS $$
 SELECT array[
   (data->>'id_str'),
   (data->>'url'),
   (data->>'name'),
   (data->>'location'),
   (data->>'description'),
   (data->>'screen_name'),
   (data->>'profile_image_url'),
   (data->>'profile_background_image_url')
  ];
$$ LANGUAGE SQL IMMUTABLE RETURNS NULL ON NULL INPUT
SQL
    $dbh->do(<<'SQL');
CREATE UNIQUE INDEX idx_people ON people (people_details(data))
SQL
 
    $dbh->do(<<'SQL');
CREATE TABLE new_followers (
  taken_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP PRIMARY KEY,
  users integer[] NOT NULL
)
SQL
    $dbh->do(<<'SQL');
CREATE TABLE new_friends (
  taken_at TIMESTAMP WITH TIME ZONE NOT NULL DEFAULT CURRENT_TIMESTAMP PRIMARY KEY,
  users integer[] NOT NULL
)
SQL
 
    $dbh->do(<<'SQL');
CREATE OR REPLACE FUNCTION migrate_people() RETURNS VOID AS $$
DECLARE
 f RECORD;
 p RECORD;
 ids INTEGER[];
BEGIN
 FOR f IN SELECT * FROM friends ORDER BY taken_at ASC LOOP
  RAISE NOTICE 'migrating friends at %s'f.taken_at;
  ids := '{}';
  FOR p IN INSERT INTO people(data)
    SELECT v FROM jsonb_array_elements(f.usersAS d(v)
    on CONFLICT (people_details(data)) DO UPDATE
    SET data=EXCLUDED.data
    RETURNING id LOOP
   ids := array_append(ids,p.id);
  END LOOP;
  INSERT INTO new_friends(taken_at,users) VALUES (f.taken_at,ids);
 END LOOP;
 
 FOR f IN SELECT * FROM followers ORDER BY taken_at ASC LOOP
  RAISE NOTICE 'migrating followers at %s'f.taken_at;
  ids := '{}';
  FOR p IN INSERT INTO people(data)
    SELECT v FROM jsonb_array_elements(f.usersAS d(v)
    ON CONFLICT (people_details(data)) DO UPDATE
    SET data=EXCLUDED.data
    RETURNING id LOOP
   ids := array_append(ids,p.id);
  END LOOP;
  INSERT INTO new_followers(taken_at,users) VALUES (f.taken_at,ids);
 END LOOP;
END;
$$ LANGUAGE PLPGSQL;
SQL
    $dbh->selectall_arrayref(q{SELECT migrate_people()});
    $dbh->do(q{DROP FUNCTION migrate_people()});
    $dbh->do(q{DROP TABLE friends});
    $dbh->do(q{DROP TABLE followers});
    $dbh->do(q{ALTER TABLE new_friends RENAME TO friends});
    $dbh->do(q{ALTER TABLE new_followers RENAME TO followers});
}
 
1;