Распарсиваем базу AOL. Пошаговое руководство.
Отвечая на коммент в предыдущей статье, сваял мануал:
Скачали 10 файлов баз и распаковали их в отдельную папку, у меня это E:\aol.

Переименуем их для простоты в 1.txt – 10.txt.

Запускаем Microsoft Access и создаем новую базу данных.

Называем базу “aol”

Идем в меню "Файл", "внешние данные", "связь с таблицами".

Выбираем тип файлов- "текстовые"

Выбираем первый файл 1.txt

И создаем с ним связь. Выбираем формат данных- с разделителями, нажимаем «Далее».

Разделителем ставим символ табуляции и ставим галочку "Первая строка содержит имена полей".

Теперь нужно выбрать поля для импорта. Нам нужно только второе поле "Query", а остальным полям ставим галочку "не импортировать (пропустить) поле".





Нажимаем "далее", имя связанной таблицы оставляем по умолчанию.

Нажимаем "Готово"- все связь установлена.

Получаем вот такую картину, теперь у нас появилась таблица "1":

Снова идем в меню "Файл", "внешние данные", "связь с таблицами". Выбираем следующий текстовый файл и повторяем процедуру подключения.

Таким образом подключаются все 10 файлов. В результате должно получиться вот что:

Теперь нужно создать запросы на выборку. Идем в "Запросы", "Создание запроса с помощью мастера".

Выбираем "Таблица 1", поле "Query".


Имя запроса оставляем по умолчанию. Нажимаем "Изменить макет запроса".

И попадаем вот сюда:

Идем в меню "Вид", "Режим "SQL".

Видим вот такой текст запроса:

Меняем его вот на такой запрос:
SELECT DISTINCT [1].[Query]
FROM 1
ORDER BY [1].[Query];

Сохраняем макет запроса и закрываем конструктор. Запускаем запрос и ждем пару минут...
Получаем следующую таблицу- результат выборки:

Не закрывая окно, идем в меню "Файл", "Экспорт".

Формат экспорта- "текстовые файлы":

Обзываем результирующий файл “b1.txt” и нажимаем "Сохранить все":

Далее запускается мастер экспорта, где выбираем формат экспорта- "с разделителями" и нажимаем кнопку "Дополнительно":

Ставим настройки как на рисунке и нажимаем "ОК".

Ждем несколько секунд, а может и минут и получаем вот такую картину:

Нажимаем "Далее".

И «Готово».

Файл “b1.txt” содержит только уникальные записи колонки “Query”.

Повторяем процедуру выборки из остальных подключенных таблиц. Можно создать еще 9 запросов, а можно редактировать первый, меняя имя таблицы "1" на "2"-"10".
В результате получим 10 файлов по 1.2 млн. уникальных запросов в каждом.

Кроме кейвордов в этих файлах содержится некоторое количество строк мусора, который желательно удалить из базы. Это можно сделать в каком-нибудь текстовом редакторе, удобнее всего, на мой взгляд, чистить базу в "TextPipePro". Но об этом в следующий раз.
| ноябрь, 2008 | ||||||
| пн | вт | ср | чт | пт | сб | вс |
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
